当前位置: 首页 > news >正文

LLMs可在2位精度下保持高准确率

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

LLMs可在2位精度下保持高准确率:北卡罗来纳大学教堂山分校研究团队提出TACQ,一种任务感知量化方法,可在不损失性能的情况下压缩关键权重回路

大型语言模型(LLMs)在多个应用领域展现出卓越能力,但其巨大的计算和内存需求依然是部署难题。特别是在需本地部署以保障隐私(如处理敏感医疗记录),或计算资源有限(如实时客服系统、边缘设备)等场景中,这一问题尤为突出。后训练量化(Post-Training Quantization, PTQ)被视为有效压缩预训练模型、降低内存使用的可行方案,可实现2至4倍的内存节省。然而,当前的PTQ技术在压缩至4位以下时面临显著性能下降的问题,尤其在2位和3位精度下表现尤为不佳。多数PTQ方法依赖通用预训练数据的小批量样本来模拟量化后激活的变化,这限制了其在更低精度下的表现。

现有LLM压缩方法主要分为三类:

  1. 均匀量化(Uniform Quantization):最基础的方法,将16位浮点权重按行独立压缩,通过通道内最大最小值进行映射。
  2. 基于GPTQ的量化方法:通过层级重构以最小化量化后的重构损失,提升性能。
  3. 混合精度量化(Mixed-Precision Quantization):对不同权重分配不同精度,保留“异常”高敏感权重的高精度,以在低位数下维持性能。

北卡罗来纳大学教堂山分校的研究人员提出了一种新的混合精度后训练量化方法——TaskCircuit Quantization(TACQ)。该方法受自动电路发现理念启发,在量化过程中直接依据下游任务表现所需的关键“权重回路”进行调整。TACQ通过比较未量化模型权重与均匀量化权重,评估量化对权重的预期影响,并结合梯度信息预测其对任务表现的影响,从而优先保留关键权重。即便在使用相同校准数据与更低权重预算的情况下,TACQ也表现优于多种基准方法,尤其在2位和3位精度下取得显著突破。

TACQ的核心在于其显著性指标(saliency metric),用于识别在量化过程中应被保留的关键权重。这一指标结合两大技术:

  • 量化感知定位(Quantization-aware Localization, QAL):评估权重变化对模型性能的影响。
  • 幅度加权梯度(Magnitude-sharpened Gradient, MSG):借鉴输入归因技术,衡量权重绝对重要性的广义指标,用于修正QAL的偏差并稳定评估过程。

QAL与MSG共同构建出一套统一的显著性评估机制,可在单次反向传播中对所有权重进行有效打分,并选出得分前p%的关键权重以16位精度保留。

在极具挑战性的2位精度设定中,TACQ在多个基准任务中表现出压倒性优势,具体如下:

  • 在GSM8k上,准确率从20.1%提升至36.1%,提升16.0%;
  • 在MMLU上,从34.8%提升至49.2%,提升14.1%;
  • 在Spider上,从0%跃升至21.9%,实现21.9%的绝对提升。

相比之下,GPTQ、SqueezeLLM、SPQR等现有方法在2位精度下几乎退化至随机表现水平。
在3位精度下,TACQ保留了原始准确率的:

  • 91%(GSM8k)、
  • 96%(MMLU)、
  • 89%(Spider),

并在多数数据集上以1-2%的优势超越最强对手SliM-LLM。尤其在Spider这类需要连续生成token的任务中,TACQ是唯一能在2位精度下保持可观表现的方案,展现了在文本生成与SQL生成等序列输出场景中的独特优势。

结语
TACQ的提出标志着任务感知型后训练量化技术的一大进展,成功解决了以往方法在2至3位精度下性能严重下降的问题。该方法与“自动电路发现”领域研究相呼应,通过在压缩过程中仅保留少量重要权重,揭示了任务表现与稀疏权重“回路”之间的紧密联系。Spider上的实验表明,TACQ在生成类任务中更能保留模型能力,适用于代码生成等高频可执行输出场景,同时也为追求效率的AI代理系统带来新的解决方案。

相关文章:

  • AWS Lambda 架构深入探究
  • 客户端 AI 与服务器端 AI 的深度比较及实践建议?
  • Shader属性讲解+Cg语言讲解
  • 【codeforces思维题】前缀和的巧妙应用(2053B)
  • CF912E
  • 跨团队协作时流程不统一,如何协调
  • HarmonyOS:1.7
  • stm32教程:HC-SR04超声波模块
  • 是否可以使用非被动 S4P 文件进行反嵌?
  • KAN 与 MLP 的深入比较
  • Spring Boot Actuator 详细使用说明(完整代码与配置)
  • 第五篇:linux之vim编辑器、用户相关
  • 精准管控,安全护航 -Acrel-2000 电力监控系统助力配电房数字化升级
  • [企业应用开发] 十年稳定使用体验谈:Bex5 企业内部系统开发平台实践总结
  • 基于机器学习的多光谱遥感图像分类方法研究与定量评估
  • Linux与Anaconda环境部署与管理(运维交接)
  • Windows 同步-Windows 单向链表和互锁链表
  • OpenCV物体计数示例
  • docker本地虚拟机配置
  • 课外知识:isinstance()与issubclass()的区别
  • 我国将组织实施梦舟飞船零高度逃逸、揽月着陆器综合着陆起飞验证等试验
  • 神二十具备执行发射任务的各项条件
  • 江西九江市人大常委会原副主任戴晓慧主动交代问题,接受审查调查
  • 北美票房|《罪人》成首部观众评分为A级的恐怖片
  • 中印尼举行外长防长“2+2”对话机制首次部长级会议
  • 全球前瞻|中国印尼举行首次“2+2”部长级会议,美乌将签署矿产协议