首页 > 读书

将330亿参数大模型「塞进」单个消费级GPU,加速15%、性能不减

来源:机器之心 时间:2023-06-23 06:17:02


(相关资料图)

机器之心报道

编辑:小舟、陈萍

个人终端设备跑大模型成为现实了。

预训练大语言模型(LLM)在特定任务上的性能不断提高,随之而来的是,假如 prompt 指令得当,其可以更好的泛化到更多任务,很多人将这一现象归功于训练数据和参数的增多,然而最近的趋势表明,研究者更多的集中在更小的模型上,不过这些模型是在更多数据上训练而成,因而在推理时更容易使用。
举例来说,参数量为 7B 的 LLaMA 在 1T token 上训练完成,尽管平均性能略低于 GPT-3,但参数量是后者的 1/25。不仅如此,当前的压缩技术还能将这些模型进一步压缩,在保持性能的同时还能大幅减少内存需求。通过这样的改进,性能良好的模型可以在终端用户设备(如笔记本)上进行部署。
然而,这又面临另一个挑战,即想要将这些模型压缩到足够小的尺寸以适应这些设备,怎样才能兼顾生成质量。研究表明,尽管压缩后的模型生成的答案准确率还可以,但现有的 3-4 位量化技术仍然会让准确性降低。由于 LLM 生成是顺序进行的,依赖于先前生成的 token,小的相对误差不断累积并导致严重的输出损坏。为了确保可靠的质量,关键是设计出低位宽的量化方法,与 16 位模型相比不会降低预测性能。
然而,将每个参数量化到 3-4 位通常会导致中等程度、甚至是高等程度的准确率损失,特别是那些非常适合边缘部署的 1-10B 参数范围内的较小模型。
为了解决准确性问题,来自华盛顿大学、苏黎世联邦理工学院等机构的研究者提出了一种新的压缩格式和量化技术 SpQR(Sparse-Quantized Representation,稀疏 - 量化表征),首次实现了 LLM 跨模型尺度的近无损压缩,同时达到了与以前方法相似的压缩水平。
SpQR 通过识别和隔离异常权重来工作,这些异常权重会导致特别大的量化误差,研究者将它们以更高的精度存储,同时将所有其他权重压缩到 3-4 位,在 LLaMA 和 Falcon LLMs 中实现了不到 1% 的困惑度相对准确率损失。从而可以在单个 24GB 的消费级 GPU 上运行 33B 参数的 LLM,而不会有任何性能下降,同时还能提高 15% 的速度。
SpQR 算法高效,既可以将权重编码为其他格式,也可以在运行时进行有效地解码。具体来说,该研究为 SpQR 提供了一种高效的 GPU 推理算法,可以比 16 位基线模型更快地进行推理,同时实现了超过 4 倍的内存压缩收益。
论文地址:/pdf/
项目地址:/Vahe1994/SpQR
方法
该研究提出一种混合稀疏量化的新格式 —— 稀疏量化表征(SpQR),可以将精确预训练的 LLM 压缩到每个参数 3-4 位,同时保持近乎无损。
具体来说,该研究将整个过程分为两步。第一步是异常值检测:该研究首先孤立了异常值权重,并证明其量化会导致高误差:异常值权重保持高精度,而其他权重以低精度(例如 3 位的格式)存储。然后,该研究以非常小的组大小实现分组量化(grouped quantization)的变体,并表明量化尺度本身可以被量化为 3 位表征。
SpQR 极大地减少了 LLM 的内存占用,而不会降低准确性,同时与 16 位推理相比,LLM 的生成速度快了 20%-30%。
此外,该研究发现,权重矩阵中敏感权重的位置不是随机的,而是具有特定的结构。为了在量化过程中突出显示其结构,该研究计算了每个权重的敏感度,并为 LLaMA-65B 模型可视化这些权重敏感度。下图 2 描绘了 LLaMA-65B 最后一个自注意力层的输出投影。
该研究对量化过程进行了两个改变:一个用于捕捉小的敏感权重组,另一个用于捕捉单个的异常值。下图 3 为 SpQR 的总体架构:
下表为 SpQR 量化算法,左边的代码片段描述了整个过程,右边的代码片段包含了二级量化和查找异常值的子程序:
实验
该研究将 SpQR 与其他两种量化方案进行了比较:GPTQ、RTN(rounding-to-nearest),并用两个指标来评估量化模型的性能。首先是困惑度的测量,所用数据集包括 WikiText2、 Penn Treebank 以及 C4;其次是在五个任务上的零样本准确率:WinoGrande、PiQA、HellaSwag、ARC-easy、ARC-challenge。
主要结果。图 1 结果显示,在相似的模型大小下,SpQR 的性能明显优于 GPTQ(以及相应的 RTN),特别是在较小的模型上。这种改进得益于 SpQR 实现了更多的压缩,同时也减少了损失退化。
表 1、表 2 结果显示,对于 4 位量化,与 GPTQ 相比,SpQR 相对于 16 位基线的误差减半。
表 3 报告了 LLaMA-65B 模型在不同数据集上的困惑度结果。
最后,该研究评估了 SpQR 推理速度。该研究将专门设计的稀疏矩阵乘法算法与 PyTorch(cuSPARSE)中实现的算法进行了比较,结果如表 4 所示。可以看到,尽管 PyTorch 中的标准稀疏矩阵乘法并没有比 16 位推理更快,但本文专门设计的稀疏矩阵乘法算法可以提高约 20-30% 的速度。

©THE END

转载请联系本公众号获得授权

投稿或寻求报道:content@

相关稿件

将330亿参数大模型「塞进」单个消费级GPU,加速15%、性能不减

录音机在线录音_录音器在线使用 重点聚焦

(粽情千里)里约中国国际学校举办端午节活动 当地贫民社区居民吃粽子感受中国传统文化_世界新要闻

中央再点名,“黄山样本”成焦点|环球观察

全球观点:羊肉汤怎么做才会好喝?

大学生助力退捕渔民转型“上岸” 今日热闻

屯溪区:新安江畔 “葵花海” 金色美景引“客”来|环球通讯

时讯:近百家企业应邀参加!黟县文旅高端商务专场推介会在合肥成功举办!

50岁男士生日应送什么礼物?早期探险家服装造型创意或许是一个不错的选择!_世界播报

当前资讯!特斯拉超级充电网价值几何?大摩:1000亿美元!

宁波新修改文明行为促进条例亮点多 过马路不能当"低头族"

今日美元/日元汇率基本面分析及交易策略(2023年6月22日)

FF91 交付再“跳票”,贾跃亭的FF仍需融资3亿美元_环球观热点

长的好看,十二生肖最颜控的生肖是哪一个?|每日消息

华为智选的城区NCA什么样? 问界M5智驾版挑战深圳华强北

鸿远电子:公司SLCC、陶瓷管壳产品有给光模块厂家供样并有小批量的供货

透支信用卡转贷他人 聪明反被聪明误

用Stata进行量化分析_关于用Stata进行量化分析介绍|热讯

甘肃庆阳:端午来临 传承千年的指尖非遗“云畅销”

头条焦点:东莞道滘龙舟竞渡 13条蛟龙角逐“龙王”

聚焦“百千万工程”|新兴12个乡镇“政银企村户”共建家庭农场项目全部开建

甘肃一小学多名学生疑遭推搡挤压致伤,家长称讨要康复费受阻 世界速看料

前沿热点:neterrnamenotresolved怎么解决 neterr_name_not_resolved

美联储提供的贴现窗口贷款规模从一周前的36.2亿美元降至32.1亿美元|环球即时看

中国中冶:拟向特定对象发行优先股募资不超150亿元

【世界新视野】广西左江之畔百舸争流赛龙舟 上演水上“速度与激情”

广西高考生可于6月24日至25日申请成绩复核 世界独家

放“粽”军营 广西南宁武警官兵别样过端午

环球快消息!反转!萧敬腾出现被传吸毒,警方要求做二次毛发检测,结果来了

桂林平乐县组织企业参加第23届广西名特优农产品(广州)交易会 环球播报