首页 > 动漫

MosaicML 推出 300 亿参数模型,训练成本 70 万|世界观焦点

来源:OSCHINA 时间:2023-06-25 01:17:56


(资料图片仅供参考)

AI 创业公司 MosaicML 近日发布了其语言模型 MPT-30B,单从参数来看,这个模型具有 300 亿参数,放在如今动则上千亿参数的模型领域中并没有什么突出的地方。但这个新模型的训练成本却只有其他模型的零头,有望扩大模型在更广泛领域的运用。

MosaicML 的首席执行官兼联合创始人 Naveen Rao 表示,MPT-30B 的训练成本为 70 万美元,远低于训练 GPT-3 所需的数千万美元。此外,MPT-30B 模型的质量超过了 OpenAI 在 2020 年发布的初版 GPT-3。由于 MPT-30B 的成本较低,体积较小,它也可以更快速地被训练,并部署在本地硬件设备上。

MosaicML 使用了 Alibi 和 FlashAttention 技术来优化模型,可以实现更长的文本长度和对 GPU 计算的高利用率。MosaicML 也是少数几个能够使用 Nvidia H100 GPU 的实验室,相比以往,这使得每 GPU 的吞吐量增加了 2.4 倍以上,带来更快的完成时间。

300 亿参数这是一个在大模型领域经常看到的数字,300 亿参数为什么这么特殊呢?MosaicML 首席科学家 Frankle 则解释道,首先 300 亿参数能够确保它可以在本地硬件上轻松运行,同时保持质量与 GPT-3 差不多或略优于它。

其次任何超过 300 亿参数限制的模型都需要将模型分解成多个平行段,通常也需要更加昂贵的多 GPU 设置。

除了让 AI 技术更容易获得之外,MosaicML 还专注于提高数据质量,以提高模型性能。他们目前正在开发工具,帮助用户在预训练过程中分层加入特定领域的数据。这确保了多样化和高质量的数据组合。将模型扩展到 300 亿参数只是 MosaicML 的第一步,接下来他们将以降低成本为前提,推出更大的、更高质量的模型。

开发者可以从 Hugging Face 下载并使用开源的 MPT-30B 基础模型,开发者还可以在自己的硬件上用自己的数据对模型进行微调。

相关稿件

MosaicML 推出 300 亿参数模型,训练成本 70 万|世界观焦点

北青:戴伟浚已与上海申花签约,将身披9号球衣|全球今热点

斯玛特发文向波士顿告别:虽未拿到第18冠但无比骄傲

高温橙色预警!京津冀鲁等地或再挑战40℃

焦点简讯:特斯拉FSD隐藏“埃隆模式”:900公里无提醒,并可双手离开方向盘

第四届鼓浪屿音乐节将于7月15日至24日举办-全球新动态

尚太科技:二季度应用于储能电池的负极材料出货量处于爬坡阶段

海口市应急管理局:专家研判近期海南发生破坏性地震可能性不大

2023年1-4月中国乙烯产量为1043.4万吨 华东地区产量最高(占比44.6%)

今亮点!传荷兰最早下周发布新出口管制措施 限制ASML对华半导体设备出口

意媒:布罗佐维奇想加盟巴萨,但其经纪人正推动他前往沙特_天天报道

曼奇尼:弗拉泰西需要参加俱乐部欧战,踢英超对托纳利有好处|今亮点

吃什么?去哪儿玩?数说端午消费

西宁市气象台继续发布雷电黄色预警信号 【2023-06-23】

最新提示!泰山景区23日夜间时段门票预约已满

天天新消息丨滴滴:端午休闲娱乐订单较节前增长80%

奇葩!男子“偷”走两条路,民警一看:真没了

强降雨袭多地,6月24日预报 环球新视野

环球观天下!这份心理调适指南,送给高考后的你们

新动态:2020年市场行情分化、机构抱团与高估值

刑法中交通肇事罪怎么处理 环球观点

姓名权的侵权行为表现是怎样的|环球报道 每日热文

快看点丨会用五笔的人是不是很厉害? 现在还用五笔打字的,究竟是些什么人?

全球新资讯:房产证上会有抵押状况吗 当前报道

全球新资讯:中国消费股投资的底线思维——参考日本30年消费降级中的成长股

世界观察:6.24大盘早评分析

北京中考语文作文题目出炉!“我读到的北京”和“我生活中的一棵树”二选一

天天视讯!信用市场周度跟踪:4张表看信用债涨跌

科斯第一定律是什么是外部性内部化的方案_科斯第一定律

六月第4期:六大策略组合表现:宽信用本周收益率为0.5%_全球独家