首页 > 书画

焦点简讯:MosaicML 推出 300 亿参数模型,训练成本 70 万

来源:OSCHINA 时间:2023-06-25 01:30:25


【资料图】

AI 创业公司 MosaicML 近日发布了其语言模型 MPT-30B,单从参数来看,这个模型具有 300 亿参数,放在如今动则上千亿参数的模型领域中并没有什么突出的地方。但这个新模型的训练成本却只有其他模型的零头,有望扩大模型在更广泛领域的运用。

MosaicML 的首席执行官兼联合创始人 Naveen Rao 表示,MPT-30B 的训练成本为 70 万美元,远低于训练 GPT-3 所需的数千万美元。此外,MPT-30B 模型的质量超过了 OpenAI 在 2020 年发布的初版 GPT-3。由于 MPT-30B 的成本较低,体积较小,它也可以更快速地被训练,并部署在本地硬件设备上。

MosaicML 使用了 Alibi 和 FlashAttention 技术来优化模型,可以实现更长的文本长度和对 GPU 计算的高利用率。MosaicML 也是少数几个能够使用 Nvidia H100 GPU 的实验室,相比以往,这使得每 GPU 的吞吐量增加了 2.4 倍以上,带来更快的完成时间。

300 亿参数这是一个在大模型领域经常看到的数字,300 亿参数为什么这么特殊呢?MosaicML 首席科学家 Frankle 则解释道,首先 300 亿参数能够确保它可以在本地硬件上轻松运行,同时保持质量与 GPT-3 差不多或略优于它。

其次任何超过 300 亿参数限制的模型都需要将模型分解成多个平行段,通常也需要更加昂贵的多 GPU 设置。

除了让 AI 技术更容易获得之外,MosaicML 还专注于提高数据质量,以提高模型性能。他们目前正在开发工具,帮助用户在预训练过程中分层加入特定领域的数据。这确保了多样化和高质量的数据组合。将模型扩展到 300 亿参数只是 MosaicML 的第一步,接下来他们将以降低成本为前提,推出更大的、更高质量的模型。

开发者可以从 Hugging Face 下载并使用开源的 MPT-30B 基础模型,开发者还可以在自己的硬件上用自己的数据对模型进行微调。

相关稿件

焦点简讯:MosaicML 推出 300 亿参数模型,训练成本 70 万

农村籍高校毕业生的就业选择,有何特点?

一季度中国支付体系运行平稳 人民币跨境支付系统业务量较快增长-环球今亮点

印尼雅万高铁联调联试时速达到350公里

环球热点评!崔永辉调研推进城中村现代化治理工作

厦门地铁6号线角美延伸段角社盾构区间实现双线贯通 每日快报

今日快看!剑桥美女学霸:嫁豪门8年,怀孕后却遭抛弃,反手给富豪上了一课 关注

八部门联合发文加快推进深远海养殖发展 环球精选

环球动态:福建2023年高考成绩下午可查 录取控制线傍晚或发布

党建引领促共建 端午“粽”情暖民心

薛丽萍家庭被评为第三届江苏省文明家庭

浙江5车追尾致6死 警方通报 今日视点

特斯拉FSD暗藏彩蛋 “埃隆模式”开启L3自动驾驶 时速限制下可脱手脱脚-全球关注

打造“果旅融合”新路径 小小百香果成为“致富果”“幸福果”_全球球精选

世界新消息丨中国消费股投资的底线思维——参考日本30年消费降级中的成长股

房产证上会有抵押状况吗 当前报道

296.6毫米!广西这个地方达到特大暴雨量级

舒适透气 轻薄修身:真维斯直筒/束脚裤29.9元好价 环球今日讯

上海:留学生相聚朱家角古镇过端午 环球今亮点

长城景区门事件引质疑-每日快播

最新消息:《苦寻儿子22年,长沙“雷公”收到喜讯》后续:第二次DNA匹配成功,即将赶往深圳与孩子见面

花与茶携手 芳香满园名满天下

2022年报中国A股通信设备上市公司分析:归属母公司净利润累计261.47亿元,15.91%的企业出现亏损

推动品牌建设上台阶

第四届鼓浪屿音乐节将于7月15日至24日举办-世界速看

“敬礼娃娃”郎铮文科637,四川省前30!_世界热议

浙江龙游发生5车追尾事故,致6人死亡 每日热门

文明旅游在行动 | 端午假期在厦讲文明 舒心游_重点聚焦

山东继续发布红色高温预警!这些地方41℃ 全球观速讯

环球短讯!央媒说“宁” | 非遗游、避暑游、文化游……端午假期这些消费新体验等你打卡!