首页 > 读书

【世界新视野】MosaicML 推出 300 亿参数模型,训练成本 70 万

来源:OSCHINA 时间:2023-06-25 00:13:39


【资料图】

AI 创业公司 MosaicML 近日发布了其语言模型 MPT-30B,单从参数来看,这个模型具有 300 亿参数,放在如今动则上千亿参数的模型领域中并没有什么突出的地方。但这个新模型的训练成本却只有其他模型的零头,有望扩大模型在更广泛领域的运用。

MosaicML 的首席执行官兼联合创始人 Naveen Rao 表示,MPT-30B 的训练成本为 70 万美元,远低于训练 GPT-3 所需的数千万美元。此外,MPT-30B 模型的质量超过了 OpenAI 在 2020 年发布的初版 GPT-3。由于 MPT-30B 的成本较低,体积较小,它也可以更快速地被训练,并部署在本地硬件设备上。

MosaicML 使用了 Alibi 和 FlashAttention 技术来优化模型,可以实现更长的文本长度和对 GPU 计算的高利用率。MosaicML 也是少数几个能够使用 Nvidia H100 GPU 的实验室,相比以往,这使得每 GPU 的吞吐量增加了 2.4 倍以上,带来更快的完成时间。

300 亿参数这是一个在大模型领域经常看到的数字,300 亿参数为什么这么特殊呢?MosaicML 首席科学家 Frankle 则解释道,首先 300 亿参数能够确保它可以在本地硬件上轻松运行,同时保持质量与 GPT-3 差不多或略优于它。

其次任何超过 300 亿参数限制的模型都需要将模型分解成多个平行段,通常也需要更加昂贵的多 GPU 设置。

除了让 AI 技术更容易获得之外,MosaicML 还专注于提高数据质量,以提高模型性能。他们目前正在开发工具,帮助用户在预训练过程中分层加入特定领域的数据。这确保了多样化和高质量的数据组合。将模型扩展到 300 亿参数只是 MosaicML 的第一步,接下来他们将以降低成本为前提,推出更大的、更高质量的模型。

开发者可以从 Hugging Face 下载并使用开源的 MPT-30B 基础模型,开发者还可以在自己的硬件上用自己的数据对模型进行微调。

相关稿件

【世界新视野】MosaicML 推出 300 亿参数模型,训练成本 70 万

焦点快报!黑龙江高考一本分数线出炉:文史430,理工408

瓦格纳创始人被诉武装叛乱,俄国民警卫队中央区军官进入紧急状态_环球速读

每日热文:最新发布!临沂高温红色预警降级为黄色预警

厦门今起三天闷热潮湿 局部多雷阵雨-全球最新

端午出行热度高 节前晚高峰每分钟超10万人同时打车|头条

开源证券给予秦川机床买入评级-全球热闻

端午假期交通部门加强多种出行方式联动

乐享端午假期

2023年婚后买房离婚后怎么分配?婚后买房属于夫妻共同财产吗? 环球快播报

宅基地的使用权继承法

2020年市场行情分化、机构抱团与高估值

男子回了个“OK”表情结果成被告 尽量使用文字形式进行表达! 环球快报

焦点播报:突发!国泰航空一客机突发故障,11人逃生途中受伤送医!女乘客还原惊恐一幕:有人打电话给父母一直哭,有一个妈妈抱着孩子一直说对不起……

通讯!欧盟通过第11轮对俄制裁,俄外交部:制裁非法,已及时回应

FDIC意外“错误”披露,市场获知硅谷银行危机中获救的巨头名单 快播

厦门“隐形冠军”成功密码

最新消息:【文体市场面面观】乡村赛事要平衡好“商味”和“村味”_全球热消息

小米无线充电80W 不到20分钟充满 今年上线 全球新资讯

每日看点!女子用蹲便器洗粽叶被吐槽 店老板:没连接下水道

天天最资讯丨【机会挖掘】国内通用人形机器人将发布 产业链股或受关注

每日播报!仅4人踢遍五大联赛:拉杜乔尤&鲍尔森&约维蒂奇&小克鲁伊维特

信用债动能指数跟踪:新券认购指数上涨(2023年6月第4周)|今日热讯

信用利差周报:公用事业、地产利差小幅走阔 全球速递

香港一客机中止起飞 11人受伤 8人稳定3人已出院_环球简讯

今晚七点!全国大学生数学建模竞赛2022年知网研学奖获奖团队经验分享|全球热推荐

端午假期厦门举办各式活动 市民游客感受传统节日魅力

河北唐山:多彩活动迎端午 今日热搜

恩施市:碧波漾影南里渡

热议:“国宝”红树林!“海洋绿肺”的生态密码