首页 > 女人

MosaicML 推出 300 亿参数模型,训练成本 70 万

来源:OSCHINA 时间:2023-06-25 06:29:07


(资料图)

AI 创业公司 MosaicML 近日发布了其语言模型 MPT-30B,单从参数来看,这个模型具有 300 亿参数,放在如今动则上千亿参数的模型领域中并没有什么突出的地方。但这个新模型的训练成本却只有其他模型的零头,有望扩大模型在更广泛领域的运用。

MosaicML 的首席执行官兼联合创始人 Naveen Rao 表示,MPT-30B 的训练成本为 70 万美元,远低于训练 GPT-3 所需的数千万美元。此外,MPT-30B 模型的质量超过了 OpenAI 在 2020 年发布的初版 GPT-3。由于 MPT-30B 的成本较低,体积较小,它也可以更快速地被训练,并部署在本地硬件设备上。

MosaicML 使用了 Alibi 和 FlashAttention 技术来优化模型,可以实现更长的文本长度和对 GPU 计算的高利用率。MosaicML 也是少数几个能够使用 Nvidia H100 GPU 的实验室,相比以往,这使得每 GPU 的吞吐量增加了 2.4 倍以上,带来更快的完成时间。

300 亿参数这是一个在大模型领域经常看到的数字,300 亿参数为什么这么特殊呢?MosaicML 首席科学家 Frankle 则解释道,首先 300 亿参数能够确保它可以在本地硬件上轻松运行,同时保持质量与 GPT-3 差不多或略优于它。

其次任何超过 300 亿参数限制的模型都需要将模型分解成多个平行段,通常也需要更加昂贵的多 GPU 设置。

除了让 AI 技术更容易获得之外,MosaicML 还专注于提高数据质量,以提高模型性能。他们目前正在开发工具,帮助用户在预训练过程中分层加入特定领域的数据。这确保了多样化和高质量的数据组合。将模型扩展到 300 亿参数只是 MosaicML 的第一步,接下来他们将以降低成本为前提,推出更大的、更高质量的模型。

开发者可以从 Hugging Face 下载并使用开源的 MPT-30B 基础模型,开发者还可以在自己的硬件上用自己的数据对模型进行微调。

相关稿件

MosaicML 推出 300 亿参数模型,训练成本 70 万

钟鼓馔玉不足贵但愿长醉不复醒还是不愿醒(钟鼓馔玉不足贵但愿长醉不复醒)

6月24日体彩开奖

环球最新:理夫泉的护肤品怎么样(理肤泉的护肤品怎么样)

【环球报资讯】在命令行按下tab键之后, 发生了生么?

谷歌称愿为Stadia花五年打造3A游戏 奈何成本太高_当前速读

车保险到期了不开可以先不交吗

如何养护丙烯酸涂料,让你的礼物更持久美丽?男生必看送女生礼物小技巧!|今亮点

黄金消费旺 吉祥又时尚 每日关注

动物园里过端午

环球今头条!重庆四环来了!将形成“四环二十二射六十联线”高速公路网布局

Lisa Selesner(lisa selesner)|环球关注

天天新动态:女子用蹲便器洗粽叶被吐槽 店老板:没连接下水道

要学会取舍_天天时快讯

上汽大众全新Polo Plus怎么样及广汽讴歌TLX-L 2.4L多少钱|全球速讯

【当前独家】让传统节日绽放时代新韵(今日谈)

潮讯:苹果终于修复这漏洞;安卓比iOS更容易使用;手机NFC功能要彻底变了;Flyme10修复了这些问题

温迪的蝴蝶结怎么系?

“夏日夜经济”火热 激发消费新活力

每日消息!webhits.dll缺少打不开怎么办

天天热消息:蝴蝶结扣怎么系好看?

纽约记者:尼克斯内部有一些人士有意迪文岑佐|快讯

全球聚焦:收藏!高考查分报志愿时间表

市第八届中华龙舟赛圆满闭幕

剪辑视频需要版权吗?存在侵权吗?

南方 16 条河流发生超警洪水,水利部门全力做好暴雨洪水防御 天天微资讯

山东高速驶入高质量发展“快车道” 当前视讯

聚焦尼山对话丨满目是“尼”

西安经开区举办西安市“新征程、再出发”应急诗歌诵读暨安全文化演出活动-全球滚动

老人发病将孙子托付路边店主后病逝 疑似是心肌梗塞|今日关注