首页 > 培训

MosaicML 推出 300 亿参数模型,训练成本 70 万

来源:OSCHINA 时间:2023-06-25 03:07:39


(资料图片)

AI 创业公司 MosaicML 近日发布了其语言模型 MPT-30B,单从参数来看,这个模型具有 300 亿参数,放在如今动则上千亿参数的模型领域中并没有什么突出的地方。但这个新模型的训练成本却只有其他模型的零头,有望扩大模型在更广泛领域的运用。

MosaicML 的首席执行官兼联合创始人 Naveen Rao 表示,MPT-30B 的训练成本为 70 万美元,远低于训练 GPT-3 所需的数千万美元。此外,MPT-30B 模型的质量超过了 OpenAI 在 2020 年发布的初版 GPT-3。由于 MPT-30B 的成本较低,体积较小,它也可以更快速地被训练,并部署在本地硬件设备上。

MosaicML 使用了 Alibi 和 FlashAttention 技术来优化模型,可以实现更长的文本长度和对 GPU 计算的高利用率。MosaicML 也是少数几个能够使用 Nvidia H100 GPU 的实验室,相比以往,这使得每 GPU 的吞吐量增加了 2.4 倍以上,带来更快的完成时间。

300 亿参数这是一个在大模型领域经常看到的数字,300 亿参数为什么这么特殊呢?MosaicML 首席科学家 Frankle 则解释道,首先 300 亿参数能够确保它可以在本地硬件上轻松运行,同时保持质量与 GPT-3 差不多或略优于它。

其次任何超过 300 亿参数限制的模型都需要将模型分解成多个平行段,通常也需要更加昂贵的多 GPU 设置。

除了让 AI 技术更容易获得之外,MosaicML 还专注于提高数据质量,以提高模型性能。他们目前正在开发工具,帮助用户在预训练过程中分层加入特定领域的数据。这确保了多样化和高质量的数据组合。将模型扩展到 300 亿参数只是 MosaicML 的第一步,接下来他们将以降低成本为前提,推出更大的、更高质量的模型。

开发者可以从 Hugging Face 下载并使用开源的 MPT-30B 基础模型,开发者还可以在自己的硬件上用自己的数据对模型进行微调。

相关稿件

MosaicML 推出 300 亿参数模型,训练成本 70 万

推动品牌建设上台阶

全球热点!国际范儿,龙舟“划”向世界!端午节已成全人类共同文化遗产

敬老爱老暖人心,这个社区为百岁老人举办生日会

精选!文明旅游在行动 | 端午假期在厦讲文明 舒心游

打造“果旅融合”新路径 小小百香果成为“致富果”“幸福果”

宁夏银川市开展安全生产大排查大整治专项行动

唐伯虎什么生肖(唐伯虎是什么生肖?)_动态

什么牌子的平板好用(平板电脑什么牌子好用?)_世界即时看

环球滚动:我市特需家长服务中心成立

尼康Z8新故障导致无法锁定镜头:官方承诺免费维修 当前消息

Lightning再见!代工厂确认iPhone 15用上USBC接口 天天视讯

天天消息!古老运动“火出圈” 龙舟也有“冷知识”-速看料

全球热点评!全球钻石价格较峰值暴跌18%:人造钻石市场规模不断扩大

非遗游、避暑游、文化游……端午假期这些消费新体验等你打卡!

三天涨超20%!工业富联最新发声

环球简讯:《滞困:异星黎明》更新档加入全新资源和天气

环球视点!利拉德直播听《Miami》!经纪人:只是巧合!

焦点消息!花与茶携手 芳香满园名满天下

印尼雅万高铁联调联试时速达到350公里 全球最新

世界观点:一周市场回顾

世界今热点:煮猪肝冷水下锅还是热水下锅 ?大厨说2个关键步骤要做到,才鲜嫩

招才引智重在“聚”与“用”

河北发布高温红色预警 局地最高气温将达42℃

男子回了个“OK”符号成被告:表情成“呈堂证供”日益增多,法院提醒 时快讯

端午假期厦门举办各式活动 市民游客感受传统节日魅力

环球热点!长沙雷公寻子22年将于深圳认亲:找到儿子后感觉自己变了一个人

日本强推核污染水排海 日本民众:不应做危害子孙后代的事 焦点关注

每日速读!保护知识产权激发创新活力

国铁集团:全国铁路今日预计发送旅客1515万人次_快资讯