首页 > 食品

MosaicML 推出 300 亿参数模型,训练成本 70 万-全球今日讯

来源:OSCHINA 时间:2023-06-25 01:28:30


(资料图片)

AI 创业公司 MosaicML 近日发布了其语言模型 MPT-30B,单从参数来看,这个模型具有 300 亿参数,放在如今动则上千亿参数的模型领域中并没有什么突出的地方。但这个新模型的训练成本却只有其他模型的零头,有望扩大模型在更广泛领域的运用。

MosaicML 的首席执行官兼联合创始人 Naveen Rao 表示,MPT-30B 的训练成本为 70 万美元,远低于训练 GPT-3 所需的数千万美元。此外,MPT-30B 模型的质量超过了 OpenAI 在 2020 年发布的初版 GPT-3。由于 MPT-30B 的成本较低,体积较小,它也可以更快速地被训练,并部署在本地硬件设备上。

MosaicML 使用了 Alibi 和 FlashAttention 技术来优化模型,可以实现更长的文本长度和对 GPU 计算的高利用率。MosaicML 也是少数几个能够使用 Nvidia H100 GPU 的实验室,相比以往,这使得每 GPU 的吞吐量增加了 2.4 倍以上,带来更快的完成时间。

300 亿参数这是一个在大模型领域经常看到的数字,300 亿参数为什么这么特殊呢?MosaicML 首席科学家 Frankle 则解释道,首先 300 亿参数能够确保它可以在本地硬件上轻松运行,同时保持质量与 GPT-3 差不多或略优于它。

其次任何超过 300 亿参数限制的模型都需要将模型分解成多个平行段,通常也需要更加昂贵的多 GPU 设置。

除了让 AI 技术更容易获得之外,MosaicML 还专注于提高数据质量,以提高模型性能。他们目前正在开发工具,帮助用户在预训练过程中分层加入特定领域的数据。这确保了多样化和高质量的数据组合。将模型扩展到 300 亿参数只是 MosaicML 的第一步,接下来他们将以降低成本为前提,推出更大的、更高质量的模型。

开发者可以从 Hugging Face 下载并使用开源的 MPT-30B 基础模型,开发者还可以在自己的硬件上用自己的数据对模型进行微调。

相关稿件

MosaicML 推出 300 亿参数模型,训练成本 70 万-全球今日讯

农业机械化有力保障夏粮收获

尚太科技:接受太平洋证券等机构调研 快消息

世界速读:芮国夫人配饰—2700年前的女王传奇 记陕西考古博物馆(十七)

端午假期厦门举办各式活动 市民游客感受传统节日魅力 每日消息

河北发布高温红色预警 局地最高气温将达42℃

驾驶证异地可以换证吗|天天速读

石家庄增开一条假日旅游公交专线!直达清凉避暑好去处-环球快报

张店要给这些人发钱了!符合条件的快申报_世界实时

好消息!这5种门诊慢特病可跨省直接结算 全球快资讯

全球钻石价格较峰值暴跌18%:人造钻石市场规模不断扩大 当前讯息

游戏必备!12490F史低价1149元

树说广州丨百岁古树正青春-天天实时

助推新区产业升级,太白湖数字经济产业园预计今年7月底投用

聊大龙舟队勇夺9金!男队+女队+混合组大满贯!

296.6毫米!广西这个地方达到特大暴雨量级

意媒:加拉塔萨雷想签约维奇代替伊卡尔迪,已与经纪人接触 世界球精选

煮猪肝冷水下锅还是热水下锅 ?大厨说2个关键步骤要做到,才鲜嫩-天天头条

2023年山东省中小学教师合唱展演活动圆满落幕 全球新要闻

世界快消息!国泰航空回应客机中止起飞致多人受伤:系技术故障!

快资讯:多省公布2023年高考分数线

福建首批服务乡村振兴“银龄人才”获聘|环球今头条

女子称家中疑似遭人投毒,油中有农药味,村干部回应:公安已介入调查-环球时讯

北京中考首日高温“烤验”突出 或现40℃三连击警惕中暑

全面提升供热运行保障水平 供热设施“冬病夏治”正当时|天天快播

厦门今起三天闷热潮湿 局部多雷阵雨 环球时讯

节令美味贺端阳!古人吃粽子有啥讲究? 世界快播

发热棉是什么材料(这个是什么材料?冬天我碰到它会感觉很热,是用来垫东西的。一接触就...)

当前关注:成为网红之后

世界简讯:国泰航空回应客机中止起:技术故障 11名乘客报称受伤送医