首页 > 收藏

MosaicML 推出 300 亿参数模型,训练成本 70 万|焦点要闻

来源:OSCHINA 时间:2023-06-25 08:30:26


【资料图】

AI 创业公司 MosaicML 近日发布了其语言模型 MPT-30B,单从参数来看,这个模型具有 300 亿参数,放在如今动则上千亿参数的模型领域中并没有什么突出的地方。但这个新模型的训练成本却只有其他模型的零头,有望扩大模型在更广泛领域的运用。

MosaicML 的首席执行官兼联合创始人 Naveen Rao 表示,MPT-30B 的训练成本为 70 万美元,远低于训练 GPT-3 所需的数千万美元。此外,MPT-30B 模型的质量超过了 OpenAI 在 2020 年发布的初版 GPT-3。由于 MPT-30B 的成本较低,体积较小,它也可以更快速地被训练,并部署在本地硬件设备上。

MosaicML 使用了 Alibi 和 FlashAttention 技术来优化模型,可以实现更长的文本长度和对 GPU 计算的高利用率。MosaicML 也是少数几个能够使用 Nvidia H100 GPU 的实验室,相比以往,这使得每 GPU 的吞吐量增加了 2.4 倍以上,带来更快的完成时间。

300 亿参数这是一个在大模型领域经常看到的数字,300 亿参数为什么这么特殊呢?MosaicML 首席科学家 Frankle 则解释道,首先 300 亿参数能够确保它可以在本地硬件上轻松运行,同时保持质量与 GPT-3 差不多或略优于它。

其次任何超过 300 亿参数限制的模型都需要将模型分解成多个平行段,通常也需要更加昂贵的多 GPU 设置。

除了让 AI 技术更容易获得之外,MosaicML 还专注于提高数据质量,以提高模型性能。他们目前正在开发工具,帮助用户在预训练过程中分层加入特定领域的数据。这确保了多样化和高质量的数据组合。将模型扩展到 300 亿参数只是 MosaicML 的第一步,接下来他们将以降低成本为前提,推出更大的、更高质量的模型。

开发者可以从 Hugging Face 下载并使用开源的 MPT-30B 基础模型,开发者还可以在自己的硬件上用自己的数据对模型进行微调。

相关稿件

MosaicML 推出 300 亿参数模型,训练成本 70 万|焦点要闻

环球快讯:用户态_关于用户态介绍

富洋烧烤事故的赔偿有着落了!保险1400万,马老板要火速跟上

索尼&高通达成长期战略合作协议,索尼中高端机型全系搭载骁龙处理器|焦点观察

“國緣V3杯”尚武英雄中泰拳王争霸赛·新沂站

影史第二! 2023端午档总票房破9亿-简讯

2022中国城市收入排名:苏州超杭州,宁波第六,南京第七

为小份菜再添一把火

罗马退赛,穆帅支持德佬!神奇夜,尤文弃赛逼宫欧足联,重创意甲_世界快播

【全球快播报】薛丽萍家庭被评为第三届江苏省文明家庭

今日快讯:迪庆·香格里拉2023年端午赛马节开幕

信息:螺旋焊接钢管行业发展现状调查2023 我国螺旋焊管行业重点企业经营情况

当前简讯:树说广州丨百岁古树正青春

环球动态:姿态:这样子被一波了?真的再一次证明风龙魂就是一坨!

去沙特或美国?罗马诺:格列兹曼计划继续为马竞效力,他无意离队 全球报道

局长直播带岗|全球速看料

速读:第三次全国土壤普查 四川7个试点县(市、区)将完成验收

快看:亚马逊云科技中国峰会即将召开 聚焦生成式AI等前沿科技

【报资讯】长三角铁路迎来返程客流高峰预计发送旅客302万人次

微软宣布恢复 Windows 11 文件管理器经典功能,未来探索其它简化方案

热点!再创历史新高!端午小长假,四川高速车流量同比上升18%

玩游戏掉帧是驱动的问题吗(玩游戏掉帧) 每日讯息

外地登记离婚行不行 全球速递

环球热讯:炎炎夏日 警惕蜱虫叮咬这样做

天天观点:影史第二!2023端午档总票房破9亿

全球球精选!科普画图片大全(科普画)

河南加速领跑超硬材料赛道

360网页电视剧打不开怎么办(360网页电视剧打不开)

奥迪A6L怎么样及奕泽IZOA多少钱-每日热门

父亲节蝴蝶结花束怎么做?|每日热议