科技动态 - 金准数据-智能数据优化产业生态

我的位置：

1块显卡＋几行代码：大模型训练提速40%！

发布人：金准数据

微信图片_20220713201346.png

不得不说，为了让更多人能用上大模型，技术圈真是各出奇招！

模型不够开放？有人自己上手搞免费开源版。

比如最近风靡全网的DALL·E Mini，Meta开放的OPT-175B（Open Pretrained Transformer）。

都是通过复刻的方式，让原本不够open的大模型，变成人人可用。

还有人觉得模型太大，个人玩家很难承受起天价成本。

所以提出异构内存、并行计算等方法，让大模型训练加速又降本。

比如开源项目Colossal-AI，前不久刚实现了让一块NVIDIA RTX 3090就能单挑180亿参数大模型。

而在这两天，他们又来了一波上新：

无缝支持Hugging Face社区模型，只需添加几行代码，就能实现大模型的低成本训练和微调。

要知道，Hugging Face作为当下最流行的AI库之一，提供了超过5万个AI模型的实现，是许多AI玩家训练大模型的首选。

而Colossal-AI这波操作，是让公开模型的训练微调变得更加切实可行。

并且在训练效果上也有提升。

单张GPU上，相比于微软的DeepSpeed，使用Colossal-AI的自动优化策略，最快能实现40%的加速。

而PyTorch等传统深度学习框架，在单张GPU上已经无法运行如此大的模型。

对于使用8张GPU的并行训练，仅需在启动命令中添加-nprocs 8就能实现。

这波下来，可以说是把个人AI玩家需要考虑的成本、效率、实操问题，都拿捏住了~

无需修改代码逻辑

光说不练假把式。

下面就以OPT为例，详细展开看看Colossal-AI的新功能到底怎么用。

OPT，全称为Open Pretrained Transformer。

它由Meta AI发布，对标GPT-3，最大参数量可达1750亿。

最大特点就是，GPT-3没有公开模型权重，而OPT开源了所有代码及权重。

因此，每一位开发者都能在此基础上开发个性化的下游任务。

文章来源：量子位

文章作者：明敏

注本文转载已注明出处，仅供分享、学习，不构成商业目的，版权归原作者所有，如涉及作品内容版权或其它问题，敬请与本网联系，我们及时更正，谢谢合作！

专注于医疗物联网与大数据服务，「瑞华康源」获约印医...

新中国的前30年，为我们打下了腾飞的基础

首发20A工艺！Intel Arrow Lake单核性能只提升5％

史上最大规模财政刺激计划够不够？