服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

【转载】Colossal AI:只需 1.6GB GPU显存即可训练ChatGPT,训练速度提高 7.73 倍!

日期: 来源:信达硬科技收集编辑:HPC-AI Tech

开源解决方案复制了 ChatGPT 的训练过程!只需 1.6GB GPU 内存即可使用,训练速度提高 7.73 倍!


ChatGPT 被德里克·汤普森(Dereck Thompson)在《大西洋月刊》杂志的 2022 年“年度突破”中视为“生成人工智能爆发”的一部分,它增加了对该领域的浓厚兴趣和竞争。伴随着这一趋势,全球许多科技巨头,如谷歌、微软,正在推出ChatGPT风格的服务,加入与ChatGPT的竞争。

然而,由于OpenAI还没有发布ChatGPT的代码,如何有效地复制ChatGPT成为大家面临的一个巨大问题,开源的ChatGPT等价物需求量很大。

好消息是,现在Colossal-AI作为大型AI模型最热门的开源解决方案之一,首先提出了开源低成本的ChatGPT等效实现流程,亮点包括:

(1)一个开源完整的基于 PyTorch 的 ChatGPT 等效实现流程,涵盖所有 3 个阶段,可以帮助您基于预训练模型构建 ChatGPT 风格的服务。

(2)我们提供了一个迷你演示训练过程供用户使用,只需要 1.62GB 的 GPU 内存,并且可能在单个消费级 GPU 上实现,一个 GPU 上的模型容量增长高达 10.3 倍。

(3)与原始 PyTorch 相比,单机训练过程可以快 7.73 倍,单 GPU 推理可以快1.42 倍,这可以在一行代码中实现。

(4)关于微调任务,只需一行代码,您就可以在单个 GPU 上将微调模型的容量提高多达 3.7 倍,同时保持足够高的运行速度。

(5)我们提供多个版本的单 GPU 规模、单个节点上的多 GPU 规模和原始的 1750 亿参数规模。我们还支持将 OPT、GPT-3、BLOOM 和许多其他预先训练的大型模型从 Hugging Face 导入到您的训练过程中。

(6)正在进行融合验证,同时邀请所有用户共同建立社区。


ChatGPT - AIGC领导的工业革命

自发布以来,ChatGPT 在各行各业都声名鹊起,5 天就吸引了数百万用户的关注,上线 2 个月后月活跃用户就达到了 1 亿。它已成为历史上增长最快的应用程序,远远超过了当今其他知名应用程序,例如Twitter花了5年时间才能达到1亿用户,Meta(Facebook)花了4年半的时间,TikTok花了9个月甚至16年的时间,手机才达到1亿用户。

    比尔·盖茨(Bill Gates)称赞ChatGPT与互联网的发明一样重要,而微软首席执行官萨蒂亚·纳德拉(Satya Nadella)则直言不讳地说:“人工智能将从根本上改变每个软件类别。作为在OpenAI上投资数百亿美元的主要投资者,微软已迅速将ChatGPT集成到自己的搜索引擎Bing和Edge浏览器中,并计划添加到Teams,Office和其他办公套件中。


使用Colossal-AI实现低成本ChatGPT训练


Colossal-AI 以开源的方式复制了 ChatGPT 训练的基本流程,包括第 1 阶段预训练、第 2 阶段奖励模型训练和第 3 阶段强化学习训练,这是流程中最复杂的阶段。

此外,Colossal-AI通过使用ZeRO,Gemini,LoRA,AutoChunk内存管理等,大大降低了ChatGPT训练的GPU内存开销。启动 1750 亿次参数模型训练(从 64 张卡到 32 张卡)只需要一半的硬件资源,大幅降低了 ChatGPT 式应用的成本。使用上述相同的硬件资源,Colossal-AI能够在更短的时间内进行训练,从而节省训练成本并加速产品迭代。

为了让更多的开发者运行完 ChatGPT 训练流程,除了原有的 1750 亿参数版本外,Colossal-AI 还提供了高效的单 GPU、单机的 4/8-GPU 类ChatGPT 版本,以减少硬件限制。

在单个多GPU服务器上,即使使用最高端的A100 80GB GPU,由于ChatGPT的复杂性和内存碎片,PyTorch也只能启动基于GPT-L(774M)等小型模型的ChatGPT。因此,使用 PyTorch 的分布式数据并行 (DDP) 并行扩展到 4 或 8 个 GPU 只会带来有限的性能提升。

Colossal-AI 不仅在单 GPU 加速方面具有显著的训练和推理优势,而且随着并行性的扩展,可以进一步改进,单服务器训练速度提高 7.73 倍,单 GPU 推理速度提高1.42 倍,并且能够继续扩展到大规模并行性,大大降低 ChatGPT 复制的成本。

为了最大限度地降低训练成本和易用性,Colossal-AI还提供了可以在单个 GPU 上试用的 ChatGPT 训练过程。与 PyTorch 相比,PyTorch 只能在 14,999 美元的 A100 80GB 上启动7.8 亿个参数模型,Colossal-AI 将单个 GPU 的容量提高了 10.3 倍,达到 80 亿个参数。对于基于 1.2 亿个参数的小模型的 ChatGPT 训练,最少仅需要 1.62GB 的 GPU 内存,这是任何单个消费级 GPU 都可以满足的。
此外,Colossal-AI一直在努力降低基于预先训练的大型模型微调任务的成本。例如,在OPT模型上关于ChatGPT的微调任务,Colossal-AI能够在以足够高的速度工作的同时,将单个GPU上的微调模型的容量提高3.7倍。

底层优化核心系统:Colossal AI


复制 ChatGPT 实现过程通常依赖于 Colossal-AI,这是一个面向大 AI 模型时代的深度学习系统,它支持基于 PyTorch 的大型 AI 模型高效快速的训练和推理,并降低大型 AI 模型部署的成本。自开源以来,Colossal-AI多次在GitHub趋势上排名第一,并获得了超过8,000颗星。它已被选为SC,AAAI,PPoPP和CVPR等顶级AI和HPC会议的官方教程。除了上述优化,Colossal-AI 还为大型 AI 模型的大规模并行和分布式训练提供了各种高效的解决方案,并在稳定扩散、OPT 和 AlphaFold 等前沿模型中展示了优势。


Colossal-AI由加州大学伯克利分校杰出教授James Demmel先生和新加坡国立大学校长青年教授尤洋先生领导。其解决方案已成功应用到自动驾驶、云计算、零售、医药、芯片等领域并受到一些知名科技巨头的好评。例如,Colossal-AI已成功帮助一家《财富》500强企业开发了一种类似ChatGPT的聊天机器人模型,该模型具有增强的在线搜索功能。


LoRA的低成本微调

Colossal-AI支持通过低秩自适应(LoRA)方法进行有效的微调。该方法假设大型语言模型过度参数化,微调过程中参数的变化可以表示为低秩矩阵,该矩阵可以分解为两个较小矩阵的乘积。

在大语言模型参数固定的情况下,微调时只调整分解矩阵的参数;因此,这种方法大大减少了训练参数的数量。为了部署推理,矩阵积将添加回原始矩阵,所以不会影响推理延迟。

与传统数据并行性相比,Colossal-AI使用零冗余优化器 (ZeRO) 消除内存冗余并提高内存使用率,而不会影响计算粒度和通信速度。Colossal-AI还提出了基于区块的内存管理,这进一步提高了ZeRO的性能。基于区块的内存管理将连续的参数集按操作顺序存储在称为区块的连续、均匀分区的内存空间中,以便更有效地使用网络带宽(PCI-e 和 GPU 之间)、降低通信成本并避免潜在的内存碎片。

此外,Colossal-AI 的异构内存管理器 Gemini 通过将优化器状态卸载到 CPU 来减少 GPU 内存占用,允许同时使用 GPU 内存和 CPU 内存(包括 CPU DRAM 或 NVMe SSD 内存)来训练超出单个 GPU 内存限制的大规模模型。


关于 HPC-AI Technology Inc.

HPC-AI科技公司是一家全球性公司,提供可显著加速深度学习训练和推理的软件平台。我们的使命是提高人工智能生产力。公司致力于帮助客户以更低的成本将超级计算机和云平台用于大型神经网络。公司开发了流行的开源项目Colossal-AI,它构成了平台的核心。



文章来源

声明:本文转自新加坡HPC-AI Technology公司博客,不代表信达证券观点,不构成投资建议。原文章为英语,文章采用翻译软件翻译,人工矫正。
原文标题:Open source solution replicates ChatGPT training process! Ready to go with only 1.6GB GPU memory and gives you 7.73 times faster training!
原文链接:https://www.hpc-ai.tech/blog/colossal-ai-chatgpt
点击下方【阅读原文】即可访问文章出处。


免责声明

本订阅号不是信达证券研究报告的发布平台,所载内容均来自于信达证券已正式发布的研究报告或对报告进行的跟踪与解读,订阅者若使用所载资料,有可能会因缺乏对完整报告的了解而对其中关键假设、评级、目标价等内容产生误解。提请订阅者参阅信达证券已发布的完整证券研究报告,仔细阅读其所附各项声明、信息披露事项及风险提示,关注相关的分析、预测能够成立的关键假设条件,关注投资评级和证券目标价格的预测时间周期,并准确理解投资评级的含义。

信达证券对本订阅号所载资料的准确性、可靠性、时效性及完整性不作任何明示或暗示的保证。本订阅号中资料、意见等仅代表来源证券研究报告发布当日的判断,相关研究观点可依据信达证券后续发布的证券研究报告在不发布通知的情形下作出更改。信达证券的销售人员、交易人员以及其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本订阅号中资料意见不一致的市场评论和/或观点。

本订阅号发布的内容并非投资决策服务,在任何情形下都不构成对接收本订阅号内容受众的任何投资建议。订阅者应当充分了解各类投资风险,根据自身情况自主做出投资决策并自行承担投资风险。订阅者根据本订阅号内容做出的任何决策与信达证券或相关作者无关。

本订阅号发布的内容仅为信达证券所有。未经信达证券事先书面许可,任何机构和/或个人不得以任何形式转发、翻版、复制、发布或引用本订阅号发布的全部或部分内容,亦不得从未经信达证券书面授权的任何机构、个人或其运营的媒体平台接收、翻版、复制或引用本订阅号发布的全部或部分内容。版权所有,违者必究。





相关阅读

  • 关于ChatGPT八个技术问题的猜想

  • 点击下方卡片,关注“新机器视觉”公众号重磅干货,第一时间送达文 | 张家俊@知乎看到ChatGPT的华丽诞生,心情很复杂,既高兴、惊喜,也感到恐慌,高兴和惊喜的是没有预料到这么快就见
  • 一个仍没有答案的全球温度难题

  • 在过去的一个世纪里,地球的平均温度已经迅速上升了约1℃。这项证据相当确凿,已得到了世界各地的温度计和其他各种传感器的证实。但是,在工业革命之前的几千年里,在温度计发明之
  • 【协会数据】公募基金市场数据(2023年1月)

  • 截至2023年1月底,我国境内共有基金管理公司142家,其中,外商投资基金管理公司47家,内资基金管理公司95家;取得公募基金管理资格的证券公司或证券公司资产管理子公司13家、保险资产

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • 新能源电动汽车动力电池发展趋势分析

  • 本文着重介绍新能源电动汽车动力电池发展现状和发展趋势,结合动力电池一些基础知识介绍,表明新能源电动汽车动力电池具有难以预估的发展潜力。为贯彻落实节约资源、保护环境基