开源解决方案复制了 ChatGPT 的训练过程!只需 1.6GB GPU 内存即可使用,训练速度提高 7.73 倍!
ChatGPT 被德里克·汤普森(Dereck Thompson)在《大西洋月刊》杂志的 2022 年“年度突破”中视为“生成人工智能爆发”的一部分,它增加了对该领域的浓厚兴趣和竞争。伴随着这一趋势,全球许多科技巨头,如谷歌、微软,正在推出ChatGPT风格的服务,加入与ChatGPT的竞争。
然而,由于OpenAI还没有发布ChatGPT的代码,如何有效地复制ChatGPT成为大家面临的一个巨大问题,开源的ChatGPT等价物需求量很大。
好消息是,现在Colossal-AI作为大型AI模型最热门的开源解决方案之一,首先提出了开源低成本的ChatGPT等效实现流程,亮点包括:
(1)一个开源完整的基于 PyTorch 的 ChatGPT 等效实现流程,涵盖所有 3 个阶段,可以帮助您基于预训练模型构建 ChatGPT 风格的服务。
(2)我们提供了一个迷你演示训练过程供用户使用,只需要 1.62GB 的 GPU 内存,并且可能在单个消费级 GPU 上实现,一个 GPU 上的模型容量增长高达 10.3 倍。
(3)与原始 PyTorch 相比,单机训练过程可以快 7.73 倍,单 GPU 推理可以快1.42 倍,这可以在一行代码中实现。
(4)关于微调任务,只需一行代码,您就可以在单个 GPU 上将微调模型的容量提高多达 3.7 倍,同时保持足够高的运行速度。
(5)我们提供多个版本的单 GPU 规模、单个节点上的多 GPU 规模和原始的 1750 亿参数规模。我们还支持将 OPT、GPT-3、BLOOM 和许多其他预先训练的大型模型从 Hugging Face 导入到您的训练过程中。
(6)正在进行融合验证,同时邀请所有用户共同建立社区。
ChatGPT - AIGC领导的工业革命
自发布以来,ChatGPT 在各行各业都声名鹊起,5 天就吸引了数百万用户的关注,上线 2 个月后月活跃用户就达到了 1 亿。它已成为历史上增长最快的应用程序,远远超过了当今其他知名应用程序,例如Twitter花了5年时间才能达到1亿用户,Meta(Facebook)花了4年半的时间,TikTok花了9个月甚至16年的时间,手机才达到1亿用户。
比尔·盖茨(Bill Gates)称赞ChatGPT与互联网的发明一样重要,而微软首席执行官萨蒂亚·纳德拉(Satya Nadella)则直言不讳地说:“人工智能将从根本上改变每个软件类别。作为在OpenAI上投资数百亿美元的主要投资者,微软已迅速将ChatGPT集成到自己的搜索引擎Bing和Edge浏览器中,并计划添加到Teams,Office和其他办公套件中。
使用Colossal-AI实现低成本ChatGPT训练
Colossal-AI 以开源的方式复制了 ChatGPT 训练的基本流程,包括第 1 阶段预训练、第 2 阶段奖励模型训练和第 3 阶段强化学习训练,这是流程中最复杂的阶段。
此外,Colossal-AI通过使用ZeRO,Gemini,LoRA,AutoChunk内存管理等,大大降低了ChatGPT训练的GPU内存开销。启动 1750 亿次参数模型训练(从 64 张卡到 32 张卡)只需要一半的硬件资源,大幅降低了 ChatGPT 式应用的成本。使用上述相同的硬件资源,Colossal-AI能够在更短的时间内进行训练,从而节省训练成本并加速产品迭代。
为了让更多的开发者运行完 ChatGPT 训练流程,除了原有的 1750 亿参数版本外,Colossal-AI 还提供了高效的单 GPU、单机的 4/8-GPU 类ChatGPT 版本,以减少硬件限制。
Colossal-AI 不仅在单 GPU 加速方面具有显著的训练和推理优势,而且随着并行性的扩展,可以进一步改进,单服务器训练速度提高 7.73 倍,单 GPU 推理速度提高1.42 倍,并且能够继续扩展到大规模并行性,大大降低 ChatGPT 复制的成本。
底层优化核心系统:Colossal AI
Colossal-AI由加州大学伯克利分校杰出教授James Demmel先生和新加坡国立大学校长青年教授尤洋先生领导。其解决方案已成功应用到自动驾驶、云计算、零售、医药、芯片等领域并受到一些知名科技巨头的好评。例如,Colossal-AI已成功帮助一家《财富》500强企业开发了一种类似ChatGPT的聊天机器人模型,该模型具有增强的在线搜索功能。
LoRA的低成本微调
Colossal-AI支持通过低秩自适应(LoRA)方法进行有效的微调。该方法假设大型语言模型过度参数化,微调过程中参数的变化可以表示为低秩矩阵,该矩阵可以分解为两个较小矩阵的乘积。
与传统数据并行性相比,Colossal-AI使用零冗余优化器 (ZeRO) 消除内存冗余并提高内存使用率,而不会影响计算粒度和通信速度。Colossal-AI还提出了基于区块的内存管理,这进一步提高了ZeRO的性能。基于区块的内存管理将连续的参数集按操作顺序存储在称为区块的连续、均匀分区的内存空间中,以便更有效地使用网络带宽(PCI-e 和 GPU 之间)、降低通信成本并避免潜在的内存碎片。
此外,Colossal-AI 的异构内存管理器 Gemini 通过将优化器状态卸载到 CPU 来减少 GPU 内存占用,允许同时使用 GPU 内存和 CPU 内存(包括 CPU DRAM 或 NVMe SSD 内存)来训练超出单个 GPU 内存限制的大规模模型。
关于 HPC-AI Technology Inc.
文章来源
免责声明
本订阅号不是信达证券研究报告的发布平台,所载内容均来自于信达证券已正式发布的研究报告或对报告进行的跟踪与解读,订阅者若使用所载资料,有可能会因缺乏对完整报告的了解而对其中关键假设、评级、目标价等内容产生误解。提请订阅者参阅信达证券已发布的完整证券研究报告,仔细阅读其所附各项声明、信息披露事项及风险提示,关注相关的分析、预测能够成立的关键假设条件,关注投资评级和证券目标价格的预测时间周期,并准确理解投资评级的含义。
信达证券对本订阅号所载资料的准确性、可靠性、时效性及完整性不作任何明示或暗示的保证。本订阅号中资料、意见等仅代表来源证券研究报告发布当日的判断,相关研究观点可依据信达证券后续发布的证券研究报告在不发布通知的情形下作出更改。信达证券的销售人员、交易人员以及其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本订阅号中资料意见不一致的市场评论和/或观点。
本订阅号发布的内容并非投资决策服务,在任何情形下都不构成对接收本订阅号内容受众的任何投资建议。订阅者应当充分了解各类投资风险,根据自身情况自主做出投资决策并自行承担投资风险。订阅者根据本订阅号内容做出的任何决策与信达证券或相关作者无关。
本订阅号发布的内容仅为信达证券所有。未经信达证券事先书面许可,任何机构和/或个人不得以任何形式转发、翻版、复制、发布或引用本订阅号发布的全部或部分内容,亦不得从未经信达证券书面授权的任何机构、个人或其运营的媒体平台接收、翻版、复制或引用本订阅号发布的全部或部分内容。版权所有,违者必究。