路在何方:AI的功耗正在呈爆炸式增长

指数增长是不可持续的。这一切都将走向何方?

机器学习这种低消耗所有供应的能量模型,且成本高昂,不可持续。

在另外一方面,而且是新的,而且是令人兴奋的领域,训练迅速发展。另外由于数据中心用于训练和推理的数量的急剧增加,这需要电源呈指数级的增长。另外,设备智能需要处理的数据量也正在急剧增加,这些因素都导致功耗的急剧增加。

但数字化正在威胁着能源系统和电源技术的发展。在最近的设计自动化大会上,AMD 首席技术官 Mark Papermaster 展示了一张幻灯片,展示了 ML 系统的能耗(图 1)与世界能源生产的比较。

图1、ML(机器学习)的能量消耗

Papermaster 并不是唯一一个发出警报的人。“我们忘记了过去 100 年的创新驱动力一直是效率,”Perceive 首席执行官史蒂夫·泰格 (Steve Teig) 说。“这就是推动摩尔定律的原因。我们现在正处于一个反效率的时代。”

Synopsys董事长兼首席执行官 Aart de Geus代表植物地球恳求对此采取行动。“有头脑的人应该有帮助的心。”

为什么能源消耗增长如此之快?“神经网络的计算需求是无法满足的,” Arm研究员兼高级技术总监 Ian Bratt 说。“神经网络越大,训练的结果越好,你可以解决的问题就越多。能源使用与神经网络的规模成正比。因此,节能推理对于采用越来越复杂的神经网络和增强的用例(例如实时语音和视觉应用程序)至关重要。”

不幸的是,并不是每个人都关心效率。Mythic 负责产品和业务开发的高级副总裁 Tim Vehling 说:“当你看到超大规模公司正在尝试做什么时,他们正在努力获得更好、更准确的语音识别、语音识别、推荐引擎。” “这是金钱问题。他们可以获得的准确性越高,他们可以服务的客户就越多,他们就可以产生更多的盈利能力。你看看这些非常大的 NLP 模型的数据中心训练和推理,这就是消耗大量能量的地方。而且我不知道是否有任何真正的动机来优化这些应用中的功率。”

但有些人确实在乎。Synopsys 的科学家 Alexander Wakefield 说:“减少这些公司的碳影响存在一些商业压力,而不是直接的金钱,但更多的是消费者只会接受碳中和解决方案。” “这是来自绿色能源方面的压力,如果其中一个供应商说他们是碳中和的,那么可能会有更多的人使用它们。”

但并非所有能源都在云中消耗。越来越多的智能边缘设备也导致了这个问题。“构成物联网的设备有数十亿,在不久的将来,它们使用的电力将超过我们在世界上产生的电力,”战略和技术营销总监 Marcie Weinstein 说对于 Aspinity。“他们消耗电力来收集和传输,并用他们收集的所有这些数据做他们需要做的任何事情。”

图2、边缘处理的低效率

图 2:边缘处理的低效率。资料来源:Aspinity/ IHS / SRC

降低功耗
过去,科技界依靠半导体缩放来提高能源效率。“我们的工艺技术正在接近物理极限,” Arteris IP研究员兼系统架构师 Michael Frank 说. “晶体管宽度在二氧化硅的 10 到 20 晶格常数之间。我们有更多带有杂散电容的电线,并且在这些电线的充电和放电过程中会损失大量能量。在进入非线性区域之前,我们无法显着降低电压,在该区域中,操作的结果是统计描述的,而不是确定性的。从技术方面来看,我并没有真正给我们一个好机会。然而,这是一个概念验证,它消耗大约 20 瓦并完成所有这些事情,包括学习。这就是所谓的大脑。”

那么 ML 是否比替代方案更有效?ICVS 产品经理 Joe Hupcey 说:“必须从其应用系统的角度考虑 ML 的功耗,其中的权衡取决于包含 ML 与整个系统的功率配置文件所带来的整体性能增益。”适用于西门子 EDA。“在许多应用领域中,业界已经开发出高效的 ML FPGA 和 ASIC,以降低训练和推理的功耗,并且正在进行大量投资来延续这一趋势。”

有一种影响可能会迫使人们更加关注权力。Synopsys 科学家 Godwin Maben 说:“一些公司正在考虑每平方微米的功率,因为​热量。” “每个人都担心高温。当你在一个小区域内将很多门堆叠在一起时,功率密度很高,温度会升高,并且你会接近热失控。功率密度现在限制了性能。作为 EDA 供应商,我们不仅仅关注功率,因为​​当热量出现时,每瓦性能,然后是每平方微米每瓦性能,变得很重要。”

有几种方法可以查看问题。“我通常喜欢查看每次推断的能量,而不是功率,”西门子 EDA 的 HLS 平台总监 Russ Klein 说。“看权力可能有点误导。例如,通常 CPU 比 GPU 消耗更少的功率。但 GPU 执行推理的速度比 CPU 快得多。结果是,如果我们查看每次推理的能量,GPU 可以使用 CPU 所需能量的一小部分来执行推理。”

消耗最多能量的地方尚不清楚,虽然这似乎很明显,但结果却颇有争议。有两个轴需要考虑——训练与推理,以及边缘与云。

训练与推理
为什么训练会消耗如此多的能量?“当您对同一个数据集进行多次迭代时,会消耗大量能量,”Arteris 的 Frank 说。“你正在做梯度下降类型的近似。该模型基本上是一个超维曲面,你正在做一些梯度,这是由通过多维向量空间下降的微商定义的。”

这样做所消耗的能量正在迅速增加。“如果你看看两年前训练一个模型所消耗的能量,一些变压器模型的能量在 27 千瓦时的范围内,”Synopsys 的 Maben 说。“如果你看看今天的变压器,它超过了 50 万千瓦时。参数的数量从大约 5000 万增加到 2 亿。参数数量增加了四倍,但能量却增加了超过 18,000 倍。归根结底,它归结为碳足迹以及这会产生多少磅的 CO,sub>2。”

这与推理相比如何?Cadence Tensilica AI 产品的产品营销总监 Suhas Mitra 说:“训练涉及向前和向后传递,而推理只是向前传递。 ” “因此,推理的能力总是较低。此外,在训练期间,批量大小可能很大,而在推理过程中,批量大小可能会更小。”

当你试图估计这两个函数消耗的总功率时,它会引起争议。“关于哪个消耗更多能量、训练或推理存在争议,”Maben 说。“训练一个模型会消耗大量的能量,而根据这些数据进行训练所需的天数是巨大的。但它是否比推理需要更多的能量?培训是一次性费用。你花了很多时间在训练上。训练阶段的问题是参数的数量,有些模型有 1500 亿个参数。”

此外,培训通常不止一次。“培训不是一劳永逸的,永远不会回来,”Mythic 的 Vehling 说。“他们不断地重新训练、重新优化模型,因此训练是恒定的。他们不断地调整模型,寻找增强功能,增强数据集,因此它或多或少是一项持续的活动。”

然而,推理可能会被重复多次。“你训练了一个模型,它可能是为自动驾驶汽车开发的,现在每辆车都使用这个模型,”Maben 补充道。“现在我们正在谈论在大约 1 亿辆汽车中进行推理。一项预测是,超过 70% 到 80% 的能量将用于推理而不是训练。”

有一些数据支持这一点。“在东北大学和麻省理工学院最近的一篇论文中,据估计,推理对能源消耗的影响比训练要大得多,”Untether AI 产品高级总监 Philip Lewer 说。“这是因为模型是专门为推理而构建的,因此在推理模式下运行的频率比训练模式要高得多——本质上是训练一次,到处运行。”

云与边缘
将应用程序从云端迁移到边缘可能有很多不同的原因。Expedera 营销副总裁 Paul Karazuba 说:“市场已经看到,有些活动最好推到边缘而不是云端。” “我认为在边缘完成什么和不做什么以及如何做出这些决定之间没有明确的界限。我们看到了对边缘更多 AI 的渴望,我们看到了对边缘更多关键任务应用程序的渴望,而不是将 AI 作为盒子外面的印记。人工智能实际上是在设备中做一些有用的事情,而不仅仅是在那里。”

这并不是说您将云模型移动到边缘。“假设你有这个自然语音、语音识别应用程序,”Mythic 的 Vehling 说。“你正在云端训练这些模型。大多数时候,您都在运行这些模型以在云中进行推理。如果您查看更多位于边缘的推理应用程序,这些应用程序不是基于云的,您可以针对这些本地资源训练模型。所以你要解决的几乎是两个不同的问题。一种是基于云的,另一种是基于边缘的,它们不一定相互关联。”

模型必须知道它们最终将在哪里运行。“您通常会发现在云中运行的数十亿参数模型,但这只是模型的一种,”Vehling 补充道。“在另一个极端,你有非常小的唤醒词模型,它们占用的资源非常少——称它们为小 ml 甚至更低。然后在中间是模型类别,例如可视化分析模型,您可能会看到它们在基于相机的应用程序中使用。它们比云中的模型小得多,但也比这种非常简单的唤醒词大得多。”

不仅仅是推理处于边缘。我们可能会看到越来越多的培训。“联邦学习就是一个例子,”Expedera 的首席科学家 Sharad Chole 说。“已经使用的一个领域是自动完成。每个人的自动完成功能可能会有所不同,您实际上是如何学习的?你是怎么定制的?这必须在保护用户隐私的同时完成。有挑战。”

提高效率
将应用程序从训练系统转移到边缘涉及到重要的软件堆栈。“一旦您通过了初始训练阶段,后续优化将提供显着更轻的模型,而性能下降很小,”西门子的 Hupcey 说。“模型简化技术用于降低推理过程中的功耗。量化、权重修剪和近似在模型部署之前或之后被广泛使用。最明显的两个案例是 TinyML 和 GPT-3 的轻型版本。”

Klein 补充道:“辍学和修剪是一个好的开始。量化为更小的数字表示也有帮助。积极地进行,这些可以将网络的大小减少 99% 或更多,并且在许多情况下导致准确率下降不到 1%。有些人还考虑在模型中使用层来权衡通道,以在不影响准确性的情况下产生更小的网络。”

这些技术既减小了模型尺寸,又直接降低了能源需求,但还可以进行更多改进。“现在我们看到了对混合精度的支持,其中每一层都可以量化到不同的域,”Expedera 的 Chole 说。“这可能会被推得更远。也许将来权重的每个维度都可以量化为不同的精度。这种推动是好的,因为在培训期间,数据科学家会意识到他们可以如何降低功率,以及在降低功率的同时他们正在做什么样的准确性权衡。”

结论
模型变得越来越大以试图获得更高的准确性,但这种趋势必须停止,因为它消耗的功率量正在不成比例地增加。虽然由于其商业模式,云今天可以负担得起,但边缘却不能。随着越来越多的公司投资于边缘应用,我们可以期待看到对能源优化的更多关注。一些公司正在考虑在未来 5 年内功耗减少 100 倍,但这还远远不足以阻止这一趋势。

发表评论
留言与评论(共有 0 条评论) “”
   
验证码:

相关文章

推荐文章