过去数年,我们看到各家IP/芯片设计业者推出各种号称可以干掉NVIDIA的神经网络芯片,但实际上,NVIDIA仍以超过九成的市占称霸机器学习产业,所有号称在AI计算方面拥有更强大性能或能耗表现的芯片方案,都毫不意外的对NVIDIA起不了任何威胁。
虽然NVIDIA维系霸主地位的关键在于生态的优势,以及NVIDIA在CUDA软件方案的强大统治力,但这些竞争者不论在性能或者是软件支持方面都有逐渐追上NVIDIA的态势。
要说NVIDIA不会紧张是假的,毕竟机器学习相关的服务器营收已经占了NVIDIA总营收的将近三成,不仅是NVIDIA第二大营收来源,也是第一大净利来源,如果有任何新方案威胁到NVIDIA的地位,NVIDIA绝对不会坐视不理。
而在今年的VLSI大会上,NVIDIA就展出了一款试作的芯片,该芯片是一个封装了36个Die的芯片。该芯片最早在NVIDIA自家的GTC大会上被揭露,该芯片的代号为2018研究芯片,或简称为RC18。
当初不少人认为该芯片可能代表着未来NVIDIA会对其一贯的大核心策略进行调整,推出使用MCM多模封装的Chiplet设计,这种设计被普遍使用在英特尔与AMD的多核CPU上,业界也戏称该并联封装方式是胶水多核。虽然因为互联总线带来的延迟,绝对性能方面比不过单一芯片的多核设计,不过这种胶水多核可以大幅改善良率,并减少成本,同时也能大幅强化芯片生产的弹性。
不过NVIDIA在VLSI上正式揭露RC18的真面目,强调该芯片是用来进行深度学习的实验架构,主要是针对几大技术进行探讨。
该芯片”组” 可从单芯片到36芯片系统等不同组合,而所有芯片都是相同的设计,每个芯片都包含了8700万个晶体管,相较于NVIDIA现有的所有芯片产品,可称得上迷你了。该芯片利用台积电16nm节点制造,每个芯片占据正好6平方毫米的硅。每个芯片上有一个由16个处理单元(processing elements)组成的网络,一个存储中间激活的全局缓冲区、NoC、NoP和一个用来进行管理的RISC-V内核。
值得注意的是,RC18采用的RISC-V内核性能约等同于Arm的Cortex-A5,但是芯片占用面积更小,能效也更高。
NVIDIA在RC18的单个载板上封装了多达36个连接在一起的小芯片。前6个芯片具有连接到外部的通用I/O,封装本身为47.5毫米×47.5毫米,相对于该芯片所封装的独立核心数量而言,其实已经相当小了。值得注意的是,NVIDIA因为成本因素选择了标准的有机载板(organic substrate),而不是CoWoS等具有更好的I/O数量与凸点间距的封装技术。
PE(Process element)是RC18芯片中的基础执行单元,每个核心包含了16个PE。 除了操作的开始和结束之外,PE能在没有任何全局同步逻辑的情况下自主地操作。每个PE拥有八个通道,每个通道对应一个输出通道。在每个通道中读取不同的权重,在读取一次之后在所有通道上共享输入。
每个通道是一个8位宽的矢量MAC元件,同时在8个输入通道上运行。通过8个通道,芯片可以达到每个周期64个MAC的峰值计算。PE权重缓冲器读取每个PxQ(卷积结果的宽度和高度)循环,同时每个循环从输入缓冲器读取。
根据NVIDIA展示的性能数据,对于36个芯片的最大配置下,可以在1.8 GHz下运行效率达128 TOPS,此时功耗约为110 W。
这个数据乍看之下只和寒武纪的MLU270半斤八两,那么RC18也没什么了不起的?但不要忘了,RC18只是个概念试作芯片,不是最终版本的量产芯片,也没有经过充分优化。
去年Bill Dally在VLSI大会上就曾表示,NVIDIA已经在ground-referenced signaling link投入研发达5年之久,通过这个技术,可以让庞大的实体核心节点数量以更有效率的方式进行互联,因为先进制程的成本越来越高,制造大型单一芯片的成本更是居高不下,通过这个技术,可以有效的缩减在芯片制造的成本负担,从而投入更多的资源在计算效率的提升。
或许在不久之后,我们就可以在NVIDIA的服务器、娱乐计算方案上看到这个技术的实现,并用以对抗来自AMD与英特尔,以及一众AI芯片业者的挑战。
留言与评论(共有 0 条评论) |