在上周北京国家会议中心举行的百度AI开发者大会(Baidu Create 2018)上,百度展示了自研的首款AI芯片“昆仑”,凭借260Tops的计算性能和同时满足“推理”和“训练”两大功能给人留下深刻印象。尽管目前具体架构未知但可以很确定不是ASIC就是FPGA。而曾经在人工智能和超算领域显露霸主地位的GPU正面临着FPGA、ASIC和DSP三大架构的窥觊,让人不禁感到好奇:“难道人工智能时代的GPU要凉了?”
根据发布会消息显示,“昆仑"一共有两种型号:训练芯片昆仑818-300,推理芯片昆仑818-100。”采用了14nm 三星工艺、260Tops性能、512GB/s内存带宽、100+瓦特功耗,由几万个小核心构成。基于百度8年对CPU、GPU和FPGA的AI加速器的研发,20多次迭代而生,拥有高性能、高性价比、易用3大特点。特别是运算力比最新基于FPGA的AI加速器性能提升了近30倍,而从中可以猜测其是ASIC架构的可能性最大。
GPU目前的尴尬很大程度上是源于其价格和功耗过高。在长达几十年的计算机芯片发展历史中,性能一直是所有IT巨头的重点研发方向,相比之下,价格和功耗的重要性则要略低一筹。但随着云计算推动计算中心进入发展的快车道,计算中心的扩建速度同样进入了一个爆发期,数以万计服务器的总价和每月需要支付的电费让负责采购和运营的经理们开始对半导体厂商施压,要求他们在性能、功耗和价格三者之间寻求一个平衡点,这也是为何统治PC和服务器市场多年的x86架构会面临来自ARM阵营高通的挑战,而下一个挑战的就是协处理器市场。
自从英伟达将GPU从图形计算领域引入通用计算领域,GPU就成了高性能计算的代名词,凭借天生的并行计算架构优势,不论是在超算市场还是人工智能领域都生龙活虎,业内曾一度认为也许将来有一天,GPU将反客为主从协处理器化身主处理器。而在AI领域,GPU更是一骑绝尘,正如英伟达将自身定义为人工智能领导者一样,可以看到业内目前几乎所有关于人工智能的应用背后都离不开GPU的身影。
去年上半年谷歌发布的基于ASIC架构的TPU 2代展现了惊人的计算能力,180 TFLOPs的运算能力已大幅超越英伟达的旗舰加速卡NVlink版Tesla V100的125 TFLOPs。
谷歌的论文中提到:尽管在一些应用上利用率很低,但 TPU 平均比当前的 GPU 或 CPU 快15~30倍,性能功耗比(TOPS/Watt)高出约 30~80 倍。此外,在 TPU 中采用 GPU 常用的 GDDR5 存储器能使性能TPOS指标再高 3 倍,并将能效比指标 TOPS/Watt 提高到 GPU 的70倍,CPU的200倍。
当然,谷歌出于自身产品宣传,这些倍数肯定是在特定场景下实现的,而且当时对比的也是英伟达几年前的产品。不过由于笔者目前没有搜索到任何TPU 2.0的功耗精确数据,只能通过侧面来进行对比,根据谷歌公布的主板图片可以猜出,TPU 2.0的功耗在160~200W左右,作为对比,Tesla V100的功耗是300W,假设TPU 2.0的功耗在160W,那么能耗比最多比GPU多2.7倍。
能耗比只是一方面,性价比则是另一个GPU的劣势。比如基于8块Tesla V100搭建的DGX-1价格为149000美元,差不多是100万人民币。由于V100不单卖,而且DGX-1里还有CPU,主板、内存、硬盘这些东西,但通过配置我们大概可以估出来V100的价格应该在单块1万美金左右。至于TPU?谷歌尽管没公布,但按照业内人士的评估,价格也就在千美元左右。
看到这里,你可能会认为ASIC将要一统天下,如果真这么想那就大错特错。根据笔者与高通的工程师沟通后得知,如果单看人工智能的训练领域来说,从性价比和性瓦比两方面考量那么最优选择肯定是ASIC>FPGA>GPU,因为GPU的一些功能对于训练完全就是浪费。但是人工智能并不是高性能市场的唯一领域,从综合的角度来说,FPGA更适合挑战GPU,因为ASIC的最大缺点就是能够从事的工作场景很有局限性,毕竟从设计之处它的目的性就很明确。
目前FPGA的老大赛灵思已在边缘计算领域公开跟英伟达和英特尔叫板,按照赛灵思的数据:同NVIDIA的JetsonTX1嵌入式GPU相比,以赛灵思FPGA方案为基础的机器学习推论,其每秒每瓦影像效能提升了高达6倍、计算机视觉每秒每瓦每帧处理速度则提升了42倍,而延迟却只有五分之一。
实际上高性能计算市场正在进入战国时代,GPU尽管处于领先位置,但还无法同当初X86一统天下相提并论。况且,中美两国在这个市场也是暗中角力,两国的半导体公司都在摩拳擦掌,希望能从中分得一杯羹,而互联网公司们也加大了对此方面的投入,中国的阿里巴巴此前早已发布相应产品,而这次百度的昆仑更是让业内震惊。
比较值得一提的是英特尔,英特尔原本被英伟达弄得郁闷不已,就像SC 17(2017超算排行榜)公布的TOP500中102套加速系统中,单独使用英特尔Xeon Phi加速卡的解决方案只有10套,相比85套纯用GPU加速卡的解决方案来说,只能用寒酸两字形容。不过英特尔目前手里有收购的全球第二大FPGA厂商Altera,同时自身在ASIC领域也颇有建树,既然其他架构都在挑战GPU,那对于英特尔来说就是坐山观虎斗,各种押宝,只要有一方能在对抗GPU中取得优势,就可以快速重新站队,扳回目前的劣势也未尝不可。
笔者认为,站在用户的角度,各种架构和公司之间的竞争越激烈,用户所获得的利益就越多,至于谁会赢得架构之争,那么最终还是看谁的生态建设的更好,毕竟性能再强,没有足够的软件支持和OEM或者ODM厂商的配合,也是白搭,就目前来看,不论是ASIC还是FPGA在生态建设上都无法同GPU相提并论,因此谈论GPU要凉还为时尚早,但未来还能否占据主导位置则要看竞争对手的生态建设情况,目前看来确实亚历山大。对于百度来说,目前尽管昆仑数据看起来着实漂亮,但毕竟还只停留在PPT上,最终能否顺利量产才是最大的考验。
留言与评论(共有 0 条评论) |