近日,华为公布了AI基础智商架构的新理解,推出CloudMatrix 384超节点,并已在芜湖数据中心界限上线。《科创板日报》独家了解到,华为云CloudMatrix384超节点本年上半年将独特万界限的上线。华为里面东谈主士称其为核弹级的家具,或将澈底闭幕算力错愕。改日,CloudMatrix超节点不错构建逾越万片的大集群来提供算力。
传统的AI就业器频繁包括8张算力卡,一台就业器就称为一个节点。在就业器里面,这8张算力卡之间传输速率很快,但就业器与就业器之间的传输速率则慢得多。追随大模子波涛的到来,行业巨头需要相关起千千万万、乃至10万计的GPU算力卡,这使得互联和通讯成了一个简短力。
要是好像承袭高速通讯期间把更多的算力卡交融在一谈,成为一个超节点,那么超节点内的算力卡王人不错终了高速互联和通讯,就能大大擢升算力集群的性能。
2024年3月,英伟达领先发布了NVL72超节点,不错把72张进修卡构成一个超节点,为万亿参数的大型说话模子推理提供了30倍及时速率擢升。而此次发布的华为CloudMatrix 384更进一步,以384张昇腾算力卡构成一个超节点,在现在已商用的超节点中单体界限最大。
据悉,华为CloudMatrix 384在界限、性能和可靠性上对标英伟达NVL72,基于CloudMatrix的昇腾AI云就业,大模子进修功课可褂讪运转40天,互联带宽断点规复在10秒级别。在互联带宽上,超节点收集交换机承袭6812个400G光模块,终了2.8Tbps卡间互联带宽。
《科创板日报》从硅基流动方面了解到,杠杆比例硅基流动依然和谐华为云基于CloudMatrix384超节点昇腾云就业郑重上线DeepSeek-R1,在保证单用户20TPS水平前提下,单卡Decode糊涂冲突1920Tokens/s,可并列H100部署性能。同期,过程主流测试集考证及大界限线上盲测,在昇腾算力部署DeepSeek-R1的模子精度与DeepSeek官方保执一致。
现在,国产芯片与英伟达芯片在单卡性能方面仍存在一定的差距,但通过多卡集群后差距就会削弱。华为公布的数据清爽,CloudMatrix 384终了算力界限达300PFlops,比拟英伟达NVL72的180PFlops擢升67%。
不外,在单元算力功耗方面,国产芯片仍比英伟达高得多。
一位芯片业内东谈主士对《科创板日报》示意,华为公开的数据莫得提到CloudMatrix 384的算力功耗比。更高的功耗关于就业器散热条目也更高,机房界限会更大,导致举座本钱高潮。此外,算力卡数目较多的话,数据需要在多卡之间走动传输,会有更大的时候支拨。
“虽然即使在功耗更大的情况下,能作念NVL72的水平也极度扼制易了,体现了华为研发才略很强。”上述东谈主士称。
国泰海通证券示意,华为云推出CloudMatrix 384超节点,单用户20TPS前提下,单卡Decode糊涂冲突1920Tokens/s,并列专家主流GPU部署性能,超节点机柜在集群推理方面具备上风。跟着国表里硬件供应瓶颈慢慢缓解,看好国内AI理解加快。