![]()
HPN7.0架构:为AI设计的高性能网络集群
封面新闻记者 欧阳宏宇
5月14日,网络通信领域国际顶会SIGCOMM2024确定了收录论文名单,中国企业表现亮眼。其中,一篇介绍最新一代的智算集群网络架构HPN 7.0的成果论文,成为SIGCOMM历史上在AI智算集群网络架构领域的首篇论文。这也是中国企业首次为全球AI网络基础设施的设计及实践提供全新高性能标准。
大模型对AI基础设施提出了更高要求,HPN7.0架构为AI时代超大规模、超高稳定性的网络需求而研发。据介绍,该架构成果论文由阿里云提交,在论文中阐释了这一网络架构的“双上联+多轨+双平面”创新设计,并介绍了自研的Solar-RDMA和ACCL通信库,借助这些通信库可实现网络的高性能和高稳定互联。
网络架构是网络技术及系统的基础。“我们从2017年开始探索端网融合的可预期网络,HPN7.0更进一步,把端网融合的体系结构从网络协议栈拓展到网络架构和通信库,实现了面向AI智算时代的全新网络集群架构创新。”阿里云基础设施网络负责人蔡德忠透露,从2023年9月开始,HPN7.0就已在云端展开大规模部署,大模型训练性能较上一代架构在典型场景下提升14.9%,且大幅提高了智算网络整体稳定性。
始于1977年的SIGCOMM是计算机网络领域最顶级的国际学术会议,每年录取率在10%~20%之间,入选成果极有可能成为主流技术范式标准。在HPN7.0之前,谷歌的Jupiter网络曾入选SIGCOMM,并成为AI网络的经典架构标准。但在专家看来,HPN7.0有望成为下一代AI高性能网络架构的新范式。
评论 2
何天天 2024-05-15 发表于四川
网络架构升级,感觉AI要起飞了!
君如戏言 2024-05-15 发表于四川
国产创新,为AI加速,点赞!