9月24日上午,在CCF全国高性能计算学术年会上,阿里云、中国科学院计算技术研究所等40余家机构举办发布会,联合发布国内首个高通量以太网ETH+协议标准,可实现集合通信性能30%的提升。同时,基于ETH+协议的基础网络协议IP、开源网卡等硬件及系统也正式亮相,标志着以高通量以太网为代表的新一代开放智算网络,正加速迈向产业化落地。
高通量以太网联盟由阿里云和中国科学院计算技术研究所联合发起,成员囊括北京大学、平头哥、盛科、腾讯、字节跳动等40余家机构。作为联盟联合主席,中国工程院院士、中国计算机学会理事长孙凝晖,与阿里云研发副总裁、基础设施网络负责人蔡德忠,在本次大会上,与中国科学院院士陈国良,中国工程院院士邬江兴,以及联盟核心会员代表,共同发布了1.0版本的高通量以太网协议标准。
人工智能网络的底层基础是网络协议。犹如“苹果iOS”与“安卓系统”,私有化商业协议与硬件强绑定,以太网协议则因开放共建而获得了业界广泛支持。高通量以太网联盟,集结产学研各界力量,基于开放以太网生态,面向智算网络,研发及制定统一技术标准和底座。
高通量,一般指同时获得高利用率、高吞吐量和低延迟的系统性能统称。此次发布的高通量以太网ETH+协议,较标准以太网大幅提升性能,可实现一个高载荷比、高可靠、低时延、高效率的开放以太网。
ETH+协议通过优化帧格式,实现了有效载荷比74%的提升;通过深度支持链路层和物理层的重传技术,ETH+以太网的语义可靠性及规模大幅提升;基于RDMA的在网计算技术,实现集合通信性能提升30%以上。同时,通过再定义以太网前导码,高通量以太网和标准以太网可实现高效混合部署。
发布会上,与ETH+协议匹配的开源硬件IP、商业版IP、验证体系及基准测试集等系列成果一一亮相。其中,基于ETH+协议的的基础网络层IP已实现广泛商业化落地,开源RDMA网卡设计也为业界提供了有益参考。
“打造一个开源开放的智算网络生态,是高通量以太网联盟的核心目标。我们希望产学研各界有更多的伙伴加入进来,一同推动AI智算网络技术和生态的发展繁荣,为AI大模型时代提供更坚实的网络基础。”蔡德忠表示。
据了解,阿里云在高性能网络领域已深耕多年,打造的HPN7.0智算网络架构,可实现十万卡级别AI智算网络的高性能和高稳定互联,被誉为开启下一代智算高性能网络架构新范式。阿里云也是UEC、SONiC、CXL、UCIe等多个国际互连技术、网络组织的创始成员或技术委员会成员。阿里巴巴还曾获评权威机构AMiner全球十大最具影响力的网络研究机构。