今天分享的是:ODCC开放数据中心委员会:2025年ETH-X Scale Up互联协议白皮书V1.0
报告共计:103页
ODCC 2025年ETH-X Scale Up互联协议白皮书核心内容总结
ODCC发布的《ETH-X Scale Up互联协议白皮书V1.0》聚焦超节点架构中跨GPU高效数据访问需求,系统定义了ETH-X Scale Up互联协议的技术规范、架构设计及应用价值,为大规模GPU互联提供全面解决方案。
Scale Up互联需求源于GPU集群从单机多卡向超节点形态演进,目标是协同多GPU、CPU算力及内存池,实现类“超级GPU”的高效运行。其互联拓扑分为直联与交换机互联两类,交换机互联通过高Radix能力及单层、多层FatTree/Clos拓扑适配不同规模需求。应用场景中,计算与通信重叠需支持Kernel分离与融合两种模式,对应Direct Copy(HBM-HBM)与Direct Access(SM-HBM)两种语义,且需具备统一编址(UVA)能力,满足释放一致性内存模型要求。此外,专用拷贝引擎(SU Engine)可降低总线流量与实现开销,未来还需探索Scale Up与Scale Out融合及GNAI统一编程接口。
ETH-X协议栈采用分层设计,涵盖事务层、数据链路层、物理层及D2D互联。事务层基于PAXI(Peer-to-Peer AXI)实现GPU-GPU访存,支持AXI/APB接口,通过地址转译、TL Flit封装及端到端流量控制保障事务有序可靠传输,延迟可控制在150-170ns。数据链路层优化GPU-Switch互通,PRI帧格式压缩头部提升转发效率,LLR机制增强链路可靠性,CBFC与PFC实现精细化流控,配合ECMP负载均衡与QoS调度优化网络性能。物理层遵循IEEE 802.3标准,支持50Gb/s至200Gb/s单通道速率及多速率接口,扩展前导码与控制码集适配链路层功能。D2D互联基于UCIe技术实现计算与IO芯粒解耦,支持协议适配与灵活封装,降低成本并加速迭代。
该协议可满足高性能计算、AI训练等场景对高速低时延互联的需求,通过软硬件协同设计解决传统互联中带宽匹配、可靠性及效率瓶颈。未来将持续演进,适配技术进步与市场需求,为数据中心大规模GPU互联提供标准化支撑。
以下为报告节选内容