【环球网科技综合报道】11月28日消息,联想万全异构智算研发团队的论文《RNL: RoCE Network Loadbalance with AI Traffic Characteristics and Link Congestion Awareness》于近日被IEEE CyberSciTech 2025大会收录。
此次联想被收录的论文提出了一项创新性的RNL技术,通过多维感知、路径负载均衡优化与增量流量迁移,有效解决了AI训练与推理场景中RoCE网络负载均衡的长期难题。
据悉,联想万全异构智算研发团队创新性提出的RNL技术,可以构建“多维感知+路径负载均衡+增量迁移”闭环体系,兼具算法创新与实用价值:首先是多维感知机制,可以实时感知网络拓扑结构、AI任务网络需求及RoCE链路负载状态,为动态调度提供数据基础。其次是路径负载均衡优化,通过虚拟-物理网络映射与路径评分算法,智能选择最优数据传输路径,最大化带宽利用率。第三是增量流量迁移,该技术采用增量迁移策略,在链路流量调整时避免瞬时延迟,确保业务连续性。
与传统方案不同,RNL基于通用RoCE交换机实现AI网络优化,无需绑定专用硬件,显著降低了部署成本。其核心创新在于融合AI业务通信带宽与时延评估算法,结合多维链路拥塞评估机制,实现对AI负载的精准调度与网络路径的智能编排。
在实测环境中,RNL技术不仅展现出高可靠性,更体现出在提升AI业务效率与降低总拥有成本(TCO)方面的双重优势。在性能提升方面,集合通信原语性能提升50%,带宽利用率达85%,负载均衡离散度降低90%;AI推理场景下,TPS(每秒处理事务数)提升26%,TTFT(首字节时间)时长减少 30%,TPOT(每输出令牌时间)时长减少 22%;整体部署成本降低60%,为AI集群的规模化落地提供了经济高效的网络基础。
目前,RNL技术已纳入联想万全异构智算平台的落地规划,这将进一步巩固联想万全异构智算平台在AI异构计算市场的技术壁垒,提升其行业影响力与核心竞争力。(青云)

