![]()
DeepSeek又找到突破大模型推理瓶颈的新方法了!
智东西2月27日报道,昨天,DeepSeek发布了一项名为DualPath的全新推理系统方案,直指当前大语言模型在智能体应用场景下遭遇的短板——KV缓存存储I/O瓶颈。该方案通过引入双路径加载机制,显著提升系统吞吐量,基本消除了KV缓存的I/O开销。
DualPath的核心创新在于开辟了一条从存储直通解码引擎的新通道。KV缓存不再仅由预填充引擎加载,而是可以加载至解码引擎,再通过计算网络中的RDMA高效传输至预填充端。这一设计不仅缓解了存储端的压力,还避免了网络拥塞,确保延迟敏感型任务不受干扰。
与全局调度器协同后,DualPath实现了动态平衡两端负载,进一步提升资源利用率。在真实智能体工作负载测试中,DualPath将离线推理吞吐量提升最高达1.87倍,在线服务吞吐量平均提升1.96倍。
在大规模可扩展性方面,DualPath系统在最多1152张GPU上进行了验证。离线推理从2P4D(2K智能体)扩展到48P96D(48K智能体)实现近线性扩展,任务完成时间基本保持一致。
值得一提的是,与之前DeepSeek发表的许多研究论文类似,这篇论文的第一作者吴永彤同样是DeepSeek的实习生。吴永彤目前在北京大学攻读博士学位,师从金鑫教授,主要研究大模型基础设施相关课题,自2025年8月以来便在DeepSeek系统组工作,曾参与DeepSeek-V3.2的研究。
