DeepSeek发布下一代技术！北大实习生立功

　　DeepSeek又找到突破大模型推理瓶颈的新方法了！

　　智东西2月27日报道，昨天，DeepSeek发布了一项名为DualPath的全新推理系统方案，直指当前大语言模型在智能体应用场景下遭遇的短板——KV缓存存储I/O瓶颈。该方案通过引入双路径加载机制，显著提升系统吞吐量，基本消除了KV缓存的I/O开销。

　　DualPath的核心创新在于开辟了一条从存储直通解码引擎的新通道。KV缓存不再仅由预填充引擎加载，而是可以加载至解码引擎，再通过计算网络中的RDMA高效传输至预填充端。这一设计不仅缓解了存储端的压力，还避免了网络拥塞，确保延迟敏感型任务不受干扰。

　　与全局调度器协同后，DualPath实现了动态平衡两端负载，进一步提升资源利用率。在真实智能体工作负载测试中，DualPath将离线推理吞吐量提升最高达1.87倍，在线服务吞吐量平均提升1.96倍。

　　在大规模可扩展性方面，DualPath系统在最多1152张GPU上进行了验证。离线推理从2P4D（2K智能体）扩展到48P96D（48K智能体）实现近线性扩展，任务完成时间基本保持一致。

　　值得一提的是，与之前DeepSeek发表的许多研究论文类似，这篇论文的第一作者吴永彤同样是DeepSeek的实习生。吴永彤目前在北京大学攻读博士学位，师从金鑫教授，主要研究大模型基础设施相关课题，自2025年8月以来便在DeepSeek系统组工作，曾参与DeepSeek-V3.2的研究。

​DeepSeek发布下一代技术！北大实习生立功