DeepSeek联合清北发布DualPath框架推理吞吐量提升近2倍

DeepSeek又搞出大动作了。

2月27日，DeepSeek与北京大学、清华大学在ArXiv联合发布了全新智能体推理框架DualPath的论文。这个框架旨在解决智能体在长文本推理场景下面临的I/O瓶颈问题。

DualPath的核心创新在于改变了传统的"存储至预填充引擎"单路径加载模式，引入了"存储至解码引擎"的第二条路径。

DeepSeek联合清北发布DualPath框架推理吞吐量提升近2倍新闻

在现有的预填充-解码分离架构中，存储I/O压力往往集中在预填充引擎上，导致解码引擎的存储带宽闲置。DualPath通过利用解码引擎闲置的存储网卡带宽读取缓存，实现了集群存储带宽的全局池化与动态负载均衡。

实测数据显示，在660B规模的模型上，DualPath在离线推理场景下的吞吐量提高了1.87倍，在线服务场景下的吞吐量平均提升了1.96倍。