DeepSeek联合清北发布DualPath框架推理吞吐量提升近2倍

DeepSeek又搞出大动作了。

2月27日,DeepSeek与北京大学、清华大学在ArXiv联合发布了全新智能体推理框架DualPath的论文。这个框架旨在解决智能体在长文本推理场景下面临的I/O瓶颈问题。

DualPath的核心创新在于改变了传统的"存储至预填充引擎"单路径加载模式,引入了"存储至解码引擎"的第二条路径。

DeepSeek联合清北发布DualPath框架 推理吞吐量提升近2倍 新闻

在现有的预填充-解码分离架构中,存储I/O压力往往集中在预填充引擎上,导致解码引擎的存储带宽闲置。DualPath通过利用解码引擎闲置的存储网卡带宽读取缓存,实现了集群存储带宽的全局池化与动态负载均衡。

实测数据显示,在660B规模的模型上,DualPath在离线推理场景下的吞吐量提高了1.87倍,在线服务场景下的吞吐量平均提升了1.96倍。