Mooncake：面向长上下文的 KVCache 中心化推理优化方案｜AICon 深圳

8 月 22 日 -23 日，首届AICon 全球人工智能开发与应用大会深圳站即将拉开帷幕。本次大会将聚焦 Agent、多模态、AI 产品设计等热门方向，围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例，邀请来自阿里、腾讯、字节跳动、微软、华为等头部企业以及商汤、Plaud、Rokid 等 AI 明星公司的专家，分享 AI 落地实战经验。一起探索 AI 应用的更多可能，发掘 AI 驱动业务增长的新路径！

阿里云高级技术专家马腾已确认出席并发表题为《Mooncake：面向长上下文的 KVCache 中心化推理优化方案》的主题分享。随着大模型应用的普及，推理过程中的高计算资源消耗和 KVCache（键值缓存）的冗余存储成为关键瓶颈，导致推理成本高昂、吞吐量受限，尤其在长上下文场景中表现尤为突出。Mooncake 项目通过创新的以 KVCache 为中心的“PD 分离”架构（计算与存储解耦）和“以存换算”设计，将 KVCache 池化共享，结合高性能传输技术（如 eRDMA、GPUDirect）和分布式存储优化，实现跨实例的资源复用。

Mooncake 项目包括三大创新点：（1）Transfer Engine：支持全链路零拷贝、多网卡聚合（8×400Gbps），兼容 eRDMA/NVLink/CXL，动态拓扑感知。（2）KVCache Store：利用 GPU 闲置内存与 RPC 框架 coro_rpc，实现透明多级缓存，未来支持廉价存储下沉。（3）生态整合：与 vLLM/SGLang 等主流推理框架适配，TPOT 下降 20%，成本低至 0.2$/1M Token。在多轮对话，长文本阅读等场景中，推理吞吐量显著提升，响应时间降低 69.1%，并被阿里云、蚂蚁集团等企业实际部署。

马腾现任阿里云高级技术专家，于 2021 年 6 月在清华大学获得计算机博士学位。于 2021 年 7 月至 2023 年 11 月期间，在阿里云联合中科院自动化所博士后工作站从事数据中心解耦相关研究。马腾目前担任阿里云基础软件部门的高级技术专家，主要从事 AI 基础设施在新硬件环境下国产化的研究工作，以及国产化硬件如何优化大模型服务系统，其中 CXL-SHM 是国内高速总线领域第一个开源项目，另一个开源项目 Mooncake 被阿里 / 蚂蚁 / 腾讯等多家企业使用。在 SOSP, ASPLOS, ATC, SC, INFOCOM, VLDB, TPDS 等顶级会议上发表论文二十余篇，相关成果授权美国 / 中国专利十余项。入选 CCF 系统软件专委会优秀博士论文激励计划，担任 PPoPP, FAST, ICME, DASFAA, TPDS, TC, JSC 等国际会议 / 期刊的程序委员会成员和审稿人。他在本次会议的详细演讲内容如下：

演讲提纲：

1、引言