主线一:CUDA 解耦
目标:让 LMCache 从 CUDA-only 变成多设备框架
已完成:
- PyTorch 后端替代 C_ops,去掉 CUDA 硬编码
- torch_dev 设备抽象层,架构级解耦
- Intel Gaudi (HPU) 接入,非 CUDA 设备范本
进行中:
- StubCPUDevice,无 GPU 即可跑 MP 模式
下一步:
- CPUContext,非 CUDA 设备跑 MP 模式
- SHM 零拷贝,性能逼近 CUDA IPC
- Intel XPU 适配 multi-process mode
- Intel XPU sycl kernel 评估及调优
- LMCache 动态 metrics 适配 XPU
- LMCache frontend 适配XPU
- GDS backend 解耦,支持非 CUDA 存储直通路径
- NIXL backend 解耦,支持非 CUDA 节点间数据传输
- XPU CI 建立
主线二:大规模部署及异构
目标:让 PD 分离及 P2P 在异构环境下真正可用、扩得动
已完成:
- 非对称 Store/Retrieve 存储,支撑多轮对话 PD 模式
- 全异步 PD Backend,消除同步阻塞瓶颈
下一步:
- PD 分离在 MP 模式下 XPU 的适配及验证
- P2P 在 MP 模式下 XPU 的适配及验证
- PD 分离在软件异构场景下的探索(XPU vLLM + other SGLang/TRT-LLM)
- P2P 在软件异构场景下的探索(XPU vLLM + other SGLang/TRT-LLM)
两条线在 MP 模式交汇 — 解耦让更多设备进来,集群化让它们协同工作。
主线一:CUDA 解耦
目标:让 LMCache 从 CUDA-only 变成多设备框架
已完成:
进行中:
下一步:
主线二:大规模部署及异构
目标:让 PD 分离及 P2P 在异构环境下真正可用、扩得动
已完成:
下一步: