Skip to content

LMCache 后续路线及主线规划建议 #267

@hlin99

Description

@hlin99

主线一:CUDA 解耦

目标:让 LMCache 从 CUDA-only 变成多设备框架

已完成:

  • PyTorch 后端替代 C_ops,去掉 CUDA 硬编码
  • torch_dev 设备抽象层,架构级解耦
  • Intel Gaudi (HPU) 接入,非 CUDA 设备范本

进行中:

  • StubCPUDevice,无 GPU 即可跑 MP 模式

下一步:

  • CPUContext,非 CUDA 设备跑 MP 模式
  • SHM 零拷贝,性能逼近 CUDA IPC
  • Intel XPU 适配 multi-process mode
  • Intel XPU sycl kernel 评估及调优
  • LMCache 动态 metrics 适配 XPU
  • LMCache frontend 适配XPU
  • GDS backend 解耦,支持非 CUDA 存储直通路径
  • NIXL backend 解耦,支持非 CUDA 节点间数据传输
  • XPU CI 建立

主线二:大规模部署及异构

目标:让 PD 分离及 P2P 在异构环境下真正可用、扩得动

已完成:

  • 非对称 Store/Retrieve 存储,支撑多轮对话 PD 模式
  • 全异步 PD Backend,消除同步阻塞瓶颈

下一步:

  • PD 分离在 MP 模式下 XPU 的适配及验证
  • P2P 在 MP 模式下 XPU 的适配及验证
  • PD 分离在软件异构场景下的探索(XPU vLLM + other SGLang/TRT-LLM)
  • P2P 在软件异构场景下的探索(XPU vLLM + other SGLang/TRT-LLM)

两条线在 MP 模式交汇 — 解耦让更多设备进来,集群化让它们协同工作。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions