Mooncake 大模型开源生态体系建设与产业应用实践|龙蜥MeetUp
原创
马腾详细介绍了大模型推理架构 Mooncake,并表示该架构通过创新的 KVCache 中心设计,显著提升了 Kimi 智能助手的推理吞吐和成本效率,已引起业界广泛关注。近期,清华大学与阿里云等多家企业宣布共建 Mooncake 项目,旨在构建高性能推理框架的开源生态。阿里云与清华大学共同探索了大模型资源池化技术的工业应用,推动推理实例共享与缓存池化层标准化,实现高效分布式资源解耦,提升大模型长上下文推理性能。目前 Mooncake 已在 vLLM/SGLang 等多个推理框架集成,并在多家企业落地。
©视频版权归作者和鸿蒙开发者社区共同所有,如需转载,请注明出处,否则将追究法律责任

0/500
发布
互动
暂无数据