
普惠AI 如何在 Anolis OS 8 上部署生产可用的 DeepSeek 推理服务 原创
背景介绍
DeepSeek-R1
DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。DeepSeek-R1-Distill-Qwen 则是通过 DeepSeek-R1 的输出,基于 Qwen 大语言模型,经过模型蒸馏的小模型,其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。
龙蜥操作系统
龙蜥操作系统 Anolis OS 8 是 OpenAnolis 龙蜥社区发行的开源 Linux 发行版,支持多计算架构,提供稳定、高性能、安全、可靠的操作系统支持。Anolis OS 8 中通过引入龙蜥生态软件仓库(EPAO),实现一键安装部署 AI 开发环境,解决了 AI 组件之间繁琐的依赖关系,加速 AI 应用的开发、部署流程。
EPAO 仓库为开发者提供了一键安装主流 NVIDIA GPU 驱动和 CUDA 加速库的功能,简化了驱动版本匹配和手动安装的繁琐过程。仓库中的组件均经过兼容性测试,确保一键安装时无需修改系统依赖项,从而提升了使用过程中的稳定性。
AC2
Alibaba Cloud AI Containers(简称 AC2)是阿里云官方推出的一系列 AI 容器镜像的合集。通过内置不同的硬件加速库、AI 运行时、AI 框架等满足用户不同场景的部署使用诉求,并通过与阿里云基础设施(ECS、ACK、ACS)深度优化,提升用户在阿里云上的 AI 性能和体验。
模型部署
前置准备
部署前需要准备:
- NVIDIA GPU 实例(显存不小于 16G):示例使用阿里云 ecs.gn7i-c8g1.2xlarge 规格实例
- 运行 Anolis OS 8 系统
- 不小于 60G 存储空间
- 公网访问能力,并开放 8000 端口
准备容器运行环境
1. 在 Anolis OS 8 上使用 EPAO 仓库安装 NVIDIA 驱动以及 CUDA 驱动。
2. 在 Anolis OS 8 上安装 Docker 运行环境,并安装 NVIDIA Container Toolkit 来支持 GPU 容器。
3. 安装运行依赖系统组件。
4. 下载模型文件,下载耗时较长(约 30 分钟),且阻塞终端输入。模型下载为当前目录下的 DeepSeek-R1-Distill-Qwen-7B。
运行 DeepSeek 容器
1. 从 AC2 拉取容器镜像,并运行 DeepSeek 部署容器。镜像会检查「MODEL_DIR」环境变量设置的模型目录下是否存在模型文件,并运行自动启动 vLLM 推理服务,以 OpenAI API 接口透出服务。
2. 容器运行后可以使用 docker logs <container_id> 来查看容器运行日志,正常运行后日志输入如下所示。API 服务已在本地 8000 端口运行。
3. 通过 cURL 实用程序可以测试模型推理效果,例如提问「9.9和9.11哪个大?」。
4. 模型输出如下,由于 DeepSeek-R1 为推理模型,模型输出大致分为思考部分以及回答部分。
总结
DeepSeek-R1 在数学推理、编程竞赛等多个任务上表现出色,不仅超过了其他闭源模型,而且在某些任务上接近或超越了 OpenAI-o1 系列模型。一经发布,火爆海内外。本文介绍了如何在 Anolis OS 8 上使用 AC2 容器部署生产可用的 DeepSeek 推理服务。
通过 Anolis OS 8 所提供的原生 AI 能力,结合 AC2 容器化 AI 运行环境的预配置,用户得以免去自行部署 CUDA 驱动及安装 PyTorch/vLLM 等繁琐步骤,极大地简化了部署流程,有效规避了因组件与驱动版本不兼容所引发的潜在问题,更专注于核心业务逻辑,而无需被底层技术细节所困扰。这一创新组合显著降低了在生产环境中部署人工智能技术的门槛,真正使得 AI 技术普惠广大用户。
我们也设立了动手实践环节,欢迎大家沉浸式体验,链接见下:
https://developer.aliyun.com/adc/scenario/311001730508
—— 完 ——
