客户案例｜ DaoCloud 基于 HAMi 构建灵活 GPU 云，利用率超 80%

探索 DaoCloud 如何运营两大云原生 AI 工作负载平台——D.run 算力云和 DaoCloud 企业版（DCE），使用 HAMi 在跨 10+ 数据中心的 10,000+ GPU 上实现 >80% 的 GPU 利用率。

10,000+

跨平台 GPU 数量

>80%

平均 GPU 利用率

20-30%

运营成本降低

公司概述

DaoCloud 运营着两大面向 AI 工作负载的云原生平台。D.run 算力云是面向个人开发者和小团队的公共 GPU 云，而 DaoCloud 企业版（DCE）则是为企业客户运行训练和推理的私有 Kubernetes 平台。

两大云原生 AI 平台

D.run 算力云面向公共 GPU 云

DaoCloud 企业版（DCE）面向私有 K8s

在中国大陆和香港拥有 10+ 数据中心

DaoCloud

面向 AI 工作负载的云原生平台提供商

GPU 资源管理面临的挑战

随着两个平台对 GPU 需求的快速增长，出现了多个需要灵活 GPU 虚拟化解决方案的挑战。

整卡分配模式

许多推理和轻量级工作负载仅使用 GPU 资源的一小部分，导致计算和显存的大部分容量利用不足，限制了 DaoCloud 打包 GPU SKU 的方式。

异构硬件管理

DaoCloud 需要支持主流 NVIDIA GPU，同时集成来自多个厂商的国产加速器。专有 vGPU 解决方案增加了许可成本。

多租户治理

在 DCE 上，企业客户需要具有部门级配额、基于队列的资源分配以及跨团队的清晰隔离的共享 GPU 池。

云原生对齐

DaoCloud 的核心战略围绕 Kubernetes 和开源技术展开。任何 GPU 共享解决方案都必须保持完全云原生、供应商中立，并与现有 CNCF 工具兼容。

HAMi 作为统一 GPU 层

DaoCloud 采用了 CNCF Incubating 项目 HAMi 进行异构 AI 计算虚拟化，作为跨 D.run 和 DCE 的统一 GPU 层。HAMi 为 Kubernetes 集群中的异构加速器提供设备虚拟化、vGPU 分区和调度。

D.run 算力云：面向公共 GPU 用户的 vGPU SKU

在 D.run 上，DaoCloud 将 HAMi 集成到每个区域 Kubernetes 集群中，以实现细粒度 GPU 共享和更高利用率。

vGPU 切片

物理 GPU 被划分为多个具有定义计算和显存的 vGPU 切片。轻量级推理作业可以在部分 GPU 上运行。

基于 SKU 的市场

vGPU 切片在中心市场中作为标准化 SKU 公开。用户根据工作负载大小选择 GPU SKU。

多区域部署

HAMi 为中国大陆和香港的 7 个活跃 D.run 区域提供支持，覆盖 10 多个数据中心。

国产加速器支持

DaoCloud 扩展了 HAMi 以支持国产 GPU 供应商，确保在统一抽象层下的一致管理。

DaoCloud 企业版（DCE）：面向企业的共享 GPU 池

在 DCE 上，DaoCloud 使用 HAMi 构建了集中式 GPU 资源池，为多个企业租户统一 GPU 容量。

统一 GPU 池

企业用户从服务训练和推理工作负载的中心池中贡献和使用 GPU。

配额和 RBAC

HAMi 的 vGPU 资源与 DaoCloud 现有的配额和基于角色的访问系统集成。

简化体验

算法工程师通过平台请求 GPU 资源，而无需担心底层硬件差异。

与社区共同开发 HAMi

DaoCloud 是 HAMi 最早和最活跃的贡献者之一。

将 D.run 和 DCE 的真实见解回馈给开源社区

与上游合作改进 GPU 超分机制、节点配置管理和异构硬件处理

帮助维护文档和部署指南，支持其他云提供商的生产采用

显著成效：成本降低和效率提升

通过集成 HAMi，DaoCloud 将以前分散的 GPU 资源整合为跨公共云和私有云的更加统一、高效和可扩展的 GPU 层。

GPU 利用率

>80%

部署 HAMi 后每卡平均利用率

成本降低

20-30%

GPU 相关运营成本降低

统一抽象

单一层

跨 NVIDIA 和国产 GPU

部署规模

10,000+ GPU

跨 10+ 数据中心

多区域

7 个区域

中国活跃的 D.run 区域

开放协作

活跃

向上游贡献改进

“HAMi 不仅仅与 DaoCloud 的业务兼容，它是我们共同构建的产物。作为 HAMi 最早的贡献者之一，我们见证了它从诞生到成熟的演进。HAMi 现在运行在 D.run 和 DCE 上，我们的实际改进不断回馈给社区。HAMi 和 DaoCloud 拥有相同的开源 DNA，我们将继续为 HAMi 做出贡献，将真正的 vGPU 技术带给世界。”

Captain，DaoCloud AI/LLM 基础架构产品负责人

开源合作成功

DaoCloud 成功地将 HAMi 集成到其公共和私有 GPU 云平台中，在利用率和成本效率方面实现了显著改进，同时回馈开源社区。

探索 HAMi 联系我们