客户案例| DaoCloud 基于 HAMi 构建灵活 GPU 云,利用率超 80%
探索 DaoCloud 如何运营两大云原生 AI 工作负载平台——D.run 算力云和 DaoCloud 企业版(DCE),使用 HAMi 在跨 10+ 数据中心的 10,000+ GPU 上实现 >80% 的 GPU 利用率。
公司概述
DaoCloud 运营着两大面向 AI 工作负载的云原生平台。D.run 算力云是面向个人开发者和小团队的公共 GPU 云,而 DaoCloud 企业版(DCE)则是为企业客户运行训练和推理的私有 Kubernetes 平台。
两大云原生 AI 平台
D.run 算力云面向公共 GPU 云
DaoCloud 企业版(DCE)面向私有 K8s
在中国大陆和香港拥有 10+ 数据中心
DaoCloud
面向 AI 工作负载的云原生平台提供商
GPU 资源管理面临的挑战
随着两个平台对 GPU 需求的快速增长,出现了多个需要灵活 GPU 虚拟化解决方案的挑战。
整卡分配模式
许多推理和轻量级工作负载仅使用 GPU 资源的一小部分,导致计算和显存的大部分容量利用不足,限制了 DaoCloud 打包 GPU SKU 的方式。
异构硬件管理
DaoCloud 需要支持主流 NVIDIA GPU,同时集成来自多个厂商的国产加速器。专有 vGPU 解决方案增加了许可成本。
多租户治理
在 DCE 上,企业客户需要具有部门级配额、基于队列的资源分配以及跨团队的清晰隔离的共享 GPU 池。
云原生对齐
DaoCloud 的核心战略围绕 Kubernetes 和开源技术展开。任何 GPU 共享解决方案都必须保持完全云原生、供应商中立,并与现有 CNCF 工具兼容。
HAMi 作为统一 GPU 层
DaoCloud 采用了 CNCF Sandbox 项目 HAMi 进行异构 AI 计算虚拟化,作为跨 D.run 和 DCE 的统一 GPU 层。HAMi 为 Kubernetes 集群中的异构加速器提供设备虚拟化、vGPU 分区和调度。
D.run 算力云:面向公共 GPU 用户的 vGPU SKU
在 D.run 上,DaoCloud 将 HAMi 集成到每个区域 Kubernetes 集群中,以实现细粒度 GPU 共享和更高利用率。
vGPU 切片
物理 GPU 被划分为多个具有定义计算和显存的 vGPU 切片。轻量级推理作业可以在部分 GPU 上运行。
基于 SKU 的市场
vGPU 切片在中心市场中作为标准化 SKU 公开。用户根据工作负载大小选择 GPU SKU。
多区域部署
HAMi 为中国大陆和香港的 7 个活跃 D.run 区域提供支持,覆盖 10 多个数据中心。
国产加速器支持
DaoCloud 扩展了 HAMi 以支持国产 GPU 供应商,确保在统一抽象层下的一致管理。
DaoCloud 企业版(DCE):面向企业的共享 GPU 池
在 DCE 上,DaoCloud 使用 HAMi 构建了集中式 GPU 资源池,为多个企业租户统一 GPU 容量。
统一 GPU 池
企业用户从服务训练和推理工作负载的中心池中贡献和使用 GPU。
配额和 RBAC
HAMi 的 vGPU 资源与 DaoCloud 现有的配额和基于角色的访问系统集成。
简化体验
算法工程师通过平台请求 GPU 资源,而无需担心底层硬件差异。
与社区共同开发 HAMi
DaoCloud 是 HAMi 最早和最活跃的贡献者之一。
将 D.run 和 DCE 的真实见解回馈给开源社区
与上游合作改进 GPU 超分机制、节点配置管理和异构硬件处理
帮助维护文档和部署指南,支持其他云提供商的生产采用
显著成效:成本降低和效率提升
通过集成 HAMi,DaoCloud 将以前分散的 GPU 资源整合为跨公共云和私有云的更加统一、高效和可扩展的 GPU 层。
GPU 利用率
>80%
部署 HAMi 后每卡平均利用率
成本降低
20-30%
GPU 相关运营成本降低
统一抽象
单一层
跨 NVIDIA 和国产 GPU
部署规模
10,000+ GPU
跨 10+ 数据中心
多区域
7 个区域
中国活跃的 D.run 区域
开放协作
活跃
向上游贡献改进
“HAMi 不仅仅与 DaoCloud 的业务兼容,它是我们共同构建的产物。作为 HAMi 最早的贡献者之一,我们见证了它从诞生到成熟的演进。HAMi 现在运行在 D.run 和 DCE 上,我们的实际改进不断回馈给社区。HAMi 和 DaoCloud 拥有相同的开源 DNA,我们将继续为 HAMi 做出贡献,将真正的 vGPU 技术带给世界。”