客户案例|贝壳基于 HAMi 与 Kubernetes 实现机器学习基础设施 GPU 虚拟化,利用率提升近 3 倍
探索贝壳如何基于 HAMi 和 Kubernetes 打造 AIStudio 平台,实现 GPU 利用率从 13% 提升至 37%(近 3 倍提升),同时支持 10,000+ Pod 并发运行和日均 1,000 万 + 请求处理,涵盖混合云环境。
公司概述
贝壳是中国领先的线上线下房产交易平台和服务提供商。公司集中化基础设施团队运营着跨所有业务单元的共享机器学习平台,为模型开发、训练和大规模推理提供端到端的计算服务。
中国领先的房产交易平台
集中化机器学习平台服务所有业务单元
端到端的 AI 工作负载计算服务
跨混合云的大规模 GPU 基础设施
贝壳
中国领先的房产交易平台
机器学习基础设施扩展面临的挑战
随着机器学习计划的扩展,基础设施团队在跨复杂混合云环境管理 GPU 资源方面面临重大挑战。
规模与复杂性
跨公有云和私有云的 5 个集群,数千张 GPU 卡包括多种型号(H200、H20、V100、4090、H100、A100)
混合云环境
跨公有云(火山引擎、腾讯云、阿里云)和拥有约 1,000 张 NVIDIA GPU 的私有云管理 GPU 资源
多样化工作负载需求
需要完整 GPU 访问的大规模模型训练 vs. 只需最少 GPU 显存(1-2GB)的小模型推理
GPU 利用率低
由于多云复杂性和多样化工作负载需求,初始利用率仅为 13%
基于 Kubernetes 和 HAMi 的 AIStudio 平台
使用 CNCF 项目 HAMi 和 Kubernetes 作为基础,贝壳设计并实施了 AIStudio,一个智能计算平台,作为组织机器学习基础设施的基础。
利用 Kubernetes 和 HAMi 进行 GPU 虚拟化,AIStudio 提供统一平台,连接上层 SaaS 服务与底层计算资源。
多场景支持
在同一基础设施上同时支持推理服务、A/B 测试任务和训练任务
高级优化
针对推理框架、数据集、镜像、检查点和模型的加速能力,以及硬件故障容错
多框架支持
PyTorch、DeepSpeed、Megatron、VLLM、RLHF 和 SGLang
AI 资产管理
资源池、模型仓库、镜像仓库、队列、CubeFS 卷和监控组件的集中管理
针对不同工作负载的双集群架构
GPU 集群
由原生 NVIDIA 设备插件管理,用于需要完整 GPU 资源的训练工作负载:
vGPU 集群
由 HAMi 管理 GPU 显存虚拟化,用于小模型推理:
显著成效:GPU 利用率提升近 3 倍
通过利用包括 HAMi 和 Kubernetes 在内的开源技术,AIStudio 在大规模环境中取得了显著成果。
GPU 利用率
13% → 37%
近 3 倍提升
平台规模
10,000+ Pod
并发运行
日请求量
1,000 万+
日均处理
集群覆盖
5 个集群
公有云和私有云
零停机
100%
迁移和运营期间
工作负载类型
统一
训练和推理在同一平台
HAMi 实现 GPU 复用与异构调度优化
HAMi 的成功集成展示了开源技术如何帮助组织实现卓越的基础设施效率。
Kubernetes 作为基础,通过强大的调度和管理能力实现稳定运营
HAMi 实现 GPU 复用和异构调度优化,将集群 GPU 利用率提升近 3 倍
双集群方法根据资源需求分离工作负载,实现最佳效率
公有云和私有云环境之间的无缝集成实现统一平台管理
未来创新计划
贝壳基础设施团队继续在 HAMi 和 Kubernetes 之上创新和扩展其平台。
采用异构设备:计划集成华为昇腾和其他非 NVIDIA 加速器
云扩展:集成阿里云以补充现有的火山引擎和腾讯云部署
高级调度策略:网络拓扑感知、卡类型指定和基于 UUID 的分配