客户案例|顺丰科技 × HAMi | 提升 AI 效率并大幅削减成本
探索顺丰科技如何基于开源 HAMi 框架,通过其 EffectiveGPU 技术实践,深度整合异构算力虚拟化与高效调度能力,在 AI 大模型推理、语音识别等关键场景实现生产落地,显著提升 GPU 利用率,实现降本增效,并推动 HAMi 开源生态发展。
公司概述
顺丰科技是顺丰速运集团的科技板块,作为中国领先的物流科技公司,专注于为物流、AI 和云计算服务开发创新解决方案。
领先的物流科技服务提供商
广泛的 AI 和机器学习应用
大规模 GPU 基础设施需求
专注于成本优化和效率提升
顺丰科技
中国领先的物流科技服务提供商
传统 GPU 管理模式难以为继
传统 GPU 使用方式(如整卡独占)导致 GPU 在推理等轻负载场景"跑不满",资源浪费严重。
资源利用率低:GPU 平均利用率长期低于 30%,尤其是在推理和测试场景,算力和显存空置问题尤为突出。
调度粒度粗:缺乏细粒度的资源切分与共享能力,难以实现多任务并发与资源复用。
异构适配困难:GPU、NPU、国产 AI 芯片等多类设备混布,调度系统面临生态碎片化与管理复杂度攀升。
影响 ROI:这些问题直接影响 AI 服务的部署灵活性与算力基础设施的 ROI(投资回报率)。
破局之路:EffectiveGPU 技术实践
面对挑战,顺丰科技团队基于开源异构算力调度框架 HAMi,并结合自身业务场景需求,推出了 EffectiveGPU 技术方案。
目标是构建高效、灵活、统一的 GPU 资源池化与调度管理体系,解决资源利用率低、管理复杂的问题。
GPU 池化与虚拟化
将分散的 GPU 资源整合为统一的资源池,通过虚拟化技术实现资源的按需分配,此能力基于并拓展了 HAMi 的虚拟化基础。
细粒度资源切分
支持按核心利用率(算力)和显存容量进行精确切分,允许单个 GPU 卡同时服务于多个不同需求的应用,打破整卡独占的限制,这得益于 HAMi 的灵活切分机制。
弹性资源超配
引入显存和算力的双维度超分技术(如高达 200% 的显存超分比),结合优先级调度,进一步压榨 GPU 潜力,在保障高优先级任务 QoS 的前提下运行更多任务。
统一管理与调度
提供统一的调度接口,抽象屏蔽底层硬件差异,支持包括国产 GPU 在内的异构资源统一纳管和高效调度,这与 HAMi 构建统一抽象驱动框架的理念一致。
显著成效:资源利用率大幅提升,降本效果显著
方案已在顺丰科技 AI 平台完成多场景落地,取得显著成果。
大模型推理服务
28 张卡 → 65 个服务
使用 28 张 GPU 卡部署 65 个服务,节省 37 张卡
测试服务集群
6 张卡 → 19 个服务
使用 6 张测试用 GPU 卡部署 19 个服务,节省 13 张卡
语音识别等业务
实时性保障
依托优先级调度与资源超分,确保关键任务实时性
国产算力适配
多厂商支持
已适配昇腾、昆仑等国产 AI 芯片,具备完整调度支持,此兼容性部分得益于 HAMi 的异构兼容设计
性能影响
仅下降 0.5%
添加池化层后最低仅下降 0.5% 性能
深度融合 HAMi 生态,共筑高效算力底座
EffectiveGPU 技术的成功实践,离不开与开源异构算力调度框架 HAMi 的深度融合。
EffectiveGPU 技术架构深度集成了 HAMi 在异构算力虚拟化、多元异构 GPU 高效调度、统一管理及可观测性等领域的核心能力。
特别在国产 GPU 的管理与调度方面,正是通过集成 HAMi 生态,构建了统一的抽象驱动框架与跨架构调度模型,实现了对包括华为昇腾、百度昆仑等在内的国产 AI 算力平台的良好适配和高效利用。
EffectiveGPU 方案在虚拟化接口、调度接口以及异构 GPU 兼容性上,均采用了兼容 HAMi 生态的设计,确保了技术的平滑接入和应用的无缝运行。
验证 HAMi 价值,推动开源异构算力调度走向成熟
顺丰科技 EffectiveGPU 的成功落地,是对 HAMi 技术理念和工程价值的再一次有力验证。
证明 HAMi 在灵活可靠虚拟化、高效调度、统一管理和可观测性等关键能力,完全有能力支撑大型企业在复杂生产环境中的实际需求。
HAMi 作为 CNCF Sandbox & CNAI landscape 项目,此次实践为其进一步推动行业标准化建设与场景落地积累了宝贵经验。
“通过与 HAMi 开源社区的紧密合作及基于其框架的二次创新,EffectiveGPU 帮助我们显著提升了 GPU 资源效能,降低了运营成本。这是开源协同与企业实践共赢的典范。”