直播回顾 | HAMi 2.9 昇腾软切分与 DRA 实战详解，附完整 QA

2026年5月15日

主题： HAMi 2.9 版本发布解读 —— 《HAMi 2.9 如何重构 Kubernetes AI 算力调度》

时间： 2026 年 5 月 14 日（周三）晚

直播渠道： 微信视频号（HAMi 社区）

主讲人： 李孟轩 —— HAMi Maintainer、密瓜智能联合创始人兼 CTO

主持人： Jimmy Song —— 密瓜智能，负责 HAMi 社区与生态

直播内容简介

本次分享会李孟轩详细解析了 HAMi 2.9 版本的核心特性，重点演示了华为昇腾 Ascend NPU 软切分方案及 HAMi DRA 架构，并针对异构算力调度、监控及国产卡适配等热点问题进行了深度答疑。直播全程结合 Live Demo，让观众直观感受各项新能力的实际效果。

HAMi 这两年一直在做一件事：让 Kubernetes 能更好地管理 AI 算力资源。 无论是 GPU 共享、异构调度，还是 DRA 这样的 Kubernetes 原生资源模型，HAMi 都在持续推进这些方向。

HAMi v2.9 核心更新

HAMi v2.9 版本带来了三个核心能力升级：

HAMi-Core 模式 —— 昇腾 910C 用户态软切分，无需厂商私有驱动
HAMi-DRA —— 基于 Kubernetes DRA 的原生资源模型，正式进入生产可用
异构调度增强 —— 更多异构 GPU 和 AI 加速卡生态支持

版本差异与升级策略

版本功能区别：HAMi 2.9.0 包含多项功能升级，而 2.8.3 主要聚焦于 HAMi Core 层面的 Bugfix，其功能列表仍对标 2.8.0。

灰度升级兼容性： HAMi 自 2.5.0 版本起支持灰度升级，新版本发布后，旧版本提交的任务仍能被识别，旧任务沿用旧版能力，新任务自动启用新版能力。

部署与更新规范

强烈建议使用 Helm 进行更新，必须同时更新 Chart 和镜像

严禁仅替换镜像而不更新 Chart，否则可能导致集群部署失败

性能优化成果： 新版本对 HAMi Core 进行了深度优化，通过减少锁竞争和使用原子操作替代部分锁机制，性能 Overhead 降低至原来的 1/3，接近原生性能极限。

HAMi-Core：昇腾 NPU 用户态软切分

HAMi-Core 是 HAMi v2.9 最重要的特性之一。为解决硬切分（MIG）的局限性，HAMi 引入了用户态软切分方案，通过用户态方式实现算力切分，无需依赖厂商私有驱动，具备更好的通用性和可维护性。

方案优势与原理

突破硬切分限制： 针对 Ascend 910B/C 等不支持硬切分或切分粒度受限（如 910B 最小 16GB）的场景，软切分支持自定义切片大小，实现算力弹性伸缩
架构实现机制： 通过在每个容器内启动 Limiter 守护进程，与全局协调层通讯获取算力规格令牌，利用 libvnpu.so 拦截显存申请和 Kernel Launch 操作，实现资源限制

配置与使用

配置方式： 支持全局配置和节点级配置，节点级配置优先级高于全局配置
强制注解要求： 当前版本需在 Pod 注解中显式添加 huawei.com/vnpu-mode: 'hami-core'，否则任务无法调度到软切分节点

Live Demo 效果

现场演示了在 910B 上成功将 VLM 任务的显存限制从 64GB 调整为 40GB（硬切分无法实现该粒度），验证了软切分的可用性。该方案完全开源，支持 25.05 以上驱动的 910B、910C、310 等型号。

HAMi-DRA：Kubernetes 原生资源模型

HAMi-DRA 是基于 Kubernetes Dynamic Resource Allocation (DRA) 的实现，让 GPU/NPU 等加速器资源管理走 Kubernetes 原生路径。目前 HAMi-DRA 已正式进入生产可用阶段。

架构优势与兼容性

解耦调度器依赖： HAMi DRA 不再包含调度器组件，而是作为 Webhook 和监控组件存在，完美兼容 Kubernetes 原生调度器及 Volcano、Kube-batch 等第三方调度器
无感迁移体验： 用户无需感知 DRA 底层机制，仍可使用类似 Device Plugin 的资源申请方式（如 limits.nvidia.com/gpu），HAMi DRA 自动将其转换为 ResourceClaim

生产级能力增强

监控与排障： 提供了完整的集群监控视图，支持查看设备复用情况、资源分配详情及调度事件，解决了原生 DRA 方案排障困难的问题

选型建议

标准化集群追求最优调度（如拓扑感知）→ 推荐使用原生 HAMi

高度定制化集群（已有调度器）或需即插即用设备复用 → 推荐使用 HAMi DRA

HAMi-DRA 文档地址：https://github.com/Project-HAMi/HAMi-dra

注意事项：

Kubernetes 版本要求 1.35+

DRA Consumable Capacity feature gate 将在 K8s 1.36 默认开启

使用 DRA 模式仍然会经过 hami-core

NPU 的 DRA 支持正在开发中，预计 2.10 版本发布，在此之前会先放出测试版本供社区试用

视频回放

直播完整回放已发布至 HAMi 社区视频号，欢迎观看。

B 站回放链接：HAMi 2.9 如何重构 Kubernetes AI 算力调度

讲师 PPT 下载

讲师 PPT 已整理完毕，可在 HAMi Community GitHub 下载：hami-2.9-kubernetes-ai-scheduling-limengxuan-20260514.pdf

Q&A 整理

以下是本次直播过程中收集到的观众问答整理：

GPU 与 NPU 切分

Q：使用 HAMi 能支持容器里面热挂载 GPU 吗？场景是由 CPU 容器切换至 GPU 容器，不需要重启 Pod。

目前不支持，需依赖底层容器运行时（如 Containerd/CRI-O）支持热挂载 Device 的能力，暂无适配计划。需要关注 CNCF 中是否有支持该功能的项目。

Q：华为昇腾 NPU 910B/C 软切分 HAMi 也有，是完全开源的还是商业的？

都有，软切分方案完全开源。华为 Ascend 因其 Apache 2.0 协议可直接开源支持。

Q：软切分是支持了所有的 NPU 吗，910B、910C、310？

是的，25.05 以上驱动都支持。

Q：华为昇腾 NPU (910B) 切分后使用完毕后，Pod 资源删除掉，vNPU 块摧毁掉后，使用 8 卡整机推理大模型后 PTA call acl api failed 报错了，重启服务器能解决，是 HAMi 虚拟化 NPU 的问题吗？

需要环境复现，建议联系厂商。

Q：软切后监控指标有和容器限制的大小对应起来吗？比如利用率是否是基于切分的大小作为分母计算的。

没有。目前监控显示的利用率是整卡的物理利用率，而非基于切分大小的逻辑利用率（如 20% 物理使用量除以 30% 配额）。与 NVIDIA 类似，都是整卡的利用率。

Q：vNPU 监控有计划支持吗？

昇腾软切分监控在 Roadmap 中。

Q：hami-core 动态调整是啥意思？

暂无动态调整功能。

Q：Ascend 910B4-1 的 Pod 中执行 npu-smi info 出现 DrvMngGetConsoleLogLevel failed，dcmi model initialized failed, because the device is used，是否支持 Ascend 内部执行 npu-smi info？

支持，这个问题很可能是因为这个卡不是一个干净的设备。

DRA 相关

Q：使用 DRA 模式还会走 hami-core 吗？

是的。

Q：NPU 支持 DRA 吗？

正在开发中，预计下个版本（2.10）会 Release，在此之前会先放出测试版本供社区试用。

Q：HAMi DRA 的文档在哪里？

https://github.com/Project-HAMi/HAMi-dra

Q：如果想在 Volcano 下使用显存切分，是推荐用 HAMi-DRA 还是 volcano-vgpu-device-plugin？

建议使用 volcano-vgpu-device-plugin，HAMi DRA 也可以用，但是前者目前适配更好。

Q：有最佳实践文档吗？

目前刚发布，还未撰写最佳实践，欢迎贡献，Kubernetes 版本要 1.35+。

Q：K8s 1.35 默认启用 DRA Consumable Capacity feature gate 了吗？

不是，1.36 才默认开启。

异构调度与生态

Q：HAMi 有适配阿里平头哥的 PPU 的计划吗？

有适配意愿，但需厂商授权开源协议。目前华为 Ascend 因其 Apache 2.0 协议可直接开源支持，而阿里 PPU 暂无类似开源项目，需厂商配合。

Q：异构能做到不同卡如 NVIDIA 卡和国产卡，或国产不同卡的混训混推吗？

取决于国产卡本身是否具备与英伟达卡的混训能力。若硬件支持且网络配置正确，HAMi 作为调度组件可以支持，但性能可能受影响。需要参考厂商的文档。

Q：拓扑调度 HAMi 有优化吗？

针对许多 GPU 都有该优化。

Q：拓扑调度能举个例子说下吗？

昆仑芯和 AWS 的调度逻辑例子。

Q：Volcano 调度器与 HAMi 配合使用，可以实现其他国产卡的切分调度吗？有计划吗？

请等待适配的其他国产卡的调度器出来，需要厂商同意和配合。

Q：远程调用后期会支持吗？

有人提了 Proposal，见：GitHub Gist

运维与稳定性

Q：训练和推理的可靠性和负载均衡弹性伸缩能力如何？

有故障隔离，调度器也无状态可以重启，AWS Carpenter 可以实现弹性伸缩，可以跟 HAMi 一起使用。

Q：升级 HAMi 那老 Pod 还在跑在老的 hami-core 上么？批量删除 Pod 导致 scheduler 挂掉问题现在支持多少并发了？

是的，老 Pod 仍使用旧版 Core（灰度升级机制）。关于批量删除 Pod 导致 Scheduler 挂掉的问题，需进一步测试验证，若发现请提交 Issue。

Q：HAMi 显存超卖可生产使用吗？

HAMI 社区版仅支持逻辑超卖，若实际使用量超过物理显存会导致 OOM。生产级显存超卖能力需参考 HAMi 企业版。

总结

HAMi 2.9 是一次里程碑式的版本更新，HAMi-Core 用户态软切分让昇腾 NPU 算力共享不再受限于厂商硬切分能力，HAMi-DRA 则为异构算力管理提供了一条兼容 Kubernetes 原生生态的全新路径。从直播中观众提问的热度可以看出，社区对 GPU/NPU 共享调度、国产卡适配、DRA 生产化落地等话题有着强烈的需求和期待。HAMi 将继续在这些方向上深耕，也欢迎更多开发者和企业用户加入社区，共同推动 Kubernetes AI 算力调度的发展。

关注 HAMi 社区视频号直播间

我们会持续举办社区直播，邀请更多来自 HAMi 社区及 AI Infra 领域的朋友来分享实践经验、技术方案和前沿探索。无论你是 HAMi 的使用者、贡献者，还是对 AI 算力管理感兴趣的开发者，都欢迎关注我们的直播间，一起交流、一起成长。

微信搜索视频号「HAMi 社区」并关注，精彩不错过！

通过公众号、视频号和小助手获取中文社区动态并加入微信群。

分享这篇文章

返回博客