千卡集群 vGPU 调度修复
千卡集群升级后 Hami vGPU 调度失败解决方案
本文来自 HAMi 社区开发者范会杨的投稿,详细记录了一个 200 节点 GPU 集群从 Volcano 1.7 升级到 Volcano 1.12 + hami-dp 后,vGPU 调度延迟从秒级恶化到十几分钟的排查与解决全过程。
来自我们团队的见解、教程和新闻
本文来自 HAMi 社区开发者范会杨的投稿,详细记录了一个 200 节点 GPU 集群从 Volcano 1.7 升级到 Volcano 1.12 + hami-dp 后,vGPU 调度延迟从秒级恶化到十几分钟的排查与解决全过程。
从 HAMi 介绍到 DRA 模式部署,覆盖 GPU 显存与算力切分、原生 DRA 与 DevicePlugin 兼容模式两种使用方式的完整指南。
科研实验室的 GPU 一直是个老大难问题。博维智慧科技用三年时间,从虚拟机独占一路演进到 Kubernetes + HAMi 的云原生方案,最终在 12 张卡的集群上实现了 Agent RL 训练与推理的物理隔离。本文为 HAMi 社区 Meetup 深圳站回顾系列第七篇。
深信服云 AI 总架构师贾毫杰分享企业级 AI 算力治理的完整实践——从 Agent 时代的算力挑战出发,深入解析 AI 算力网关的智能路由与安全护栏,再到基于 Volcano + HAMi 的 vGPU 生产级调度方案。
HAMi Maintainer 李孟轩详解 HAMi 2.9 核心特性——昇腾 NPU 用户态软切分、HAMi-DRA 生产级能力,及异构调度增强。结合 Live Demo 和完整 QA,带你一文掌握 v2.9 全部亮点。
HAMi v2.9.0 正式发布!昇腾 910C 用户态虚拟化(HAMi-core 模式)实现显存与算力细粒度共享,HAMi-DRA 基于 Kubernetes DRA 标准达到生产可用,新增 Vastai 设备支持,安全与可观测性全面增强。
燧原科技马达深度拆解国产 GPU 在 Kubernetes 生态中的云原生集成方案——从 GPU Operator 全生命周期管理、CDI 标准设备注入,到基于 CNCF 四层栈的 Inference Gateway 推理网关架构,覆盖设备发现、资源调度、容器接入、可观测性和推理优化的完整链路。
密瓜智能凭借在异构算力调度与 GPU 资源虚拟化领域的技术领先性,经华泰证券与德邦基金联合推荐,正式加入智能投研技术联盟(ITL),成为联盟新成员机构。
CNCF 案例研究:韩国 NAVER 旗下子公司 SNOW Corp. 如何利用 HAMi 实现 GPU 共享、KEDA 实现主动自动伸缩,应对 700% 病毒式流量峰值——实现 MTTR 缩短 91%、峰值流量错误减少 85%、预估节省成本 1,740 万美元。
获取最新的技术文章、教程和 HAMi 社区更新。