互联网行业AI训练平台案例

——容器+NV Device Pulg-In+虚拟化技术 构建弹性资源池

背景

某头部互联网搜索公司AI训练平台支撑搜索的全AI业务的训练任务,平台采用K8S+Docker+NV Device Pulg-In方式,以物理GPU卡为最小单位为用户分配GPU资源。

痛点

存在无法快速支持跨设备多卡训练,卡资源碎片化,资源调度不灵活,资源利用率低和无法统一监控管理资源等问题。

方案

资源池化解决方案改造当前基于K8S+DockerGPU集群,既增加了软件定义带来的使用/管理便捷性,又无需修改上层AI应用。

客户收益

场景: 支持 训练、研发 等用户 AI 应用场景;
GPU 使用率提升: 验证跨设备 16 卡多卡训练加速比,相比于单卡,可达 14.8 倍;
工作效率提升: 快速支持跨设备多卡训练,有效降低算法工程师的工作负载;

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐