KubeCon热点报告:AIStation调度平台实现RoCE网络下大模型的高效稳定训练
北京2023年10月16日 /美通社/ -- 近日,点报调度的高定训在KubeCon + CloudNativeCon + Open Source Summit China 2023大会(简称"开源技术峰会")上,平台浪潮信息分享了"基于Kubernetes+RoCEv2构建大规模AI基础设施与大模型训练实践"主题报告,实现介绍了浪潮信息在大模型开发过程中,网络尤其在大规模RoCE网络的下大效稳使用场景,如何通过AIStation人工智能算力调度平台满足大模型训练的模型稳定性和效率要求,实现高效长时间持续训练。点报调度的高定训
KubeCon + CloudNativeCon + Open Source Summit是平台Linux基金会、云原生计算基金会(CNCF)主办的实现开源和云原生领域的旗舰盛会,在业界享有极高的网络声誉,来自谷歌、下大效稳亚马逊、模型英特尔、点报调度的高定训Hugging Face等知名企业的平台近百位全球技术专家及行业领袖齐聚本届大会,带来最前沿的实现云原生相关技术成果和技术洞察。
大模型训练遇RoCE网络性能低、断点难题
大模型是当前通用人工智能产业发展创新的核心技术。但大模型训练过程非常复杂,面临诸多挑战。
一方面,大模型训练对通信的要求非常高。为了获得最优的训练效果,单台GPU服务器会搭载多张InfiniBand、ROCE等高性能网卡,为节点间通信提供高吞吐、低时延的服务。但不同的网络方案各有优劣,InfiniBand因性能优异已被公认为大模型训练的首选,但其成本较高;RoCE虽然成本较低,但在大规模的网络环境下,其性能和稳定性不如InfiniBand方案。因此要想满足大模型训练对通信的要求,就要对集群网络中的通信设备适配使用和网络情况进行探索和设计。
另一方面,大模型训练周期通常长达数月,集群计算效力低、故障频发且处理复杂,会导致训练中断后不能及时恢复,从而降低大模型训练的成功率,也会使得训练成本居高不下。Meta在训练Open Pre-trained Transformer (OPT)-175B大模型时,遇到的一大工程问题就是训练不稳定,Meta训练日志显示两个星期内因硬件、基础设施或实验稳定性问题重新启动了40多次。
AIStation实现RoCE网络下大模型高效稳定训练
针对大模型研发和应用各环节的诸多挑战,浪潮信息发布了大模型智算软件栈OGAI(Open GenAI Infra)——"元脑生智",为大模型业务提供了全栈全流程的智算软件栈。OGAI软件栈由5层架构组成,其中L2层AIStation针对大模型训练中常见的"RoCE网络性能和稳定性低"、"训练中断"难题,提供了性能和兼容性俱佳的网络方案和断点续训能力,为大模型训练保驾护航。
1. 优化RoCE网络下的大模型训练,提升网络性能和稳定性
AIStation能够制定合理的作业执行计划,以最大限度地利用资源,满足训练任务的时延和吞吐需求。AIStation优化调度系统性能,实现了上千POD极速启动和环境就绪。尤其AIStation对大规模RoCE无损网络下的大模型训练也做了相应优化,实测网络性能稳定性达到了业界较高水平。
AIStation通过PFC+ECN构建无损以太网络,在交换机侧控制方面,PFC在数据链路层基于报文-队列优先级,在交换机入口侧进行拥塞控制,ECN在网络层基于数据包头中的标识位,在交换机出口侧进行拥塞控制。主机容器侧控制则为Kubernetes的Pod,基于Linux、OFED驱动进行拥塞控制。该方案资源使用灵活,且经过多轮次的GPU分配与回收,解决了GPU分布的碎片化问题。
基于PFC+ECN构建无损以太网络
在大模型训练场景,AIStation通过Calico构建元数据交换网络,基于物理RoCE网卡构建RDMA通讯网络,并通过CNI和虚拟化插件实现IP分配,使POD内大模型训练任务能够充分利用NCCL的PXN等通信优化特性,实现网络的高效使用。
借助AIStation平台,某大型商业银行完成了主流大模型训练框架,如DeepSpeed、Megatron-LM和大语言模型在RoCE网络环境下的训练,快速实现大模型的落地实践。
2. 内置监控系统和智能运维模块,保障大模型稳定训练
健壮性与稳定性是高效完成大模型训练的必要条件。利用AIStation内置的监控全面的监控系统和智能运维模块,可以快速定位芯片、网卡、通讯设备异常或故障。同时对训练任务进行暂停保持,再从热备算力中进行自动弹性替换异常节点,最后利用健康节点进行快速checkpoint读取,实现大模型断点自动续训。
大规模预训练任务的异常处理和断点续训流程
3. 自动配置环境,快速构建大模型训练任务
AIStation实现了计算、存储、网络等训练环境的自动化配置,同时允许用户自定义基本的超参数,只需简单几步,就能启动大模型分布式训练。并且,AIStation还集成了主流的大模型训练框架,包括Megatron-LM、DeepSpeed、HunggingFace上的诸多开源解决方案,实现了秒级构建运行环境。能够帮助开发者在大规模集群环境下便捷地提交分布式任务。调度系统根据分布式任务对GPU算力的需求,通过多种亲和性调度策略,大大降低构建分布式训练任务的技术门槛。
AIStation平台在AI开发、应用部署和大模型工程实践上积累了宝贵的经验和技术,帮助诸多行业客户在资源、开发、部署层面实现降本增效。在垂直行业领域,AIStation平台帮助头部金融客户、生物制药服务公司快速利用密集数据训练、验证大模型,大大降低大模型业务成本。某大型商业银行基于AIStation打造的并行运算集群,凭借领先的大规模分布式训练支撑能力,荣获2022 IDC"未来数字基础架构领军者"奖项。
浪潮信息AIStation在大模型方面已经取得了诸多业界领先的经验和积累,实现了端到端的优化,是更适合大模型时代的AI算力调度平台。未来AIStation进一步通过低代码、标准化的大模型开发流程,以及低成本和高效的推理服务部署,帮助客户快速实现大模型开发和落地,加速生成式AI发展。
-
文章
981
-
浏览
2
-
获赞
2
热门推荐
-
告别漂绿并不难,2022年“中国漂绿榜”解析
“漂绿”一词越来越多地出现在企业报告、官方文件和学术研究中,不再“小众” 视觉中国/图)走进商场,绿色俨然成了“主题色”。在琳琅满目的货架拿起一瓶饮料、一款毛巾,或是在时尚品牌门店试穿一件衣服,走进快投资破十亿,卓宝防水守护小鹏汽车智能制造
【建材网】工信部数据显示:2021年我国新能源汽车产销分别完成354.5万辆和352.1万辆,同比增长1.6倍,连续7年位居全 球第 一。新能源汽车赛道上,立志成为行业破局者的小鹏汽车一直备受瞩目,不一张图带你读懂万事兴C3蒸烤消一体集成灶
【建材网】“烟灶蒸烤消”五合一一个有温度的“懂你的厨房助手”美好的烹饪从一句“天猫精 灵开始”通过天猫精 灵链接实现零键烹饪、语实力领跑!汇泰龙荣 获2022葵花奖两大重磅奖项!
【建材网】7月9日,首届中国广州)智能家居技术大会暨2022第六届葵花奖颁奖盛典在广交会展馆A区举办。智能家居领 袖齐聚,头部品牌云集。汇泰龙凭借实力揽获“2022智能锁行业TO P20&保护生物多样性,270部政策法律文件还需如此改进
大熊猫国家公园甘肃白水江片区的红外相机拍摄到的野生大熊猫。新华社/图)关于生物多样性保护,中国已建立复杂的政策法律体系。国际环保机构绿色和平与北京大学保护生态学研究组近日发布《中国生物多样性保护政策法富轩全屋门窗荣登2022年度《中国家居行业精品年鉴》,致敬国强家好新时代!
【建材网】作为大家居建装行业全 球规模第 一大展,第24届中国建博会广州)参展企业近2000家,展览总面积近40万平方米,汇聚多元渠道,实现顶流赋能,促进产业共融共赢,致力于为大家居建装行业的&ldq连续3天超1000万亩“三夏”大规模小麦机收全面展开
农业农村部小麦机收调度显示,截至6月2日15时,全国已收冬小麦面积7500多万亩,麦收进度过两成。其中四川、湖北麦收进入尾声,河南进度过三成,安徽进度过两成,江苏进度过一成。全国日机收面积已连续3天超新研究证实一个暗淡星系是宇宙早期典型星系
天文学家通过詹姆斯·韦布空间望远镜的观测证实,一个异常暗淡的遥远星系是宇宙中第一批星系的典型代表,正是这类星系的光芒“撕裂”氢原子的迷雾,结束了宇宙幼年的“黑暗时代”。这个星系编号为JD1,于2012从网贷到助贷,摆脱“P2P阴影”的上岸者为何越过越好?
中小银行与助贷机构合作,几乎成了这几年最大的业务增长点。 视觉中国/图)网贷平台似乎已经摆脱了早年的“P2P阴影”。“互联网助贷是在数字经济时代金融服务分工精细化的产物,其本质是信贷业务各参与方的优势保护生物多样性,270部政策法律文件还需如此改进
大熊猫国家公园甘肃白水江片区的红外相机拍摄到的野生大熊猫。新华社/图)关于生物多样性保护,中国已建立复杂的政策法律体系。国际环保机构绿色和平与北京大学保护生态学研究组近日发布《中国生物多样性保护政策法德技优品卡萨系列入选建博会《2021
【建材网】7月9日,由中国建博会广州)携手新浪家居重磅推出的《2021-2022中国家居行业精品年鉴》发布会在B区9.2论坛区盛大举行。德技优品门窗硬核新品卡萨系统断桥平开窗凭借全 面的性能、出 色的李尚福防长“香会”发声:“亚太需要开放包容的大合作,而不是拉帮结派的小圈子”
2023年6月4日,新加坡,中国国务委员兼国防部长李尚福在香格里拉对话会上发表演讲。新华视觉/图)“中国有一首广为传唱的歌曲,歌词写道:‘朋友来了有好酒,豺狼来了有猎枪’,这体现了中国人民厚道友善、不南宁因“高价停车费”免去4人现职后:每日最高限价50元
南都此前报道,广西南宁慧泊停车收费被指“太贵”引发争议,南宁市委副书记、市长侯刚就此公开鞠躬道歉。7月14日,南都记者从南宁市纪委监委获悉,针对调查发现的问题,青秀区人民法院、南宁市市政和园林管理局、赴台交换生眼中的陌生和共生丨记者手记
2019年10月17日,东航MU5098台北松山飞上海虹桥航班飞越台北101大楼。 视觉中国/图)相关报道详见《暂停三年后,陆生赴台交换重启》最早知道赴台交换项目是在2019年,一位熟识的学姐去了台湾直击展会!飞宇门窗心怀极 致,让美好触手可及
【建材网】7月8日,作为大家居建装行业盛会的第24届中国建博会广州)盛大启幕,飞宇门窗以「创赢模式智领生活」为主题,携“新”亮相展馆C区15.2馆09展位。以光影勾勒出时空之境