北京2023年9月15日 /美通社/ -- 大模型是详解型高效长训练当前通用人工智能产业发展创新的核心技术,目前国内已发布的调度平大模生成式AI模型超过了100个。面向以大模型为核心的台何生成式AI开发与应用场景,近日浪潮信息发布了大模型智算软件栈OGAI(Open GenAI Infra)——"元脑生智",实现时间为大模型业务提供了全栈全流程的持续智算软件栈,包括AI算力系统环境部署、详解型高效长训练算力调度保障、调度平大模模型开发管理等。台何OGAI软件栈由5层架构组成,实现时间从L0到L4分别对应于基础设施层的持续智算中心OS产品、系统环境层的详解型高效长训练PODsys产品、调度平台层的调度平大模AIStation产品、模型工具层的台何YLink产品和多模纳管层的MModel产品。
其中L2层AIStation是实现时间面向大模型开发的AI算力调度平台,AIStation针对大模型训练中的持续资源使用与调度、训练流程与保障、算法与应用管理等方面进行了系统性优化,具备大模型断点续训能力,保证长时间持续训练。AIStation支撑浪潮信息"源"大模型的训练算力效率达到44.8%。某大型商业银行基于AIStation打造的大规模并行运算集群,帮助其充分发掘计算潜能进行大模型训练,并荣获2022 IDC"未来数字基础架构领军者"奖项。
本文将重点讨论大模型训练面临的挑战、AIStation如何提升大模型训练效率,以及取得的效果。
一、大模型训练面临巨大挑战
1.大模型训练巨大算力成本和算力利用难题
大模型训练要面对的首要挑战就是海量数据和计算量,算力开销巨大,如GPT-3是在10000个GPU上训练得到的,"源1.0"模型是在2128个GPU上通过AIStation平台完成1800亿tokens的训练,训练一个万亿token的700亿参数模型将花费上百万美元。但计算平台的性能通常不能随着算力线性增长,而是会出现耗损,因此大模型训练还需要高效的算力调度来发挥算力平台的效能。而这不仅需要依赖算法、框架的优化,还需要借助高效的算力调度平台,以根据算力集群的硬件特点和计算负载特性实现最优化的算力调度,整体提高算力利用率和训练效率。
2.耗时且维护复杂的多种网络兼容适配
大模型训练过程中,成千上万颗GPU会在节点内和节点间不断地进行通信。为了获得最优的训练效果,单台GPU服务器会搭载多张InfiniBand、ROCE等高性能网卡,为节点间通信提供高吞吐、低时延的服务。但不同的网络方案各有优劣,InfiniBand因性能优异已被公认为大模型训练的首选,但其成本较高;RoCE虽然成本较低,但在大规模的网络环境下,其性能和稳定性不如InfiniBand方案。因此要想满足大模型训练对通信的要求,就要对集群网络中的通信设备适配使用和网络情况进行探索和设计。
3.不稳定的大模型训练和高门槛的系统级别优化
大模型训练过程比传统的分布式训练复杂,训练周期长达数月。集群计算效力低、故障频发且处理复杂,会导致训练中断后不能及时恢复,从而会降低大模型训练的成功概率,也会使得大模型训练成本居高不下。因此,大模型对训练的稳定性、故障检测与训练容错提出了更高的要求。同时简化大模型分布式任务提交、实现智能与自动化的任务资源匹配和训练健壮性也是提升训练效率的重要保证。
Meta在训练模型体量与GPT3规模相当的Open Pre-trained Transformer (OPT)-175B时,遇到的一大工程问题就是训练不稳定。如下图所示,可以看到有许多训练停止的时间节点,原因有GPU掉卡、GPU性能异常导致训练意外中断等。训练稳定性和有效的断点续训是目前大模型训练中亟待解决的问题。
总之,在超大规模分布式环境下开展大模型训练,如果想要缩短训练周期、降低训练成本,就需要解决算力调度、网络通信、训练稳定性等各种挑战。不仅要灵活、充分地利用集群内的所有资源,通过多种手段优化数据使用、通讯,还要及时处理大规模计算集群的异常。
二、AIStation全流程简化和提速大模型训练
浪潮信息AIStation提供了系统性软硬一体优化的平台与软件栈能力,来保障大模型的训练需求。AIStation平台从资源使用与调度、训练流程与保障、算法与应用等角度进行了系统性的优化,实现了对大模型训练的端到端优化和加速。
AIStation全面支撑与保障大模型业务
1. 毫秒级调度,高效使用大规模算力,解决算力利用低难题
AIStation在大模型训练实践中,针对云原生调度系统性能做了优化,实现了上千POD极速启动和环境就绪。如下表所示,AIStation调度器与原生社区版相比,能大幅提升大规模POD任务的调度性能,尤其能保证大模型训练的计算资源的调度使用。
表1 大规模POD调度任务性能对比
社区调度器 | AIStation调度器 | 效果对比 | |
1000 pod 吞吐量 | 4.97 (pods/s) | 26.31 (pods/s) | POD吞吐量提升5倍 |
1000 pod调度时延/500节点 | 100346 ms | 18523 ms | 时延下降5倍 |
此外,AIStation平台能够支持大模型特有的开发模式,提供多种尺度作业资源使用方式,包括小尺度资源调度,大尺度资源调度、高性能调度等。算力调度器通过动态、智能地管理和调配集群计算资源,制定合理的作业执行计划,以最大限度地利用资源,满足各类训练任务的时延和吞吐需求,保证作业高效稳定运行,实现算力平台高利用率、强扩展性、高容错性。
通过多种资源高效管理和调度策略,AIStation能实现毫秒级调度,将整体资源利用率提升到70%以上,帮助客户更好地利用计算集群算力,充分发挥算力价值。
2.高效网络资源管理,多卡加速比达90%,极致加速训练过程
AIStation定义了互相独立的计算高性能网络、存储高性能网络,并且支持交换机级别的资源调度,减少跨交换机流量,同时具备网络故障自动识别和处理功能。针对大模型训练通信要求高的场景,AIStation提供集群拓扑感知能力,容器网络与集群物理网络一致,保证了容器互联性能,满足训练通信要求。分布式通信优化结合集群的InfiniBand或 RoCE高性能网络和专门优化的通信拓扑,使得AIStation在千卡规模集群测试中,多卡加速比达到了90%。尤其AIStation对大规模RoCE无损网络下的大模型训练也做了相应优化,实测网络性能稳定性达到了业界较高水平。
借助AIStation平台,某大型商业银行实现了主流大模型训练框架,如DeepSpeed、Megatron-LM和大语言模型在RoCE网络环境的训练,快速实现大模型的落地实践。
3.大规模训练系统级别优化,故障处理时间缩短90%,最大限度降低实验成本
大模型任务提交时,经常会伴随着大量的环境配置、依赖库适配和超参数调整。AIStation能够自动化配置计算、存储、网络环境,同时对一些基本的超参数提供自定义修改,方便用户使用,通过几步就能启动大模型分布式训练,目前支持诸多大模型训练框架和开源方案,如Megatron-LM、DeepSpeed等。
AIStation上快速部署Megatron-LM,提供训练全过程保障
AIStation在大规模训练集群上利用自研数据缓存系统,提高了训练前、训练中的数据读取速率,大大减少对存储系统和网络的依赖。配合优化的调度策略,与直接使用存储系统相比,可让模型训练效率获得200%-300%的提升,硬件性能100%释放。
健壮性与稳定性是高效完成大模型训练的必要条件。AIStation针对资源故障等集群突发情况,会自动进行容错处理或者执行弹性扩缩容策略,保证训练任务中断后能以最快速度恢复,为需要长时间训练的大模型提供可靠环境,平均将异常故障处理时间缩短90%以上。
大规模预训练任务的异常处理和断点续训流程
综上,针对大规模分布式计算,AIStation内置分布式训练自适应系统,覆盖训练的全生命周期,满足了大模型训练的诸多诉求,提供资源使用视图、计算与网络调度策略、分布式训练加速、训练监控、训练容错与自愈能力,在加速训练的同时,能够自动定位故障和恢复任务,保证了训练的稳定性和效率。某银行客户在AIStation智能容错的机制保障下,在极其严苛的业务投产测试中能够实现快速故障排查和恢复,大幅降低业务投产上线时间。
三、AIStation助力行业提升大模型开发效率
AIStation平台在AI开发、应用部署和大模型工程实践上积累了宝贵的经验和技术,帮助诸多行业客户在资源、开发、部署层面实现降本增效。在垂直行业领域,AIStation平台帮助头部金融客户、生物制药服务公司快速利用密集数据训练、验证大模型,大大降低大模型业务成本。某大型商业银行基于AIStation打造的并行运算集群,凭借领先的大规模分布式训练支撑能力,荣获2022 IDC"未来数字基础架构领军者"奖项。
浪潮信息AIStation在大模型方面已经取得了诸多业界领先的经验和积累,实现了端到端的优化,是更适合大模型时代的人工智能平台。未来AIStation将与浪潮信息OGAI软件栈一同进化,进一步通过低代码、标准化的大模型开发流程,以及低成本和高效的推理服务部署,帮助客户快速实现大模型开发和落地,抢占先机。
文章
37654
浏览
2
获赞
8814
“人民调解+司法确认” 打造“枫桥经验”新名片
本报讯近日,名山区法院百丈法庭通过“人民调解+司法确认”模式,成功调处两起交通事故赔偿纠纷。2019年9月,廖某、韩某等5人在西藏自治区昌都市务工。廖某驾驶韩某的机动车在务工途中坠入金沙江,造成车上胡极豪科技侧边电容指纹识别解决方案助力OPPO旗舰机Find N3发布
创"芯"交互,持续赋能上海2023年10月20日 /美通社/ -- "AI×Sensor"人工智能传感器供应商极豪科技今日宣布,极豪侧边电容指纹识别春运车票已发售1.2亿张!首日全国铁路发送旅客1039万人次
据中国国家铁路集团有限公司简称“国铁集团”)消息,1月15日,全国铁路预计发送旅客1100万人次,计划加开旅客列车554列。1月14日,春运首日全国铁路发送旅客1039万人次,运输安全平稳有序。从12江波龙亮相中国移动全球合作伙伴大会,共探高算力存储机遇
深圳2023年10月23日 /美通社/ -- 10月11日至13日,以"算启新程,智享未来"为主题的2023中国移动全球合作伙伴大会在广州盛大举行。作为中国移动长期合作伙伴,江波龙优化施工方案 克服各种建设难题
泸石高速安顺互通进行现浇梁施工4月8日,泸石高速公路安顺互通建设现场热火朝天。作为“红色高速”,泸石高速的线路走向基本与红军长征线路吻合,安顺互通建成后可让游客更加便捷地直达安顺场景区。站在安顺互通桥冬季旅游怎么玩?10条全国冰雪旅游路线和26个今冬避寒康养好去处不容错过
1月15日,中国气象局与文化和旅游部联合推出10条全国冰雪旅游路线和26个今冬避寒康养好去处。10条全国冰雪旅游路线涵盖南北、贯通东西,分别为“北疆风情·梦幻雪都”“筑梦亚冬会·北国好风光”“林海雪原"全国群众体育干部培训班"领导考察舒华承建的运动健康中心
泉州2023年10月23日 /美通社/ -- 近期,国家体育总局主办的"2023年全国群众体育干部培训班"在武汉举行。会议期间,领导们莅临舒华体育参与建设的"武汉市社区运“吉林老人救助重庆游客反遭诬陷”迎来反转?重庆警方最新通报
1月15日,重庆警方就网传“吉林老人救助重庆一游客反遭诬陷”发布警情通报称,综合多地调查情况初步查明,彭某、雷某不存在网传的“诬陷”情况。目前,重庆警方正在进一步协同吉林市公安机关依法调查。总台记者天全县新场小学: 在劳动中过“三八”节 用关爱助孩子进步
本报讯3月8日下午,天全县新场镇新立村一处茶园里,40名来自新场小学的女教职员工,用握粉笔的手采摘茶叶,用劳动过“三八”节。女教师在茶园采茶这是新场小学庆祝第112个国际劳动妇女节开展的以“巾帼心向党MoldBreaking摩柯:中国品牌出海日本,“国潮”星火可燎原
上海2023年10月20日 /美通社/ -- 近日,一场主题为“根植亚洲 链接世界”的CEO SUMMIT高峰论坛于中国上海举行。MoldBreaking摩柯深度参与本场论坛,并主导了一场题为“着眼亚发酵技术白皮书发布 以科技创新引领化妆品行业变革
上海2023年10月20日 /美通社/ -- 当前整个化妆品产业已认识到科技赋能和创新发展的重要性,高科技绝对是推动产业发展的基石和有效保障。打破国际垄断,利用本土创新科技推动化妆品产业升级已成为疫情自然至上 芬欧蓝泰森林膜邂逅中国伏特加"岭洌"
上海2023年10月23日 /美通社/ -- 近日,Packcon中国包装容器展的主办方励展博览集团一行人走访了一家坐落在上海长乐路上的酒吧——崃州吧,因其母公司推出了一款中国本土伏特加“岭洌”而受到今年 一批交通项目将完工
雨名快速通道项目TJ2标建设现场 韩毅 摄本报讯国道318线成都界至雨城段新改建项目、川藏铁路第一城雅安枢纽站站城一体化项目今年内将开工建设……近日,记者从雅安交建集团获悉,今年,交建集团将新开工建BSI为新氧科技颁发ISO 37301合规管理体系认证证书
北京2023年10月20日 /美通社/ -- 近日,国际领先标准、测试及认证机构BSI正式授予北京新氧科技有限公司首张医疗美容行业的ISO 37301:2021合规管理体系国际认证证书,标志新氧科技的水光共舞点亮山河,全球最大水光互补电站的数智密码
深圳2023年10月23日 /美通社/ -- 雅砻江,发源于青海巴颜喀拉山,以磅礴之势从青藏高原奔腾而下数千里,在四川攀枝花汇入金沙江。川西海拔4600米的扎拉托桑雪山上,一排排由蓝色光伏板组成的&q