浪潮信息Owen ZHU:大模型百花齐放,算力效率决定速度
北京2023年8月31日 /美通社/ -- 与狭义的浪潮人工智能相比,通用人工智能通过跨领域、信息效率跨学科、模型跨任务和跨模态的百花大模型,能够满足更广泛的齐放场景需求、实现更高程度的算力速度逻辑理解能力与使用工具能力。2023年,决定随着 LLM 大规模语言模型技术的浪潮不断突破,大模型为探索更高阶的信息效率通用人工智能带来了新的曙光。通用人工智能进入了快速发展期,模型在中国,百花大模型已经呈现出百花齐放的齐放态势,各种大模型层出不穷。算力速度
要想在"百模争秀"的决定时代占得先机,AI开发团队需要着力化解算力、浪潮算法、数据层面的巨大挑战,而开发效率和训练速度是保障大模型市场竞争力的核心关键因素,也是未来的核心发力点。近日,浪潮信息人工智能与高性能应用软件部 AI 架构师Owen ZHU参与首届由CSDN、《新程序员》联合主办的NPCon大会,发表重要技术演讲,分享面向新一轮AIGC产业革命,AI大模型的算力系统解决之道,并强调算力、算法、数据和系统架构等多个方面的综合优化对大模型训练到了至关重要的作用。
以下为Owen ZHU在NPCon大会的演讲实录整理:
- "百模争秀"时代的算力瓶颈
大模型研发的核心技术是由预训练与Alignment组成的,第一部分就是预训练,需要用大量的数据使模型收敛速度更快、性能更好。第二部分则是Alignment,Alignment不完全等于强化学习,其通过使用多种方式/策略优化模型输出,让AI在和人的交流反馈中学会如何沟通表达,这两部分是提升大模型质量的核心要素。
目前来看,模型基础能力取决于数据、模型参数量和算力。模型参数量越大、投入的训练数据越大,模型泛化能力越强。由于资源限制,在两者不可兼得的时候,应该如何进行取舍呢?OpenAI的研究结论认为,与增加数据量相比,先增大模型参数量受益则会更好,用一千亿的模型训练两千亿的Token和两千亿模型训练一千亿的Token,后者的模型性能会更高。
由此可见,参数量是衡量模型能力的一个重要指标,当模型参数量增长超过一定阈值时,模型能力表现出跃迁式的提升,表现出来语言理解能力、生成能力、逻辑推理能力等能力的显著提升,这也就是我们所说的模型的涌现能力。
模型规模多大能产生涌现能力呢?现在来看,百亿参数是模型具备涌现能力的门槛,千亿参数的模型具备较好的涌现能力。但这并不意味着模型规模就要上升到万亿规模级别的竞争,因为现有大模型并没有得到充分训练,如GPT-3的每个参数基本上只训练了1-2个Token,DeepMind的研究表明,如果把一个大模型训练充分,需要把每个参数量训练20个Token。所以,当前的很多千亿规模的大模型还需要用多10倍的数据进行训练,模型性能才能达到比较好的水平。
无论是提高模型参数量还是提升数据规模,算力依旧是大模型能力提升的核心驱动力:需要用"足够大"的算力,去支撑起"足够精准"模型泛化能力。当前大模型训练的算力当量还在进一步增大,从GPT-3到GPT-4算力当量增长了68倍。算力当量越大,交叉熵越小,模型能力越强。随着训练的token数、模型参数、计算量的增加,语言模型的loss在平滑下降,这就意味着大语言模型的精度可以随着计算量、参数规模、token数扩展进一步提升。
- 欲炼大模型,先利其器
大模型能力来源于大量工程实践经验,预训练的工程挑战巨大,这表现在如下几个方面:首先,AI大模型的演化对于集群的并行运算效率、片上存储、带宽、低延时的访存等也都提出了较高的需求,万卡AI平台的规划建设、性能调优、算力调度都是很难解决的难题;其次,大规模训练普遍存在硬件故障、梯度爆炸等小规模训练不会遇到的问题;再次,工程实践方面的缺乏导致企业难以在模型质量上实现快速提升。
作为最早布局大模型的企业之一,浪潮信息在业界率先推出了中文AI巨量模型"源1.0",参数规模高达2457亿。千亿参数规模的大模型创新实践,使得浪潮信息在大模型领域积累了实战技术经验并拥有专业的研发团队,为业界提供AI算力系统参考设计。在算力效率层面,针对大模型训练中存在计算模式复杂,算力集群性能较低的情况,源1.0在大规模分布式训练中采用了张量并行、流水线并行和数据并行的三维并行策略,训练耗时约15天,共计训练了180 billion token,并将模型最后的loss值收敛至1.73,显著低于GPT-3等业界其他语言模型。首次提出面向效率和精度优化的大模型结构协同设计方法,围绕深度学习框架、训练集群IO、通信开展了深入优化,在仅采用2x200G互联的情况下,源1.0的算力效率达到45%,算力效率世界领先。在集群高速互联层面,基于原生RDMA实现整个集群的全线速组网,并对网络拓扑进行优化,可以有效消除混合计算的计算瓶颈,确保集群在大模型训练时始终处于最佳状态。
- 为大模型良好生态发展寻找最优解
当前,中国和业界先进水平大模型的算力差距依然较大,从算力当量来看,GPT-4的算力当量已经达到了248,842PD,而国内大多数主流的大模型算力大量仅为数千PD,差距高达近百倍。
同时,中国和业界先进水平大模型在算法、数据方面也存在巨大差距。在算法方面,虽然开源为国内大模型发展带来了弯道超车的良机,但LLaMA等开源大模型相比GPT4等顶级水平自研模型的性能,开源模型的能力存在"天花板"。
在数据方面,中文数据集和英文数据集相比较,在规模、质量上均存在显著差距,相较于动辄数千亿单词量级的英文数据,中文大模型的数据量级仅为百亿左右,而且开源程度较低,封闭程度较高。
开发大模型、发展通用人工智能是一项非常复杂的系统工程,我们亟需从系统层面为未来大模型的良好生态发展寻找最优解。从实战中走来,通过构建高效稳定的智算系统,加速模型开发效率提升。
日前,浪潮信息大模型智算软件栈OGAI(Open GenAI Infra)——"元脑生智"已正式发布。浪潮信息正通过"工具化、系统化、全链条"的全栈赋能能力,让炼大模型省时、省力,让大模型更快、更稳、更智能,助力百模真正实现"竞速AIGC"。
-
文章
3424
-
浏览
538
-
获赞
26779
热门推荐
-
国务院成立宁夏银川富洋烧烤店“6·21”特别重大燃气爆炸事故调查组
国务院成立宁夏银川富洋烧烤店“6·21”特别重大燃气爆炸事故调查组。博腾生物与吉赛生物达成战略合作,从科研到临床,聚力推进circRNA创新疗法
苏州2024年7月30日 /美通社/ -- 2024年7月29日,苏州博腾生物制药有限公司简称博腾生物)宣布与广州吉赛生物科技股份有限公司简称吉赛生物)达成战略合作,共同做好药物开发服务。依托博腾生物第十五届中国光电子产业博览会开幕 自动化网受邀出席
北京2024年7月26日 /美通社/ -- 第十五届中国光电子产业博览会于7月23-26日在北京国家会议中心隆重开幕,自动化网受邀再度盛装参展。"第十五届中国光电子产业博览会"汇集浪漫七夕「浴」见心动 德国高仪解锁甜蜜日常
上海2024年7月30日 /美通社/ -- 夏日,是浪漫的季节,怦然心率随温度不断攀升,在七夕之际抵达波峰。当良辰佳期如约而至,德国高仪融汇匠心精工与创新科技,倾心献上全新德国高仪丝悠美泡沫淋浴系统及美诗固惊艳靓相“大年初一”的中国建博会!
【建材网】7月8日,众所瞩目的“中国建博会”如期开幕,美诗固招商首年展位现场客似云来,参展观众、同行展商、卖场高层、知名媒体纷纷驻足现场。现场,以简约、时尚、科技风为设计风格的青岛瑞吉酒店携手青岛海信广场开启梦绽花海之旅
青岛2024年7月30日 /美通社/ --2024年7月,探寻非凡瞬间,居停优雅宅邸,万豪集团旗下标志性奢华酒店青岛瑞吉酒店携手"可以买到梦的地方"——高奢品牌云集的青岛海信广场,多特瑞发布《中国原植物战略采购官方图》 将七赴进博之约
上海2024年7月26日 /美通社/ -- 第七届中国国际进口博览会以下简称"进博会")开幕倒计时100天之际,多特瑞在上海发布《中国原植物战略采购官方图》,内含枫香、草果、蓝莲花2024第三届国际绿色零碳节在京举办 以新质生产力推动绿色转型
北京2024年7月30日 /美通社/ -- 7月24日,由数央网、数央公益联合国内众媒体共同举办的第三届国际绿色零碳节暨2024 ESG领袖峰会在北京举行,活动主题为:迈向碳中和之路。本届零碳节暨ES新意满满!成都大运会火炬、场馆长啥样?一文速览亮点
成都大运会火炬传递路线速览↓本届大运会的火种是在6月8日中午,搭乘“大运号”飞机抵达北京的。当天在成都天府国际机场还举行了成都大运会火炬传递启航仪式。负责值飞此次“大运号”航班的是“中国民航英雄机长”青岛瑞吉酒店携手青岛海信广场开启梦绽花海之旅
青岛2024年7月30日 /美通社/ --2024年7月,探寻非凡瞬间,居停优雅宅邸,万豪集团旗下标志性奢华酒店青岛瑞吉酒店携手"可以买到梦的地方"——高奢品牌云集的青岛海信广场,Unity中国宣布进军游戏发行业务,为中小开发者铺就“星光大道”
上海2024年7月29日 /美通社/ -- Unity中国在Unite上海2024大会现场,正式发布面向中小开发者的全新游戏发行计划,帮助广大中小开发者在日益饱和的移动游戏市场中,快速抓住商业化机遇。在纽约与曼城合作体验阿布扎比的“处罚行程”挑战
曼城明星Haaland、Grealish和Bobb在美国夏季之旅期间的互动活动中为粉丝们带来惊喜纽约2024年7月26日 /美通社/ -- 作为曼城夏季之旅的一部分,阿布扎比体验通过足球技能展示将阿布茶叶变身“理财茶”,数百投资者入局后损失惨重!警方已介入
买茶叶变买理财,投入数十万没了踪影杨女士告诉记者,她今年4月开始接触到广东茶有益茶业有限公司简称茶有益公司),对方的业务员向她推荐了一些“具有理财价值的”茶叶产品,并且承诺30天之后将由公司回购,届时多特瑞发布《中国原植物战略采购官方图》 将七赴进博之约
上海2024年7月26日 /美通社/ -- 第七届中国国际进口博览会以下简称"进博会")开幕倒计时100天之际,多特瑞在上海发布《中国原植物战略采购官方图》,内含枫香、草果、蓝莲花关注暑期安全,壹基金儿童平安项目助力孩子们平安过暑假
深圳2024年7月25日 /美通社/ -- 暑假既是孩子们童年的快乐时光,也是溺水、交通事故等意外险情的高发期,2024年夏季多地发生强降雨并引发洪涝、滑坡等自然灾害,为孩子们的假期更增加了一分风险。