浪潮信息刘军:智算力系统创新 加速生成式AI产业发展
北京2023年12月6日 /美通社/ -- 11月29日,浪潮刘军力系在北京举行的信息新加2023人工智能计算大会(AICC)上,浪潮信息高级副总裁刘军在主题演讲《智算力系统创新 加速生成式AI产业发展》中分享了浪潮信息对于智算力系统创新和AI产业发展的智算思考。
以下为演讲实录整理
当前,生成式人工智能和大模型推动算力需求高速增长,速生如何通过智算力系统来更好地支撑AI创新与应用,成式产业已经成为智算产业的发展关键。应对生成式AI的浪潮刘军力系发展和挑战,应该从算力系统、信息新加AI软件基础设施(AI Infra)、智算算法模型和产业生态4个方面来进行综合考量,统创从而加速智能产业的速生落地。
智算系统创新,成式产业解决生成式AI的发展算力挑战
在算力系统层面,生成式人工智能面临的浪潮刘军力系挑战主要来自计算、数据和互联三个方面:
在计算层面,算力多元化趋势愈发明显,导致AI算力系统开发适配周期长、定制开发投入大、业务迁移时间久。此外,大模型训练对算力规模要求高,在单芯片算力有限的情况下,必须通过构建更大规模的集群来获得性能的扩展。
在数据层面,大模型从文本、图片等单模态向多模态、跨模态演进,训练的数据集达到TB级甚至PB级,且不同作业阶段对于数据存储的要求呈现多元化趋势。
在互联层面,传统RoCE网络因ECMP哈希不均导致40%以上的网络带宽被浪费,且尾时延高导致网络通信时间占比训练时间高达40%,极大降低了计算效率。同时,网络是集群共享资源,当集群规模达到一定量级后,网络性能波动会影响到所有计算资源的利用率,网络故障会影响数十个甚至更多加速卡的连通性。
面对三重挑战,浪潮信息总结了多年产品研发和用户服务经验,提出三部分解决之道。
在计算方面,首先要针对多元算力,以统一的系统架构和统一的接口规范来兼容各类AI加速卡,保障芯片算力的高效释放。浪潮信息早在2018年就着力开放多元的AI算力平台设计,最新发布的G7多元算力平台是业界唯一可以同时兼容SXM、OAI加速卡并实现8卡全互联、16卡全互联和混合立方互联系统拓扑的AI算力平台。为了保障更大规模的节点扩展性能,浪潮信息研制的开放加速计算架构支持PCIe、RocE和多种私有互联协议,节点内和跨节点卡间互联最大达到896 GB/s,跨节点通过免网卡RDMA实现高效扩展,集群性能加速比超过90%。
在数据存储方面,针对大模型的数据存储需求,浪潮信息在业界率先实现了一套集群系统同时支持文件、对象、大数据等多种非结构化协议的无损互访,同时支持闪存、磁盘、磁带、光盘四类存储介质,并支持数据全生命周期热、温、冷、冰四级存储管理,以一套存储架构支持一个数据中心,真正实现了数据融合、管理融合。
在网络互联方面,浪潮信息专为生成式AI计算场景发布旗舰51.2T高性能交换机,为企业级智算网络提供高吞吐、高可扩展、高可靠的智算网络产品及方案,解决了传统RoCE方案普遍存在的有效带宽低、尾时延高、故障收敛慢等问题,将大模型训练性能提升38%以上,性能接近InfiniBand,助力AI用户高效释放大模型生产力。
AI Infra全栈优化:释放多元算力、提升大模型算力效率
大模型算法开发的链条冗长,这意味着需要诸多的工程化工具支撑。因此,在算力系统外,AI软件基础设施(AI Infra)也亟需创新。
AIGC大模型开发是一项极其复杂的系统工程,即便解决了底层算力供给的问题,仍面临建不了和用不好的问题。"建不好"是指构建算力平台不仅需要服务器、存储、网络等硬件集成,还需要考虑不同硬件和软件之间的兼容性和版本选择,确保驱动和工具的适配性和稳定性;"用不好"则体现在算力平台效率低、稳定性不足、故障频发等现实困扰。
为加速模型生产和落地应用,浪潮信息在AI Infra层面开发了大模型智算软件栈OGAI (Open GenAI Infra)。在算力部署方面,OGAI开源了业界首个AI算力集群系统环境部署方案PODsys;在大规模训练的长时保障方面,从算力调度平台层实现了自动化断点续训;在多元算力接入方面以标准化、模块化接入方式稳定接入超过40+芯片;在数据治理方面构建了流程化、可自定义的数据清洗pipeline,有效缩短数据清洗时间、提升文本审核过滤准确率;在计算效率优化方面,通过对分布式并行算法的极致优化,将千亿参数模型的训练计算效率提升到54%;在多模型管理方面已经支持了超过10个业界主流的开源大模型和元脑生态大模型,用实践证明AI Infra全栈基础软件和工作流的创新是多元算力高效释放、提升大模型算力效率的关键。
基础大模型,生成式AI落地发展的核心支撑
当前,大模型技术正在推动生成式人工智能产业迅猛发展,而基础大模型的关键能力则是大模型在行业和应用落地时能力表现的核心支撑。但是,基础大模型在持续进化的过程中,依然面临着数据、算法、算力等关键因素的挑战与制约。
目前,受政策支持、算力水平提升、数据资源庞大以及科研实力增强等利好因素的推动,中国在基础大模型方面取得一定成绩,但仍需加大在基础性技术方面的原创性突破,夯实底层模型和算法能力。
浪潮信息从实践入手,加大模型结构创新、高质量数据准备、高效算力利用投入,并将这些技术运用在了"源2.0"大模型上,在编程、推理、逻辑等方面展示了先进的能力。
在算法方面,"源2.0"提出并采用了一种新型的注意力算法结构,有效提升了模型自然语言的表达能力与生成精度;在数据方面,"源2.0"在训练数据来源、数据增强和合成方法等方面进行了全面创新,最终增强模型数理逻辑能力;在算力方面,"源2.0"采用非均匀流水并行+优化器参数并行+数据并行+ Loss计算分块的策略,显著降低大模型对于芯片间互联带宽的要求,让模型训练在"条件有限"的算力规模下实现高效率工作。
源2.0作为千亿级基础大模型,在业界公开的评测上进行了代码生成、数学问题求解、事实问答方面的能力测试,展示了较为先进的能力表现。为了满足不同行业、不同场景的能力要求,浪潮信息全面开源"源2.0"全系列大模型,以最便捷的方式支持用户建设自己的智能化产品与能力,结合行业特点进行框架、模型、数据的垂直整合,提升基础大模型的准确性和可用性。
生态聚进,联合创新,加速AI应用落地
有了强大的基础大模型,还需要进一步深入应用场景。将大模型的能力赋能到产业环节之中,需要多厂商的深度配合。面对生态复杂离散、产业AI落地困难的挑战,浪潮信息提出元脑生态,聚合优质伙伴协同创新,通过"技术支持、方案联合、平台共享"实现不同厂商之间的优势互补。
目前,元脑生态以浪潮信息的AI算力平台、AI资源平台和AI算法平台为支撑,已经对接40多家芯片厂商,400+算法厂商,4000+系统集成商,通过多元的算力供给、全栈的AI Infra软件栈、丰富的大模型经验,实现"百模"与"千行"的对接,助力千行百业加速生成式AI 产业创新,高效释放生产力。
智算力是创新力,AIGC与数字经济、实体经济的深度融合,将会创造出更多颠覆性的社会价值、经济价值,而浪潮信息将秉持开放、共享、共建的发展理念,抓住AIGC市场机遇,共同推进人工智能落地。
-
文章
8152
-
浏览
49428
-
获赞
11
热门推荐
-
又一国企领导与女子“牵手”被街拍?中铁三局:纯属虚假,已报案
严正声明2023年6月10日,在多个网络平台上,个别网民无中生有,借热点事件对我公司党委书记、董事长、法定代表人郝刚进行恶意中伤、造谣诽谤,不仅对个人的人格权益造成危害,也对企业的名誉和生产经营工作造福建厦门:全力护航学校复学防疫及食品安全
中国消费者报福州讯(黄珊珊 黄煜 记者 张文章)福建省自4月7日起分类分批、错时错峰开学。为保障复学后师生舌尖上的安全,福建省厦门市市场监管局近日联合市教育局,启动了对全市30余所普通高中的&ldqu截至2月末外汇储备规模32258亿美元 黄金储备连续16个月增长
人民网北京3月8日电 记者杜燕飞)国家外汇管理局7日发布的统计数据显示,截至2024年2月末,我国外汇储备规模为32258亿美元,较1月末上升65亿美元,升幅为0.2%。国家外汇管理局表示,2024年各项指标平稳较快增长 一季度泉州商务运行“开门红”
记者从市商务局了解到,今年第一季度泉州积极实施外贸提质增量、外资招商暨履约落地攻坚、全面激活消费等专项行动,商务各项指标平稳较快增长,取得“开门红”。□记者 庄丹丹消 费1&m科创地图之上海:撒明天的种子,忙后天的事
2023年5月28日,上海浦东机场,国产大飞机C919首次商业执飞,万众瞩目。滑翔,加速,一跃而起。如同上海市默默耕耘的航空产业链,蛰伏蓄势15年,直到此刻才出现在人们面前。在过去数十年里,上海是国际泉州发布知识产权发展与保护状况白皮书
日前,泉州市知识产权工作领导小组办公室发布《2020年泉州市知识产权发展与保护状况白皮书)》以下简称《白皮书》),目前,泉州已连续17年发布年度知识产权发展与保护状况白皮书。《白皮书》从优化知识产权产北京发布30项地方标准 社区养老驿站接单3分钟要回复
中国消费者报北京讯(记者贾珺)记者4月2日从北京市市场监督局获悉,北京市又有30项地方标准出炉,涉及城市管理与公共服务、农业、服务业、工程建设、公共安全等五大方面。其中,首次制定《城市轨道交通全自动运“数字泉州”展风采 5个数字经济重大项目参与集中签约
本报讯 记者陈林森 通讯员张诗琴 卢紫薇)第四届数字中国建设峰会正在福建省举行,泉州充分发挥民营经济大市优势,积极参与其中,通过成果展示、招商对接、项目签约等,一展“数字泉州”浙派集成灶霸屏百度!“浙派加盟节”24小时霸屏来袭!
【建材网】厉害了!浙派集成灶近期大动作不断新一轮品牌战略传全 面播升级2022年7月11日起浙派集成灶百度集成灶品牌专区重磅上线浙派加盟节,开启霸屏模式!24小时持续性霸屏级品牌曝光连连轰炸百度一下你四川甘孜州雅江县发生山火 正全力扑救
记者从国家消防救援局了解到,3月15日17时许,甘孜州雅江县呷拉镇白孜村发生一起森林火灾。16日14时30分,火场突起大风,瞬时风力达8级以上,火场东线因大风引起复燃,并迅速向东北方向蔓延并越过多个山梅西缺阵香港表演赛,主办方正式公布退款方案
阿根廷球星梅西上月缺阵香港表演赛,令买票入场观众大失所望,主办单位TatlerAsia其后宣布向球迷退回门票一半款项。主办方今日18日)正式公布退款方案。TatlerAsia在官网公布,为通过官方渠道3·15晚会丨淋巴、腺体肉眼可见!这些梅菜扣肉,生产场景触目惊心
过去的一年,消费领域最热门的一个词就是预制菜。凭借方便快捷,预制菜让人们的餐桌变得更加丰富。今年春节,无论在线上各大电商平台,还是线下的商超门店里有一道预制菜的销售持续火爆,成为预制菜销售的“顶流”,市监局通报“秀山县中医院食堂盒饭现鼠头”:经认定为老鼠头
就网传“在盒饭中发现疑似老鼠头”初步调查结果的说明今日,网传“在秀山县中医院食堂盒饭中疑似吃出老鼠头”。接到舆情通报后,我局第一时间会同相关部门查封了实物,并展开调查核实工作。经认定,该异物为老鼠头。瓦瑟商学院正式上线!从小白到大牛,等您来实践
【建材网】追讨5000万工程欠款不成反被警方传唤 真假公章悬案待解,承包商心有不甘
摘要:2019年7月初,朱国才和葛加勤分别向该法院起诉龙海集团,要求其归还3000万工程欠款。但让这位江苏建筑承包商意想不到的是,他们起诉龙海集团的民事案子还未开庭,龙海集团便以“有人涉嫌伪造其公司印