打通AI芯片到大模型训练的算力桥梁,开放加速设计指南强力助推
北京2023年10月17日 /美通社/ -- 日前,打通到大的算2023全球AI芯片峰会(GACS 2023)在深圳市举行,芯片训练AI芯片产业链顶尖企业、模型专家学者齐聚,力桥梁开力助围绕生成式AI与大模型算力需求、放加AI芯片高效落地等产业议题进行研讨分享。速设
面向大模型时代的南强计算需求,算力创新已不仅是打通到大的算单个处理器微架构和芯片工艺的突破,而需要产业携手进行软硬件全栈系统架构全面创新。芯片训练当前各类AI芯片创新仍面临存储墙、模型功耗墙等架构痼疾,力桥梁开力助随着开放的放加通用指令架构、互联总线、速设AI加速器、南强开源的打通到大的算操作系统、模型框架、工具链和软件纷纷涌现,开放开源的算力系统创新,已经成为实现AI芯片转化为高效算力的二级引擎。
会上,浪潮信息分享了在开放加速计算系统领域的最新成果《开放加速规范AI服务器设计指南》,通过系统平台层面的技术创新,携手产业上下游加速生成式AI算力产业发展。
大模型推动算力产业步入系统级创新时代
随着制程工艺逼近天花板,AI芯片正迎来架构创新的黄金时代,诸多创新者正通过越来越广泛的创新思路来绕过摩尔定律濒临极限的瓶颈,围绕架构创新,AI芯片产业正从早期的百花齐放,向更深更多维层面发展。
与此同时,参数量高达数千亿的大模型创新往往需要在成百上千的AI服务器组成的平台上进行训练。面向AIGC的算力能力考量的不仅仅是单一芯片、或者是单一服务器,而是包含计算、存储、网络设备,软件、框架、模型组件,机柜、制冷、供电基础设施等在内的一体化高度集成的智算集群。
因此,要将AI芯片真正转化为大模型算力,需要产业链上下游携手从规模化算力部署的角度进行系统级创新,统筹考虑大模型训练需求特点,设计构建算力系统,以实现全局最优的性能、能效或TCO指标。
开放加速设计指南,打通从芯片到大模型的算力桥梁
2019年,开放计算组织OCP面向大模型训练发布了开放加速计算(OAI)技术标准,旨在促进上下游协同,降低产业创新成本和周期。开放加速计算(OAI)系统架构具备更高的散热和互联能力,可以承载具有更高算力的芯片,同时具备非常强的跨节点扩展能力。因为天然适用于大规模深度学习神经网络,已经在全球范围内得到芯片、系统及应用厂商的广泛参与支持。
大模型训练对开放加速计算系统的总功耗、总线速率、电流密度的需求不断提升,给系统设计带来了巨大的挑战。因此,浪潮信息基于系统研发和大模型工程实践经验,将从AI芯片到大模型算力系统所需完成的体系结构、信号完整性、散热、可靠性、架构设计等大量系统性设计标准进行细化总结,发布了面向生成式AI场景的《开放加速规范AI服务器指南》(以下简称《指南》),提出四大设计原则、全栈设计方法,包括硬件设计参考、管理接口规范和性能测试标准。
《开放加速规范AI服务器指南》全栈设计方法
《开放加速规范AI服务器指南》统筹考虑大模型分布式训练对于计算、网络和存储的需求特点,提供了从节点层到集群层的AI芯片应用部署全栈设计参考。包括各项硬件规范、电气规范、时序规范,并提供管理、故障诊断和网络拓扑设计等软硬协同参考,旨在通过节点层/集群层多维协同设计确保AI服务器节点和服务器集群以超大规模集群互连的大模型训练能力。
基于板端QSFP-DD的跨节点互连拓扑
由于架构复杂度高、芯片种类多、高速信号多、系统功耗大等特点,异构加速计算节点常面临故障率高的问题。因此,《指南》提供了详细的系统测试指导,对结构、散热、压力、稳定性、软件兼容性等方面的测试要点进行了全面梳理,帮助用户最大程度降低系统生产、部署、运行过程中的故障风险,提高系统稳定性,减少断点对训练持续性的影响。
OAM互连信号损耗要求
不同于通用计算系统,面向生成式AI的加速计算系统具有软硬件强耦合特性。为了提高开放加速计算系统的算力可用性,《指南》给出了八类AI主流业务和三类AIGC大模型基准测评和调优方法,以确保开放加速计算系统能够有效支撑当前主流大模型的创新应用。
AI芯片厂商可以基于《指南》快速将符合开放加速规范的AI芯片落地成高可用高可靠高性能的大模型算力系统,提高系统适配和集群部署效率,减少芯片合作伙伴在系统层面的研发成本投入,加速生成式AI算力产业的创新步伐。
全栈协同,高效释放大模型创新生产力
目前,浪潮信息已经基于开放加速规范发布了三代AI服务器产品,和10余家芯片伙伴实现了多元AI计算产品的创新研发。多元算力产品方案得到了众多用户的认可,已经在多个智算中心应用落地,成功支持GPT-2、源1.0及实验室自研蛋白质结构预测等多个超大规模巨量模型的高效训练。
同时,为进一步解决大模型算力的系统全栈问题、兼容适配问题、性能优化问题等,浪潮信息基于大模型自身实践与服务客户的专业经验,推出OGAI大模型智算软件栈,能够为大模型业务提供AI算力系统环境部署、算力调度及开发管理的完整软件栈和工具链,帮助更多企业顺利跨越大模型研发应用门槛,充分释放大模型算力价值。
作为全球领先的AI算力基础设施供应商,浪潮信息将通过智算系统软硬件高度协同进行持续创新,携手产业伙伴加速AI算力繁荣发展并充分释放算力生产力,推动实现"助百模,智千行",加速生成式AI产业创新。
-
文章
95
-
浏览
8
-
获赞
34553
热门推荐
-
直击广州建博会:兔宝宝健康家居惊艳亮相!
【建材网】由中国对外贸易中心集团有限公司、中国建筑装饰协会主办,中国对外贸易广州展览有限公司承办,中国林产工业协会、全国工商联家具装饰业商会支持的第24届中国建博会广州)于7月11日圆满落下帷幕。本届一季度出口料将继续探底 警惕贸易差额转逆风险
摘要:受疫情影响,2月份中国外贸数据大幅下滑,扭转了此前走高向好的态势。而对于接下来即将公布的一季度外贸数据,受访专家一致认为大概率会继续下滑。长六改火箭完成2024首飞 拉开高密度发射大幕
3月27日清晨,我国在太原卫星发射中心使用长征六号改运载火箭,成功将云海三号02星发射升空,卫星顺利进入预定轨道,发射任务获得圆满成功。长六改火箭是我国新一代固液捆绑中型运载火箭,采用两级半构型设计。11个高频服务事项泉州审批提速
昨日,海都记者从泉州市人社局获悉,市人社局对11个专业技术资格职业资格)办理和考试审查的高频服务事项进行梳理,优化业务流程和办理时限,提高办事效率。这些项目累计压缩办理环节2个、压缩办理时限13个工作不只设置女性专用泳道/车厢/车位,更重要的是提供更友好的生活空间
视觉中国/图)2023年6月27日,上海游泳馆设置女性泳道一事登上热搜。上海游泳馆回复媒体时称,设计女性专用泳道一方面因为女性在游泳时着装较少,可以帮助避免旁人无意识的触碰;另一方面,针对游泳技术比较春季装修如何做好防潮防霉?千年舟好板有话说
【建材网】进入春季气温开始回升凝结的水汽慢慢蒸发特别是多雨多雾的南方出现了墙面”出汗“、地面”冒水“门柜”发霉“等现象那么装修遇青海海西:依托“三个强化”确保校园食品安全
中国消费者报西宁讯(王宝军 李敏 记者 徐文智)记者近日获悉,随着春季开学的陆续正常化,青海省海西州市场监管局从3月初开始,通过“强化学校食堂检查、强化周边隐患排查、强化食品安全宣传&rd新规出台!高技能人才可“直通”认定
记者从泉州市人社局获悉,为加快推进泉州高技能人才队伍建设,进一步强化民营经济发展人才支持,优化营商环境,泉州近日印发《泉州市高技能人才直接认定暂行规定》以下简称《规定》),对用人单位生产实践中具有精湛万事兴霸屏百度“集成灶十 大 品牌”,贵阳建博会邀您参加!
【建材网】万事兴一直以来大动作频频继增投城市广告之后又一大动作万事兴霸屏百度官 方集成灶十 大 品牌位居榜 首,24小时全天黄金位在线展示升级百度品牌专区牢牢占据主流搜索引擎入口制高点想对万事兴多点了护航“五一”!陕西西安全力保障特种设备运行安全
中国消费者报西安讯(记者徐文智)日前,陕西省西安市市场监管局印发《关于做好 “五一”节日期间特种设备安全保障工作的通知》(以下简称《通知》),要求全市市场监管系统切实做好&ld中国中车净利润连续4年下滑:国铁业务降速,九成增长靠城轨
摘要:年报显示,公司营收约2290.11亿元,归母净利润约117.95亿元,同比分别增长4.53%和4.33%。其中,来自铁路装备业务营收占比仍然过半,但受动车组及机车销量下滑的影响,铁路装备业务增速我国要求医疗机构建立患者诉求快速响应机制
新华社北京3月26日电(记者李恒、董瑞丰)根据三个部门的一份文件,我国要求医疗机构建立患者诉求快速响应机制,及时回应患者急难愁盼问题,做到投诉有接待、处理有程序、结果有反馈、责任有落实、问题有改进、服东方雨虹参加数字化厂商实战评价体系及数字化典型案例研讨会
【建材网】近日,北京两化融合服务联盟在东方雨虹新材料装备研发总部基地召开数字化厂商实战评价体系及数字化典型案例研讨会。北京两化融合服务联盟理事长闫同柱、秘书长魏鸿及各联盟企业CIO代表出席此次研讨会。履职能 除隐患 广东全力护航返校上课师生食品安全
中国消费者报报道(陈晓莹 记者 李青山)《中国消费者报》记者从广东省市场监督管理局获悉,4月27日,广东省高三、初三级学生正式返校复学。按照该局的统一部署和要求,广东各地市场监管部门认真履行食品安全监第四届消博会亮点抢先看 首创全岛办展模式
新华社北京3月27日电 题:第四届消博会亮点抢先看 首创全岛办展模式新华社记者谢希瑶、唐诗凝记者27日从国务院新闻办公室举行的新闻发布会上了解到,以“共享开放机遇、共创美好生活”为主题的第四届中国国际