"千亿参数"大模型再卷风云,成功实现CPU通用服务器上运行
北京2024年7月26日 /美通社/ -- 生成式AI快速发展,千亿参数AI算力作为人工智能发展的大模重要支撑,正以惊人的型再现速度渗透至每一个计算设备。一切计算皆AI,卷风为了支撑千行百业最广泛的云成运行场景,通用服务器也在"智变"。功实
不久前,通用浪潮信息的服务研发工程师基于2U4路旗舰通用服务器NF8260G7,采用领先的器上张量并行、NF4模型量化等技术,千亿参数实现服务器仅依靠4颗CPU即可运行千亿参数 "源2.0" 大模型,大模成为通用AI算力的型再现新标杆。
NF8260G7在2U空间搭载4颗32核英特尔至强处理器,卷风主频2.4GHz,云成运行支持8个内存通道,功实3路UPI总线互联,采用32根32G的DDR5内存,内存容量1024GB,实测内存读带宽995GB/s,运行效率82.94%。框架和算法方面,NF8260G7支持PyTorch、TensorFlow等主流AI框架和DeepSpeed等流行开发工具,满足用户更成熟、易部署、更便捷的开放生态需求。浪潮信息算法工程师还基于Yuan2.0千亿参数大模型的研发积累,为NF8260G7部署张量并行环境,提升4倍计算效率,并通过NF4等量化技术,将1026亿参数的Yuan2.0大模型容量缩小至1/4,首次实现单机通用服务器,即可运行千亿参数大模型,为千亿参数AI大模型在通用服务器的推理部署,提供了性能更强,成本更经济的选择。
【出题】算力智变:通用服务器挑战「千亿参数」大模型
科技的进步,最终目的是"落入凡间"。AIGC正以超乎想象的速度渗透进千行百业,对企业的算力基础设施也提出了更高的要求。为了满足最广泛的通用业务与新兴AI业务融合的需求,目前金融、医疗等许多行业用户正在基于通用算力构建AI业务,实现了通用算力的"AI进化"。从效果来看,目前通用服务器单机已能够承载几十到几百亿参数规模的AI模型应用。
但算力需求仍在爆发式增长,随着大模型技术的不断发展,模型参数量不断攀升,千亿级参数是智能涌现的门槛,通用算力能否运行千亿参数AI大模型,是衡量其能否支撑千行百业智能涌现的关键。
千亿参数大模型要在单台服务器中高效运行,对计算、内存、通信等硬件资源需求量非常大,如果使用以GPU为主的异构加速计算方式,千亿参数大约需要200~300GB的显存空间才放得下,这已经远超过当前业界主流的AI加速芯片的显存大小。放得下只是基础,千亿参数大模型在运行过程中,对数据计算、计算单元之间及计算单元与内存之间通信的带宽要求也非常高。千亿参数大模型按照BF16的精度计算,运行时延要小于100ms,内存与计算单元之间的通信带宽至少要在2TB/s以上。
不同参数规模服务器硬件资源需求对比
参数规模 | 100亿 | 1000亿 |
显存空间 | 20~30GB | 200~300GB |
内存带宽 (BF16精度 时延100ms) | 200~300GB/s | 2~3TB/s |
除了硬件资源的挑战,为了让通用服务器运行千亿大模型,软硬协同优化也是一大难题。比如AI大模型一般基于擅长大规模并行计算的AI加速卡设计,通用服务器的处理器虽然拥有高通用性和高性能的计算核心,但没有并行工作的环境。AI大模型需要频繁地在内存和CPU之间搬运算法权重,但通用服务器默认模型权重只能传输给一个CPU的内存,由该CPU串联其他CPU进行权重数据的传输。这就导致CPU与内存之间的带宽利用率不高,通信开销大。
通用服务器要运行千亿参数大模型面临重重挑战。要填补这一空白,浪潮信息研发工程师亟需提升通用服务器AI计算性能,优化CPU之间、CPU与内存之间的通信效率,建立通用服务器的大规模并行计算的算法环境等软硬协同技术,系统释放通用服务器的AI能力。
【解题】软硬协同创新,释放通用服务器的智算力
首先,硬件资源方面,为支撑大规模并行计算,浪潮信息研发工程师采用2U4路旗舰通用服务器NF8260G7,对服务器处理器、内存、互连以及框架和算法的适配性等方面进行了全面优化。
本次运行千亿参数大模型的通用服务器NF8260G7采用如下配置:
NF8260G7在2U空间搭载4颗英特尔至强处理器6448H,具有AMX(高级矩阵扩展)AI加速功能,核心数达到了32核心,基准主频2.4GHz,L3 Cache 60MB,支持8个内存通道,3路UPI总线互联,功耗250W。内存方面,NF8260G7配置32根32G DDR5 4800MHZ的内存,内存带宽实测值分别为995GB/s(读带宽)、423GB/s(写带宽)、437GB/s(读写带宽),为满足千亿大模型低延时和多处理器的并发推理计算打下基础。
在高速信号互连方面,浪潮信息研发工程师优化了CPU之间,CPU和内存之间的走线路径和阻抗连续性,依据三维仿真结果调整过孔排列方式,将信号串扰降低到-60dB以下,较上一代降低50%,通过DOE矩阵式有源仿真找到通道所有corner的组合最优解,充分发挥算力性能。框架和算法方面,浪潮信息通用服务器也支持PyTorch、TensorFlow等主流AI框架和DeepSpeed等流行开发工具,满足用户更成熟、易部署、更便捷的开放生态需求。
仅依靠硬件创新还远远不够。算法层面,浪潮信息算法工程师基于Yuan2.0的算法研发积累,将1026亿参数的Yuan2.0大模型卷积算子进行张量切分,把大模型中的注意力层和前馈层的矩阵计算的权重分别拆分到多个处理器的内存中,为通用服务器进行高效的张量并行计算提供了可能。这种权重的拆分改变了传统CPU串联传输的模式,4颗CPU可以与内存实时传输获取算法权重,协同并行工作,计算效率提升4倍。
同时,千亿参数大模型在张量并行计算过程中,参数权重需要200-300GB的内存空间进行存储和计算,在100ms的时间内,完成CPU与内存数据的通信,内存带宽需求至少在2T/s。而4路通用服务器的内存带宽极限值为1200GB/s,还差一半左右。面对巨大的内存带宽瓶颈,浪潮信息算法工程师需要在不影响模型精度的情况下对模型进行量化"瘦身"。浪潮信息研发工程师们尝试了不同精度int8、int4、NF4等先进量化技术,最终选择了更高数据精度的NF4量化方案,将模型尺寸瘦身到原来的1/4,在满足精度需求的条件下,大幅度降低大规模并行计算的访存数据量,从而达到实时推理的解码需求。
【交卷】填补行业空白,树立AI算力新标杆
通过系统优化,浪潮信息NF8260G7在业界首次实现仅基于通用处理器,支持千亿参数大模型的运行,让通用算力可支持的AI大模型参数规模突破千亿,填补了行业空白,成为企业拥有AI的新起点。
人工智能的发展,是算力、算法和数据三要素系统突破的结果。浪潮信息研发工程师基于通用服务器NF8260G7的软硬件协同创新,为千亿参数AI大模型在通用服务器的推理部署,提供了性能更强,成本更经济的选择,让AI大模型应用可以与云、大数据、数据库等应用能够实现更紧密的融合,从而充分释放人工智能在千行百业中的创新活力,让人工智能真正"落入凡间",推动社会和经济的发展。
-
文章
14298
-
浏览
5
-
获赞
948
热门推荐
-
美台签署“21世纪贸易倡议”第一阶段协议 外交部:已向美方提出严正交涉
6月2日,外交部发言人毛宁主持例行记者会。有记者提问,据报道,6月1日晚,美台在华盛顿签署“21 世纪贸易倡议”第一阶段协议。中国外交部对此有何评论?毛宁表示,中方坚决反对建交国与中国台湾地区进行任何碧生源减肥茶 重塑曼妙身姿
每个女人都对修长的美腿,曼妙的身姿,有着深深的渴望,然而身上的肉总在不经意间去了又来,引无数美女哀叹,减肥已不能是一个口号,说到减肥每个肥女都有一把辛酸泪,那么如何减肥呢?说 到减肥首先出现在我们脑海《名家创意作文》第一届初级教师培训会
在当前,我国的教学与培训的科目重点正在发生变化,除了英语教育教学在整个科目中的分量依然无可取代,语文的分量也在不断增加,而作文又是语文教学中的重要组成部分,再加上作文原本就是一个难题,所以它引起了我们缤纷彩果,冰雪欢享——鲜芋仙全冰品即将上线,组合优惠立减5元
还记得去年夏天鲜芋仙的雪砖系列和爱玉系列带来的甜蜜旋风吗?还对这些冰品的味道念念不忘吗?还在翘首期盼它们何时回归吗?请接受来自鲜芋仙的初夏礼遇——全冰品即将上线!自201美台签署“21世纪贸易倡议”第一阶段协议 外交部:已向美方提出严正交涉
6月2日,外交部发言人毛宁主持例行记者会。有记者提问,据报道,6月1日晚,美台在华盛顿签署“21 世纪贸易倡议”第一阶段协议。中国外交部对此有何评论?毛宁表示,中方坚决反对建交国与中国台湾地区进行任何优质犬只亮相东北牧羊犬交易博览会
2015首届东北牧羊犬交易博览会于5月2日在辽宁远大集团隆重举行,众多犬界好友携优质犬只亮相博览会现场。参展犬只以母犬和幼犬为主,另外邀请犬界名门顶级种公一展英姿,再添亮点。新闻发布会现场稳利达电梯节电器:绿色理念下的电梯节能专家
据悉,2015年5月20-21日,气候变化世界商业峰会将在联合国教科文组织巴黎总部举行。届时,千名商业领袖、投资人士、决策人士将围绕“低碳社会愿景:迈向低碳社会的商业解决方案&rdq薛朝华:兰州,有一种扁担情结小吃叫“灰豆子”
小时候上地理课时,一听到甘肃,第一反应就是“干”肃,缺水干旱,又是沟壑纵横的黄土地,一定比较贫穷落后。不想,十三年前,我竟被总社选派到东乡族自治县扶贫锻炼,一晃呆了七年。那时的央行对财付通、平安银行、邮储银行和人保财险等四家公司开出罚单
幻视联创:飞行体验馆为保定童梦世界吸引大量客流
每个人都想像鸟儿一样在空中飞翔,像太空人一样在空中悬浮漫步……保定童梦世界飞行体验馆由幻视联创精心打造。据了解,在童梦世界的众多体验馆中,飞行体验馆是最受欢迎的。广东车补大降添烦恼 宝驾免费代步车解烦
随着生活节奏的不断加快,人们变得越来越‘鸭梨山大’。尽管如此,谁也不会可怜谁,这不又有一个让人措手不及、欲哭无泪的消息出来了。广东要实行车改,各地市的车补预将六成。这招来很“千金”力压小米 净美仕智能空气净化器预售现火爆
雾霾天气的频频发生,空气净化器市场需求量猛增,特别是网购市场,空气净化器更是成为热门抢购商品受到消费者的青睐。近日在人民大会堂发布的净美仕“千金”,在天猫12日一开始预售品质门窗助力美好生活
【建材网】8月3日下午,以新浪家居总经理冀静女士、新浪家居门窗行业总经理叶玲菊女士为首的新浪家居“品质门窗助力美好生活”发现之旅走访团和金堂奖全国联盟创始人谢海涛先生、金堂奖全斩获空净行业大奖 净美仕“千金”惹关注
保障资金安全 乐金所与汇付天下深度合作