浪潮信息发布 "源2.0
北京2024年5月30日 /美通社/ -- 5月28日,浪潮浪潮信息发布"源2.0-M32"开源大模型。信息"源2.0-M32"在基于"源2.0"系列大模型已有工作基础上,发布创新性地提出和采用了"基于注意力机制的浪潮门控网络"技术,构建包含32个专家(Expert)的信息混合专家模型(MoE),并大幅提升了模型算力效率,发布模型运行时激活参数为37亿,浪潮在业界主流基准评测中性能全面对标700亿参数的信息LLaMA3开源大模型。
在算法层面,发布源2.0-M32提出并采用了一种新型的浪潮算法结构:基于注意力机制的门控网络(Attention Router),针对MoE模型核心的信息专家调度策略,这种新的发布算法结构关注专家模型之间的协同性度量,有效解决传统门控网络下,浪潮选择两个或多个专家参与计算时关联性缺失的信息问题,使得专家之间协同处理数据的发布水平大为提升。源2.0-M32采用源2.0-2B为基础模型设计,沿用并融合局部过滤增强的注意力机制(LFA, Localized Filtering-based Attention),通过先学习相邻词之间的关联性,然后再计算全局关联性的方法,能够更好地学习到自然语言的局部和全局的语言特征,对于自然语言的关联语义理解更准确,进而提升了模型精度。
Figure1- 基于注意力机制的门控网络(Attention Router)
在数据层面,源2.0-M32基于2万亿的token进行训练、覆盖万亿量级的代码、中英文书籍、百科、论文及合成数据。大幅扩展代码数据占比至47.5%,从6类最流行的代码扩充至619类,并通过对代码中英文注释的翻译,将中文代码数据量增大至1800亿token。结合高效的数据清洗流程,满足大模型训练"丰富性、全面性、高质量"的数据集需求。基于这些数据的整合和扩展,源2.0-M32在代码生成、代码理解、代码推理、数学求解等方面有着出色的表现。
在算力层面,源2.0-M32采用了流水并行的方法,综合运用流水线并行+数据并行的策略,显著降低了大模型对芯片间P2P带宽的需求,为硬件差异较大训练环境提供了一种高性能的训练方法。针对MOE模型的稀疏专家计算,采用合并矩阵乘法的方法,模算效率得到大幅提升。
基于在算法、数据和算力方面全面创新,源2.0-M32的性能得以大幅提升,在多个业界主流的评测任务中,展示出了较为先进的能力表现,在MATH(数学竞赛)、ARC-C(科学推理)榜单上超越了拥有700亿参数的LLaMA3大模型。
Figure2 源2.0-M32业界主流评测任务表现
源2.0-M32大幅提升了模型算力效率,在实现与业界领先开源大模型性能相当的同时,显著降低了在模型训练、微调和推理所需的算力开销。在模型推理运行阶段,M32处理每token所需算力为7.4GFLOPs,而LLaMA3-70B所需算力为140GFLOPs。在模型微调训练阶段,对1万条平均长度为1024 token的样本进行全量微调,M32消耗算力约0.0026PD(PetaFLOPs/s-day),而LLaMA3消耗算力约为0.05PD。M32凭借特别优化设计的模型架构,在仅激活37亿参数的情况下,取得了和700亿参数LLaMA3相当的性能水平,而所消耗算力仅为LLaMA3的1/19,从而实现了更高的模算效率。
浪潮信息人工智能首席科学家吴韶华表示:当前业界大模型在性能不断提升的同时,也面临着所消耗算力大幅攀升的问题,对企业落地应用大模型带来了极大的困难和挑战。源2.0-M32是浪潮信息在大模型领域持续耕耘的最新探索成果,通过在算法、数据、算力等方面的全面创新,M32不仅可以提供与业界领先开源大模型相当的性能,更可以大幅降低大模型所需算力消耗。大幅提升的模算效率将为企业开发应用生成式AI提供模型高性能、算力低门槛的高效路径。M32开源大模型配合企业大模型开发平台EPAI(Enterprise Platform of AI),将助力企业实现更快的技术迭代与高效的应用落地,为人工智能产业的发展提供坚实的底座和成长的土壤,加速产业智能化进程。
源2.0-M32将持续采用全面开源策略,全系列模型参数和代码均可免费下载使用。
代码开源链接:https://github.com/IEIT-Yuan/Yuan2.0-M32
模型下载链接:
Huggingface:https://huggingface.co/IEITYuan/Yuan2-M32-hf
ModelScope:https://modelscope.cn/models/YuanLLM/Yuan2-M32-hf/summary
-
文章
5138
-
浏览
854
-
获赞
5172
热门推荐
-
心情烦躁还易怒?专家提醒35℃以上当防“情绪中暑”丨硬核唠科
快捷通:深耕海尔产业链,做专业的产业链定制支付平台
v80后普通白领张女士是顺逛平台上100万逛爷之一。她和顺逛的初次结缘,是在2016年5月。当时张女士的家刚装修完毕,准备置办家电,正好她有同事在做顺逛微店,不仅亲自上门,还按照张女士的需求推荐了一整聊起马术终于不只有华天,他们是中国马术运动的未来
在中国说起马术,人们一定会提到华天。不过,为中国马术创造历史的骑手,现在已经不止华天一人了。就在几天前,年仅18岁的中国女骑手王韫婧在西班牙米哈斯举行的国际马联二星级系列赛中,两天内夺得三项赛事的冠、18日中信莱德嘉丽泽常规赛竞猜:结果出乎意料 仍有8人中奖
3月18日,中信莱德嘉丽泽马会常规赛马日赛事继续在昆明的中信莱德嘉丽泽赛马场举行。与上期全国猜马高手狂揽大奖的情况不同,本期大陆赛马网的竞猜游戏中,没有出现获得大奖的朋友。不过,仍然有8名马迷朋友们猜“普职分流”,他们选“C”:有本科学历加持,中职可以接受吗?
2023年6月17日,上海中考,中考考生冒着细雨进入考场。 IC photo/图)最害怕的事没有发生。上海市考试院网站窗口弹出:您已被中本贯通—上海商业会计学校学校)—数字媒体艺术专业)—录取。王觅雅引领社交零售市场新风口,“三个蛋卷”打破消费边界
在移动应用迅速普及的推动下,基于社交平台发展的电商发展成为新的趋势和潮流,这种基于分享经济的新兴商业模式,正以一种高速发展的姿态呈现在人们的面前。近日,社交新零售市场传出一则重磅消息,著名上市制药企业《巴黎协定》实施可期环保节能产业迎来新机遇
距离巴黎气候大会已经过去4个月,随着2016年气温上升幅度创下纪录,《巴黎气候变化协定》的实施已经刻不容缓。因此,4月22日,超过150个国家的代表齐聚纽约联合国总部参加签署仪式。协定一旦实施,将有助Gentari为AMG氨供应大规模无碳能源
650 MW公司可调度可再生能源供应,为AMG氨公司即将推出的绿色氨设施供电。将建设约2,400 MWp可再生能源产能,使其成为Gentari全球最大的单一绿地项目。就年度和小时CUF承诺而言,坚定且美国深海潜水器发生内爆,5名乘员死亡
美国海岸警卫队22日说,此前在考察“泰坦尼克”号邮轮残骸途中失踪的美国深海潜水器已在沉船地点附近发生“灾难性内爆”,5名乘员全部死亡。这次考察活动由美国海洋之门勘探公司组织。该公司的“泰坦”号深潜器13月25日武汉速度赛马“爱在马城”主题赛马日全部赛果
2017武汉速度赛马公开赛“爱在马城”主题赛马日今日下午在春日暖阳中激情开战,5场赛事56匹赛驹在东方马城黄金赛道上展开激烈的竞逐,“东兴小将”、“玉龙神湖”、“太阳神”、“夕阳斜照”、“捷豹”各下一CHF2017为普及马术运动与更多媒体达成合作
2016年中国马产业行业数据显示:全国马术俱乐部会员人数平均年增长率为33%,会员总人数超过27万人。对这个发展速度,你满意吗?CHF马展表示,并不满足!2017年,CHF马展与更多的机构和媒体达成合工业互联网发展的关键:科技引领、模式创新、共享生态
就目前而言,大宗商品产业电商进入洗盘期,最明显的变化是资本市场对于大宗商品把B2B贸易类平台的投资也趋于理性,但是理性并不能和冷却画上等号,在C端已经走入下半场时,B端的工业互联网才刚刚入场。 2审计署发布2022年度审计工作报告 中央财政赤字26500亿元 与预算持平
今天26日)上午,审计署受国务院委托,向全国人大常委会报告了2022年度中央预算执行和其他财政收支的审计情况。一年一度的“经济体检”,结果如何?报告显示,2022年,中央一般公共预算收入总量10755上海浪琴环球马术冠军赛确认两名中国骑手
朱美美是中国马术界一颗闪亮的明星!即将于4月28至30日举办的上海浪琴环球马术冠军赛,是全球马术巨星云集的超级赛场。过去三年,斯科特·布拉什、鲁德格尔·比尔鲍姆等奥运冠军,以及肯特·法灵顿、西蒙·德莱零售智能升级加速 YI Tunnel开拓AI商业化新维度
零售行业围绕着“降本、提效、提体验”三大方面的转型从未停止。零售行业转型、变革之路离不开技术赋能,而“智能化、无人化”则被公认为零售发展的趋势。随着线上