浪潮信息发布"源"Yuan
北京2024年12月6日 /美通社/ -- 近日,源浪潮信息发布"源"Yuan-EB(Yuan-embedding-1.0,浪潮嵌入模型),信息在C-MTEB榜单中斩获检索任务第一名,发布以78.41的源平均精度刷新大模型RAG检索最高成绩,将基于元脑企智EPAI为构建企业知识库提供更高效、浪潮精准的信息知识向量化能力支撑,助力用户使用领先的发布RAG技术加速企业知识资产的价值释放。
Yuan-EB(版本号Yuan-embedding-1.0) 是源专为增强中文文本检索能力而设计的嵌入模型(也称Embedding模型),在 "源2.0" 大模型的浪潮工作基础上,创新性地采用了"源2.0-M32"大模型进行数据重写与合成,信息并通过索引技术、发布样本排序等系列方法完成高质量微调数据集构建,源能够有效提升RAG系统的浪潮检索精度。
C-MTEB是信息目前业内最权威的嵌入模型测试榜单。其中,检索任务(Retrieval)是检索增强生成(RAG)场景下最为重要、应用最广泛的任务能力,考察的是Embedding模型从大量的数据集中找到并返回与给定查询最相关或最匹配的信息的过程。"源"Yuan-EB基于该任务提供的医疗、新闻、电商、娱乐等8个中文文本数据集,实现了业界领先的海量文本检索精度。
“源”Yuan-EB 在Hugging Face的C-MTEB榜单中排名第一
"源"Yuan-EB助力RAG检索精度新高
嵌入模型在RAG流程中扮演着关键角色,它能够将复杂的高维数据(例如文本、图像或音频)转换为机器可理解的向量形式,直接决定了RAG检索的精准性和效率。
"源"Yuan-EB通过数据准备与模型微调两个方面的技术创新,实现了模型精度的大幅提升:
- 在数据方面,基于"源2.0"微调阶段的问答数据进行清洗与筛选,构建问题(query)与文本(corpus)数据集;使用"源2.0-M32"对C-MTEB 训练数据进行重写与合成,通过索引技术与排序模型进行高效的难负样本提取,完成大规模难负例样本挖掘,形成高质量微调数据集;
- 在微调方面,通过两个阶段的领先微调方法实现模型能力提升。第一阶段,使用各个领域(医疗、新闻、长文本、娱乐等方向)的大规模数据进行对比学习训练;第二阶段,采用"源2.0-M32"生成的合成数据进一步微调,并使用MRL方法完成"源"Yuan-EB训练;
"源"Yuan-EB为用户提供了大模型企业知识库应用开发的最优模型选择,能够在RAG流程的多个方面起到显著的精度提升,包括信息检索的准确性、处理大规模数据的效率、消除语义歧义、降低计算成本、增强对长文档的处理能力以及模型鲁棒性等,最大化提升RAG流程的整体性能和应用效果。
元脑企智EPAI集成"源"Yuan-EB,加速知识库构建与性能提升
目前,"源"Yuan-EB已经在开源社区和企业大模型开发平台元脑企智EPAI中全面开放下载。用户可以在元脑企智EPAI平台中快速使用"源"Yuan-EB,并结合EPAI自研的多阶段RAG技术,零代码、低成本地基于企业数据构建大模型知识库应用。
企业大模型开发平台"元脑企智"EPAI(Enterprise Platform of AI),是浪潮信息为企业AI大模型落地应用打造的高效、易用、安全的端到端开发平台,提供数据准备、模型训练、知识检索、应用框架等系列工具,支持调度多元算力和多模算法,帮助企业高效开发部署生成式AI应用、打造智能生产力。
元脑企智EPAI已经支持超过13种类型文档的信息识别与提取,结合创新的多级混合检索策略,有效提升元脑企智EPAI在管理、解析、检索知识库与生成内容方面的最终效果,帮助企业用户实现基于私有数据、行业数据下的精准检索、精准问答,确保专业场景下大模型生成内容的准确性和可靠性,加速大模型创新力释放。
-
文章
81
-
浏览
348
-
获赞
41
热门推荐
-
印度航母杀手,新烈火
烈火-P型导弹是一款印度版反舰弹道导弹,其研发目标是装备一款射程1500公里的陆基反舰导弹资料图/图)近日,印度军方在奥里萨邦海岸外的博士岛进行了烈火-P型导弹试射并宣布成功,这是该导弹第三次成功试射专家解读:福建舰料年半内完成航行测试
近日,央视披露称,目前中国第三艘航母福建舰正按计划开展繫泊试验。一般而言,航母的建造流程分为几个重要节点:立项、开工、下水、舾装、繫泊、海试。值得注意的是,对比首艘国产航母山东舰,福建舰按照上述流程,TÜV南德与中国质量认证中心探索新合作模式及领域
北京2023年7月17日 /美通社/ -- 7月12日,TÜV南德意志集团以下简称“TÜV南德”)到访中国质量认证中心以下简称“CQC”)进行参观交流。TÜV南德北亚区首热力遍10城,诚心献万家
北京2023年7月17日 /美通社/ -- 盛夏已至,骄阳不改,正如大家保险坚守不变的热情与守护。自7月16日起,大家保险以“不负热爱,未来渐入家境”为主题,携全新广告亮相北京、上海、深圳、广州、南京真成泡面盖了?Kindle中国电子书店正式停止运营
分手后做这些,越是绝情冷落你的前任,越放不下你! -
我身边有不少已经和男朋友同居的小姐妹,每当她们和男友吵架以后,都会搬出来住几天,目的是让男友知道:“我生气了!你快点来哄我,不然你就失去我了!”吵架之后不想和对方生活在同一个屋檐下的心理是正常的,很多前8月中国吸收外资8927亿 同比增16.4%
【大公报讯】据新华社报道:记者19日从商务部获悉,2022年1至8月,全国实际使用外资金额8927.4亿元人民币,按可比口径同比增长16.4%下同),折合1384.1亿美元,同比增长20.2%。从行业师徒四代探索 闢产业化新路
【大公报讯】记者殷江宏、胡卧龙淄博报道:“齐鲁石化─胜利油田百万吨级CCUS项目”近日建成运行,当中凝聚着胜利油田4代科研工作者50多年的心血和汗水。1965年,曹银盛从西南石油学院毕业后来到923厂一字之差,一场变革:一年内超150个国家重点实验室重组更名
虚拟现实技术与系统全国重点实验室是全国首批重组的20个标杆实验室。 实验室官网/图)成立30周年之际,位于武汉的作物遗传改良全国重点实验室再次举行开放日活动,时间从2023年3月25日持续到28日。这砺剑十年 战力爆升
图:砺剑十年 战力爆升运-20大型运输机最大起飞重量:220吨最大载重量:66吨航程:7800公里歼-20隐形战斗机极速:2马赫弹舱载弹:4枚PL-15空空导弹2枚PL-10格斗弹15式轻型坦克重量:为什么要分手,荣登榜首拒绝复合的理由竟然是它 -
如果你问前任为什么要分手,他估计也不会诚实告诉你原因,如果你足够了解男人,即便他不开口,你都能够知道其中的原因。为什么要分手很多人被甩后都选择逃避,逃避什么呢,逃避面对真实的状况,因为突如其来,因为自考古遗迹/鄂发现“直立人”头骨化石 欧亚最完整
左图:“郧县人”3号头骨化石。/受访者供图;右图:考古团队在湖北十堰学堂梁子遗址发掘现场。国家文物局副局长关强在28日举行的“考古中国”重大项目发布会上表示,湖北十堰学堂梁子遗址新发现1具古人类头骨化老谣言“高铁站里不能打伞”又上热搜?其实更需注意时刻与电网保持安全距离丨硬核唠科
分手后,4招教你重燃爱情火焰,让前任非你不可! -
关键词:情商低、总说分手我今年30岁,第一次谈恋爱,男友比我大两岁,我们是通过相亲认识的,现在恋爱一年了。分手导火索是因为半个月前,男友带我去他们朋友的聚会,因为觉得男友的朋友也是我的朋友,所以很想跟一句挽回爱情的话没有失败如果有那就两句 -
一句挽回爱情的话没有失败如果有那就两句爱情快要离开的时候,苦苦哀求是没有用的,怎么样才能挽回爱情呢?请你相信一句话的力量,一句话挽回爱情,只要你真的想挽回!下面我们就一起来看看可以挽回爱情的句子吧。1