高质量数据荒下,“弱智吧”为AI开悟?
自ChatGPT发布以来,弱智吧用户就热衷于利用不寻常的高质问题挑战每一个AI产品的能力边界。
其中一种测试方法是量数找到类似“为什么孙悟空是中国猴子却叫美猴王,不应该叫中猴王吗”、据荒“生鱼片就是开悟死鱼片”这种类似冷笑话的句子,看人工智能能否如人类一样破解其真正含义。弱智吧
这类荒谬却似乎又有一丝合理性的高质发言,往往来自于百度贴吧“弱智吧”。量数
近日,据荒弱智吧数据在AI领域又多做了一份贡献。开悟
由中科院深圳先进技术研究院、弱智吧中科院自动化研究所,高质滑铁卢大学等高校、量数研究机构联合发布了一份高质量中文指令微调数据集。据荒值得注意的开悟是,在研究过程中,学者们发现,来自“弱智吧”的数据在其中有亮眼表现。
弱智吧表现优异
该团队发布的论文《COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning》详细介绍了其研究过程和成果。
这项研究的目的在于解决当下中文大模型训练面临的几大难题:中文数据集很多是直接翻译自英文翻译,没有很好地契合中文的语言习惯和文化背景、不少数据集是用AI生成的,可能出现事实性错误、目前大部分人工标注的数据集,很多时候数据量小、覆盖领域不全面。
基于此,团队从中文互联网的各处搜集数据,经过一系列清洗和人工审核后,打造出了高质量、多样化的中文指令微调数据集COIG-CQIA。
具体而言,研究的数据来源包括知乎、思否、豆瓣、小红书、弱智吧、百科全书、四个特定领域知识(医学、经济、农学、电子)、考试材料(中考、高考、考研等)、COIG-PC 等语料库。而用以训练的模型是零一万物Yi系列开源大模型。
结果,在各个方面表现优秀的版本竟然是弱智吧版。
弱智吧这一数据集由500个点赞最高的帖子标题+人工或GPT-4的回复组成, 经过人工审核后,最终留下了240组指令-回复数据对。
在规模较小的Yi-6B模型上,纯弱智吧版本总分排名第二。
在Yi-34B模型上,弱智吧版本总分第一。
综合各项结果,弱智吧在所有子集中平均排名第二。
弱智吧为何能够有这么优秀的发挥?
研究者认为,可能是弱智吧问题增强了AI的逻辑推理能力,有利于完成指令遵循任务( instruct-following tasks)。“这种语料有点脑筋急转弯的感觉,所以其使用提升了模型的推理能力。”一位技术人员这样告诉21记者。
企业“各显神通”
弱智吧成为优秀训练素材引发关注的背后,是人工智能发展一直绕不开的训练数据隐忧。
数据是生成式人工智能的“粮食和血液”,其重要性不言而喻。以OpenAI的GPT模型为例,GPT-1预训练数据量仅有5GB,GPT-2则增加至40GB,GPT-3更是达到了惊人的45TB。
“大模型时代,得数据者得天下。”对外经济贸易大学数字经济与法律创新研究中心执行主任张欣在此前接受21世纪经济报道记者采访时表示,当前技术领域的研究显示,各家大模型在算法层区别并不大,并且具有同质化的趋势。在此背景下,训练数据就成了真正区分且影响大模型性能的重要因素之一。
数据需求水涨船高,高质量数据供给却面临稀缺之困。去年,一项来自Epoch Al Research团队的研究就表明,高质量的语言数据存量将在2026年耗尽。
面对这一困境,大模型厂商“各显神通”发掘可用资源。
据媒体报道,谷歌正在考虑利用谷歌文档、表格和幻灯片中提供的消费者数据来支撑其旗下AI产品的训练。公开消息显示,OpenAI旗下模型的训练数据则有相当一部分来自维基百科、书籍、期刊等公共互联网内容。
社交媒体上活跃而多元的数据也被认为是大模型训练的好材料。
2023年12月,有知情人士向媒体表示,苹果拿出5000万美元尝试Condé Nast(《Vogue》和《纽约客》的出版商)、NBC和IAC等新闻机构交涉以获得新闻文章的授权,用以其生成式AI产品开发。
OpenAI在1月与数十家出版商洽谈签署文章授权协议,以获取数据训练其AI模型。同样在今年,刚刚上市的社交媒体Reddit也被传成交了一笔年价值约6000万美元的大生意——允许一家大型人工智能公司访问平台内容用以训练模型。
中文数据荒何解?
数据从何而来,事实上是个国际难题。
在人工智能领域,我国可以称得上是活跃的先行者。科技部新一代人工智能发展研究中心去年发布的《中国人工智能大模型地图研究报告》显示,从全球已发布的大模型数量来看,中国和美国大幅领先,占全球总数的80%以上。
然而,一面是潮水涌起,玩家纷纷入场,另一面是行业狂飙,“燃料”却面临枯竭。
中文大模型面临的情况可能更加严峻。以ChatGPT为例,公开数据显示,在GPT-3训练数据集的语言占比中,中文语料在总语料中占比不足0.1%,且其中包含繁体中文。
中国工程院院士高文曾在演讲中提到,全球通用的50亿大模型数据集中,中文语料仅占1.3%。一些主流数据集如Common Crawl、BooksCorpus、WiKipedia、ROOT等都以英文为主,最流行的Common Crawl中的中文语料也只占4.8%。
可以说,目前世界上主流的大模型都是靠英文语料库来训练和生成大模型。
要研发可靠实用的中文大模型,就必须有严谨可信的中文数据库。这对中国的人工智能的进一步发展无疑是个挑战。
知乎创始人、CEO周源在今年两会时就表示,我国大模型发展当前面临的最显著的问题之一是高质量中文语料资源的短缺。
因此,加快高质量中文数据集的挖掘开发、补齐优质中文语料数据短板必不可少。
《生成式人工智能服务管理暂行办法》就提到,要推动生成式人工智能基础设施和公共训练数据资源平台建设;推动公共数据分类分级有序开放,扩展高质量的公共训练数据资源。
我国多地也都曾发布相关政策以求推动建立高质量数据集。去年起,北京、深圳等地先后发布相关文件,指出要提升高质量数据要素供给能力、归集高质量基础训练数据集、建立多模态公共数据集,打造高质量中文语料数据等。《北京市促进通用人工智能创新发展的若干措施(2023-2025年)(征求意见稿)》《深圳市加快推动人工智能高质量发展高水平应用行动方案(2023—2024年)》等就提到过目前大模型训练高质量中文语料占比过少,要打造高质量中文语料数据库。
-
文章
5
-
浏览
8664
-
获赞
4
热门推荐
-
性价比|轻资产|地板界的“小米”百格贝特起航
【建材网】8月1日至3日,百格斯特家居科技江苏)有限公司百格贝特地板事业部展开为期三天的“组 织激活、遇见真我”工作会议。会议期间,百格斯特家居科技江苏)有限公司总经理柴永家先马术中巡赛广州总决赛精彩续演 各路名将齐上阵
2016浪琴表中国马术巡回赛香港赛马会杯广州总决赛,在广州黄村体育训练中心进入第二个比赛日的争夺,精彩连连上演。100-115cm挑战赛次轮比赛中广东骑手乔伦巴特与他的坐骑哈日夫延续火热状态,连续第二浙江衢州市打造危废处置监管的新体系
“我已经看到了,现在就按照流程进行审核,通过之后就会发车,前往你公司运送危废。”3月28日上午,衢州清泰环境工程有限公司主管危废信息化的工作人员尹建,通过综合监管系统对此单子进祝贺: 源杰空中舞蹈培训机构加入中国钢管舞协会
2018年7月11日上午,中国钢管舞协会决策会议在北京凯宾斯基酒店会议厅召开。中国钢管舞协会常务会会长王中兴先生、会长王刚先生,协会中层以上领导职位、全体理事会员机构代表参加大会。大会同时宣布&ldq8年干出900亿估值,“步步高系”复制下一个极兔
极兔速递正向港交所发起冲击。 视觉中国/图)在中国狂奔3年后,极兔速递向港交所发起冲击。其于2023年6月16日晚间递交的招股书显示,计划募资5亿-10亿美元,最快将在年内上市。极兔速递是一家加盟制快祝贺: 源杰空中舞蹈培训机构加入中国钢管舞协会
2018年7月11日上午,中国钢管舞协会决策会议在北京凯宾斯基酒店会议厅召开。中国钢管舞协会常务会会长王中兴先生、会长王刚先生,协会中层以上领导职位、全体理事会员机构代表参加大会。大会同时宣布&ldq杭师大附中举行运动会开幕式 马术社团惊艳亮相
听说只要一开运动会,天就会下雨。不过,今天却是个难得的好天气,艳阳高照,微风轻抚。11月3日上午,杭州师范大学附属中学2016年秋季运动会在本部田径场开幕,各班学生都盼着这一天在开幕式上展示“脑洞大开三十年,只为西藏马术闯出来
30年前,在十世班禅大师的倡导和支持下,西藏马术队成立,马背上的民族从此有了专业的马术人才。成立之初,马术队从拉萨、昌都、日喀则等地区招收了40名队员,其中26名男队员,14名女队员,并划分为民族传统九江一幼儿园在小便池清洗餐具,官方:属实,责令该园停业整顿
6月7日,反映“九江某幼儿园在小便池清洗餐具”的短视频在网上传播。我市立即成立由市教育局和市场监督管理局组成的联合调查组。经调查核实,涉事幼儿园系柴桑区阳光幼儿园,视频反映情况属实。目前,市联合调查组特殊煤电“保卫战” “超低排放”技术还需节能低成本
燃煤电厂大气污染物“近零排放”成为近一年来能源、电力行业广泛热议和争议的话题。国内外并没有公认的燃煤电厂大气污染物“近零排放”的定义,实际行业内多种表述猩便利频获外媒关注 创新模式打造便利店新标杆
在新零售的浪潮之下,中国的新型便利店市场呈现出前所未有的活力,智能化的便利店迅速走进大众的视野,不仅为人们的生活带来了更多切实的便利,也成为国外便利店业态的创新典范,引起了不少外媒的关注。日前,国内领厦门危险废物将有“身份证” 需填写“七联单”
过去,危险废物管理流程相对复杂,填写单据保留不易,容易丢失造成隐患;而现在,危险废物监控,有了“身份证”,只需要用手持设备扫一下电子标签,从危废产生到处置全过程,都被纳入监管,世台联对打假球中国球员开罚单 梁文博、李行终身禁赛
世界职业台球和斯诺克协会世台联)6日发布声明,对10名被指控打假球的中国球员开出罚单,其中梁文博、李行两人被终身禁赛。自去年10月27日宣布对梁文博实施临时禁赛以来,世台联在随后两个多月的时间内又陆续武汉赛马学子再次获得国际顶级马业集团奖学金
11月3日,全球第二大马业集团——阿联酋达利集团公布了2016年迪拜马科学奖学金DESS)获奖名单,武汉商学院与天津体学院联合培养的赛马、马术专业研究生汪小力、张英驰榜上有名,分别获得人民币1.5万元AQHA中国南方分会正式授权成立
11月29日下午两点,AQHA中国南方分会代表处授权签约新闻发布会在北京广电国际大酒店的青马无疆骑仕沙龙举行。美国夸特马协会AQHA)中国分会代表处正式授权上海君灵马业有限公司成为AQHA中国南方分会