服务粉丝

我们一直在努力
当前位置:首页 > 科技 >

人类数据告急,OpenAI用AI喂AI,奥特曼:未来所有数据变合成数据

日期: 来源:量子位收集编辑:量子位

萧箫 发自 凹非寺量子位 | 公众号 QbitAI

人类数据缺缺缺,AI被迫开始吃AI生产的数据了!

这是微软、OpenAI等一众AI前沿公司面临的现状。

他们从维基百科、电子书、新闻网站、博客、推特和Reddit等平台和论坛中搜罗了大量数据,然后现在……这些数据快被用完了。

BUT,要训练更好的大模型,多少数据都不够。

据《金融时报》介绍,不少公司正把大模型生成的结果、也就是所谓的合成数据(Synthetic data),喂给参数量更小的大模型吃,发现效果还不错。

对于使用合成数据,OpenAI的CEO Sam Altman不仅不介意,还放话“未来所有数据都将变成合成数据”。

估值20亿美元的大模型初创公司Cohere同样在用合成数据。公司CEO、经典大模型Transformer论文作者之一Aidan Gomez甚至认为:

合成数据可能加速通往“超级智能”AI系统的道路。

所以,究竟哪些大模型已经在用合成数据了,这些合成数据又是从何而来?

大AI合成数据,小AI吃

这些所谓的合成数据,本质上是用当前表现较好的大模型生成的数据,经过人工调整后,再喂给稍微小一点的大模型。

例如Cohere公司就尝试使用了两个大模型进行“角色扮演”对话,并将它们生成的结果做成合成数据。

这两个大模型分别扮演“数学老师”和“学生”,正在进行一堂虚拟的数学教学。同时,Cohere安排一个人类员工在旁边监督对话生成。

一旦对话出现错误,人类员工就会插手对文本进行修正。

尽管确实还需要人力,但这比聘请科学、医学和商业方面的专家来撰写文本要便宜得多。

那么,什么样的大模型会用到这些合成数据呢?

微软研究院最近有研究表明,合成数据可以用于训练比GPT-4或PaLM-2稍微小一点的语言模型。

以用GPT-4生成的一个“四岁儿童小说”数据集TinyStories为例,这个数据集被证明虽然只包含4岁小孩能理解的单词,但用于训练一个大模型之后,同样可以生成语法正确、阅读体验流畅的故事:

对于使用合成数据的理由,Cohere的CEO Aidan Gomez认为:

能从网上获取数据当然更好,但网络数据太杂乱了,完全无法满足需求。相比之下,合成数据已经非常多了,即使它还没被广泛传播。

背后产业链已出现

目前,包括Scale AI、Gretel.ai等企业,已经开始给外界提供合成数据服务。

先是Scale AI,旗下就推出了一款合成数据产品Scale Synthetic,用于给企业提供合成数据服务。

而在之前一篇SemiAnalysis爆料GPT-4“大花边”的新闻中,还提到GPT-4的数据集中,有数百万行是来自Scale AI和内部的指令微调数据。

至于合成数据平台Gretel.ai,从官网来看,它已经和谷歌、拳头游戏、汇丰银行等不同企业进行了合作,以生成更多合成的数据提供给其他开发者使用。

Gretel.ai的CEO Ali Golshan认为,合成数据的好处在于,它保留了数据集中所有个人的隐私,同时仍然保持其统计学意义上的完整性(statistical integrity)。

但并非所有人都接受合成数据这种“神奇操作”,目前各方的看法主要分成两波。

一部分赞同使用合成数据。包括Cohere等AI公司在内,有不少搞大模型的企业仍然坚持这一做法,并认为它可能生成更好的AI,甚至从中诞生出“超级智能”。

另一部分则认为,合成数据终将让AI“自食其果”。

例如一篇来自牛津大学、剑桥大学、帝国理工学院、多伦多大学、爱丁堡大学和Vector Institute多家机构的研究表明:

使用合成数据训练,会让模型出现不可逆转的缺陷:忘记那些“不可能发生的事件”,最终被自己生成的数据毒害。

有网友认为,这些合成数据最后会变成一滩“无法使用的污泥”——然后人们不得不被迫雇佣数据科学家来对它进行清洗。

还有网友调侃,这听起来就像是“AI近亲繁殖”一样。

你认为AI需要使用合成数据吗?

相关阅读

  • 日照市新增5家省企业技术中心

  • 直播日照8月13日讯 近日,省发改委公布《关于发布2023年(第30批)新认定及全部山东省企业技术中心名单的通知》,日照市推荐上报的日照市政工程有限公司、日照港达船舶重工有限公司
  • 碧桂园深夜宣布

  • 碧桂园地产集团有限公司8月12日晚间公告,因近期拟就公司债券兑付安排事项召开债券持有人会议,根据相关规定,经公司申请,16腾越02、19碧地03、20碧地03、20碧地04、21碧地01、21
  • 公示!2023年度济宁市瞪羚企业拟认定名单出炉

  • 济宁新闻网讯 8月11日,济宁市工业和信息化局发布关于《2023年度济宁市瞪羚企业拟认定名单公示》,经企业自愿申报,县市区工信部门推荐并征求相关部门意见、专家评审等程序,经研究
  • 国网寿光市供电公司开展网络安全实战演练

  • 近日,国网寿光市供电公司数字化部接田柳供电所反映:“3名自称上级公司运维人员进入营业厅,要求检查供电所信息设备并索要电脑密码,被工作人员拒绝后自行离开,需对其身份进行查证
  • 中融信托产品逾期,多家上市公司踩雷!

  • 信托圈近日风声鹤唳!8月11日晚间,上市公司金博股份(688598)、南都物业(603506)发布公告称,购买的中融信托产品未能按期收回本金和收益,涉及本金分别为6000万元和3000万元。中融信托
  • 228亿!资本大鳄,吃掉了张一鸣供应商

  • 记者丨何己派 编辑丨鄢子为一宗百亿大交易,悄悄达成。8月12日,贝恩资本宣布,已与秦淮数据达成私有化协议,以8.60美元/ADS的价格,收购其所有已发行的股份,总估值约228亿人民币。据

热门文章

  • 解码“新IT”的5个特征和3大价值

  • 党的二十大报告提出,要加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群。在数字经济与实体经济深度融合的产业浪潮中,以智能设备、边缘计算
  • OPPO k1的低价高配真实么?网友:不看不知道

  • 近日OPPO一款新机OPPO k1,摒弃了高价低配,就连自家老大哥r17都要怼一下。更是放弃了请代言人,以往的OPPO手机还没出来,各路流量小生,花样美男的代言就先来了。还有线下销售人员的
  • 一招教你手机无限制成为一台新设备

  • 大家平时用手机去注册app,肯定会遇到检测设备异常,交易关闭,等问题 这个都是手机已经不止1-2次注册过此app,不断更换手机仅是一个暂时的方法,却不是长久之计,手机总归会用完
  • 从零开始如何开网店

  • 随着互联网的高速发展,人们的生活发生了翻天覆地的变化,生活节奏越来越快,网购已经成为家家户户生活中离不开的一种购物方式了。网购的发展使得越来越多的人想要涉足电商事业,那

最新文章

  • 南开区秋季征兵体检启动

  • 日前 ,南开区人民武装部按照全国征兵网报名截止时间和市征兵办对体检有关要求,组织全区符合应征条件的优秀青年在天津市黄河医院上站体检。图片来源:南开区融媒体中心图片来源