服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

AI会带来大量不可重复的研究结果吗?

日期: 来源:知社学术圈收集编辑:知社

海归学者发起的公益学术平台

分享信息,整合资源

交流学术,偶尔风月

从生物医药到社会科学,科学界越来越依赖人工智能(AI)算法,通过机器学习工具来“干活儿”。通过购买AI工具服务,研究人员可以在几个小时内便获得实验结果预测,非常的高效。然而最近,普林斯顿大学研究人员发现,使用机器学习的这类工具给出的结果很可能不够严谨,导致结论无法复制、再现。


“很少有科学家意识到,他们在应用人工智能算法时遇到的问题其实是普遍性的。目前,学术界也没有禁止不可复制论文的机制。”对此,普林斯顿大学机器学习研究员萨亚什·卡普尔(Sayash Kapoor)和他的合著者阿尔文·纳拉亚南(Arvind Narayanan)在预印本上发表文章,希望帮助研究人员避开机器学习应用中的陷阱。此举也敲响了科学“再现性危机”的警钟。

 

图源:pixabay.com


什么是再现性?卡普尔他们对“计算再现性”的定义很宽泛:其他团队应该能够复制模型的结果的全部细节,包括数据、代码和条件等。如果研究人员在数据分析中出错,那么这个模型将被定义为不可复制的,这意味着该模型并不具有预测性。


有些研究人员认为卡普尔的说法太过绝对,对错误的判断太过主观。他们并不认为自己的研究结果存在缺陷。然而,卡普尔的观点仍然引起了学界共鸣。7月28日,超过1200人报名在线参加了卡普尔等人发起的“再现性”研讨会,希望能找出这一问题的解决方案。


数据科学家莫明·马利克(Momin Malik)支持卡普尔的观点。他提出,当算法应用于健康和司法等领域时,对机器学习的依赖会对研究结果造成实质伤害。他质疑机器学习的合法性,认为除非解决再现性危机,否则机器学习的声誉将会受到打击。

卡普尔和纳拉亚南认为,机器学习在很多学科应用中存在缺陷。他们分析了17个研究领域的20篇综述,统计了329篇研究论文。这些论文的结果由于机器学习的缺陷而无法完全复制。即便是纳拉亚南本人也不能幸免。2015年他参与撰写的一篇关于计算机安全的论文就是其中之一。他们认为,这些问题的出现不是研究人员的错。围绕人工智能的炒作和监管漏洞才是罪魁祸首。


研究团队强调,最突出问题是“数据污染”,比如“时间污染”——很多AI都被训练用于预测某些尚未发生的事,用来训练AI的数据是之前积累的历史数据,如用1-6月份的数据来预测7月会发生什么,但是如果“不小心”混入了6月30日之后的数据,那么这个所谓预测的结果还有意义吗?2011年的一篇模型论文声称可以通过分析Twitter用户的情绪来预测股市收盘价,准确率为87.6%。但是在他们用于训练的数据中出现了训练集之后的数据,等于让AI看到了“未来”。


还有数据范围狭窄问题。比如通过人工智能算法在X光片中查找肺炎。这种算法只针对老年人群体数据进行训练,放在年轻群体中也许就不适用了。还有通过算法在草地背景中识别奶牛的技术,放在其他背景中就无法成功识别。人们过于信任机器学习,这种问题也许是一种心理问题。这导致所谓的“预测”也许只是回顾性的检验,而与未来无关。


人体肺部肿瘤的CT扫描。研究人员正在试验人工智能算法,以发现疾病的早期迹象。

图源:K. H. Fung/SPL


研究团队提出,解决问题的方法是在研究中引入“证据”,证明模型不存着数据污染问题。还有一些研究领域尝试通过制定报告指南来进行监管。另外,行业领域内学科专家与机器学习的研究人员加强相互合作也对解决数据污染问题有积极作用。


机器学习在科研领域内发挥作用的时间并不长,如何用好、管好这项新技术是科学界迫切需要思考并解决的问题。卡普尔认为,必须避免历史上心理学复制危机之后的那种信心危机。毕竟拖得越久,问题就越大。

参考文献:
https://www.nature.com/articles/d41586-022-02035-w


点击下方知社人才广场,查看最新学术招聘

扩展阅读

 

不创新,毋宁死,那论文可重复性呢?
那些意义不明的论文,能否复现有什么意义呢?
专人专款历时八年,五十余篇高引用论文依然有一多半未能复现
征稿启事:可重复性和研究诚信
本文系网易新闻·网易号“各有态度”特色内容
媒体转载联系授权请看下方

相关阅读

  • 【干货】Origin投稿格式以及高级使用技巧

  • 【做计算 找华算】理论计算助攻顶刊,10000+成功案例,全职海归技术团队、正版商业软件版权!经费预存选华算,高至15%预存增值!1Origin 点线图页面转成高清晰 TIF 图全过程很多期刊
  • 一家千亿城商行的数据化变革

  • 近年来,为顺应数字经济高速发展浪潮,济宁银行把“数字化转型”作为全行发展的第一战略,以客户为中心,以业务需求为导向,打造数据驱动的智能化银行。为了更好地深化普惠金融服务、
  • 企业如何为2023年面临的勒索软件攻击做好准备

  • 点击上方“蓝色字体”,选择 “设为星标”关键讯息,D1时间送达!根据行业媒体的报道,美国金融机构在去年处理的勒索软件赎金达到10亿美元以上,创下新的记录,几乎是前年的三倍。勒索
  • 行业观察|Web 3.0或将带来全新的市场经济形态

  • 很多人把Web 3.0的发展历程,与以人为本的网络发展的黎明时代相提并论,认为其本质是一场文艺复兴。在初代Web诞生的90年代,许多人对待新鲜事物持谨慎态度,却很少有人真正预见到人
  • 鲍捷:未来数据组织方式的三个演进方向

  • 2022年全国知识图谱和语义计算大会(CCKS)于2022年8月24日至8月27日在秦皇岛以线上线下混合的方式召开,主题是“知识图谱赋能数字经济”,旨在探讨数字产业化与产业数字化过程中的
  • AI行业观察|知识图谱与资管风控数字化破局

  • 主讲人鲍捷自2015年以来,文因互联专注于知识图谱在金融行业里的应用与实践,团队先后参与了 Reg Tech (监管、合规) 技术服务,交易所 IPO 与债券的发行管理与风控,以及债券全生命

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • AI会带来大量不可重复的研究结果吗?

  • 海归学者发起的公益学术平台分享信息,整合资源交流学术,偶尔风月从生物医药到社会科学,科学界越来越依赖人工智能(AI)算法,通过机器学习工具来“干活儿”。通过购买AI工具服务,研究
  • 2022中科院分区表即将公布,今年迎来较大变化!

  • 【做计算 找华算】理论计算助攻顶刊,10000+成功案例,全职海归技术团队、正版商业软件版权!经费预存选华算,高至15%预存增值!再有一段时间,备受科研人员关注的中科院分区表就要公布
  • 又一大牛学者回国,全职加入西湖大学!

  • 【做计算 找华算】理论计算助攻顶刊,10000+成功案例,全职海归技术团队、正版商业软件版权!经费预存选华算,高至15%预存增值!来源丨西湖大学近日,马秋富全职加入西湖大学,任神经生物