AI会带来大量不可重复的研究结果吗？--粉丝服务平台-粉丝头条-fensifuwu.com

AI会带来大量不可重复的研究结果吗？

日期： 2023-03-01 07:56:38 来源：知社学术圈收集编辑：知社

海归学者发起的公益学术平台

分享信息，整合资源

交流学术，偶尔风月

从生物医药到社会科学，科学界越来越依赖人工智能（AI）算法，通过机器学习工具来“干活儿”。通过购买AI工具服务，研究人员可以在几个小时内便获得实验结果预测，非常的高效。然而最近，普林斯顿大学研究人员发现，使用机器学习的这类工具给出的结果很可能不够严谨，导致结论无法复制、再现。

“很少有科学家意识到，他们在应用人工智能算法时遇到的问题其实是普遍性的。目前，学术界也没有禁止不可复制论文的机制。”对此，普林斯顿大学机器学习研究员萨亚什·卡普尔（Sayash Kapoor）和他的合著者阿尔文·纳拉亚南（Arvind Narayanan）在预印本上发表文章，希望帮助研究人员避开机器学习应用中的陷阱。此举也敲响了科学“再现性危机”的警钟。

图源：pixabay.com

什么是再现性？卡普尔他们对“计算再现性”的定义很宽泛：其他团队应该能够复制模型的结果的全部细节，包括数据、代码和条件等。如果研究人员在数据分析中出错，那么这个模型将被定义为不可复制的，这意味着该模型并不具有预测性。

有些研究人员认为卡普尔的说法太过绝对，对错误的判断太过主观。他们并不认为自己的研究结果存在缺陷。然而，卡普尔的观点仍然引起了学界共鸣。7月28日，超过1200人报名在线参加了卡普尔等人发起的“再现性”研讨会，希望能找出这一问题的解决方案。

数据科学家莫明·马利克（Momin Malik）支持卡普尔的观点。他提出，当算法应用于健康和司法等领域时，对机器学习的依赖会对研究结果造成实质伤害。他质疑机器学习的合法性，认为除非解决再现性危机，否则机器学习的声誉将会受到打击。

卡普尔和纳拉亚南认为，机器学习在很多学科应用中存在缺陷。他们分析了17个研究领域的20篇综述，统计了329篇研究论文。这些论文的结果由于机器学习的缺陷而无法完全复制。即便是纳拉亚南本人也不能幸免。2015年他参与撰写的一篇关于计算机安全的论文就是其中之一。他们认为，这些问题的出现不是研究人员的错。围绕人工智能的炒作和监管漏洞才是罪魁祸首。

研究团队强调，最突出问题是“数据污染”，比如“时间污染”——很多AI都被训练用于预测某些尚未发生的事，用来训练AI的数据是之前积累的历史数据，如用1-6月份的数据来预测7月会发生什么，但是如果“不小心”混入了6月30日之后的数据，那么这个所谓预测的结果还有意义吗？2011年的一篇模型论文声称可以通过分析Twitter用户的情绪来预测股市收盘价，准确率为87.6%。但是在他们用于训练的数据中出现了训练集之后的数据，等于让AI看到了“未来”。

还有数据范围狭窄问题。比如通过人工智能算法在X光片中查找肺炎。这种算法只针对老年人群体数据进行训练，放在年轻群体中也许就不适用了。还有通过算法在草地背景中识别奶牛的技术，放在其他背景中就无法成功识别。人们过于信任机器学习，这种问题也许是一种心理问题。这导致所谓的“预测”也许只是回顾性的检验，而与未来无关。

人体肺部肿瘤的CT扫描。研究人员正在试验人工智能算法，以发现疾病的早期迹象。

图源：K. H. Fung/SPL

研究团队提出，解决问题的方法是在研究中引入“证据”，证明模型不存着数据污染问题。还有一些研究领域尝试通过制定报告指南来进行监管。另外，行业领域内学科专家与机器学习的研究人员加强相互合作也对解决数据污染问题有积极作用。

机器学习在科研领域内发挥作用的时间并不长，如何用好、管好这项新技术是科学界迫切需要思考并解决的问题。卡普尔认为，必须避免历史上心理学复制危机之后的那种信心危机。毕竟拖得越久，问题就越大。

参考文献：

https://www.nature.com/articles/d41586-022-02035-w

点击下方知社人才广场，查看最新学术招聘

扩展阅读

不创新，毋宁死，那论文可重复性呢？

那些意义不明的论文，能否复现有什么意义呢？

专人专款历时八年，五十余篇高引用论文依然有一多半未能复现

征稿启事：可重复性和研究诚信

本文系网易新闻·网易号“各有态度”特色内容

媒体转载联系授权请看下方

服务粉丝

AI会带来大量不可重复的研究结果吗？

文章推荐

相关阅读

Python机器学习+材料应用培训：催化/电池/动力学/有机/力学等，最新MP数据库/材料筛选/性质预测/数据处理等！

【干货】Origin投稿格式以及高级使用技巧

海通证券荣获“第六届浦发银行国际金融科技创新大赛”方案大奖

一家千亿城商行的数据化变革

喜讯——公司“深圳金融大数据智能应用技术工程研究中心”获发改委验收通过

企业如何为2023年面临的勒索软件攻击做好准备

行业观察|Web 3.0或将带来全新的市场经济形态

鲍捷：未来数据组织方式的三个演进方向

我家做财务核查的是机器人|文因快查·勾稽关系核查

AI行业观察|知识图谱与资管风控数字化破局

聚合标签

热门文章

百元茅台没人买，千元茅台有人追。十年前，有人花百元买了一万股茅台，后出手追中石油，如今，茅台一飞冲天，中石油深套十年。炒股，不要见异思迁，价值投资是首选。#股票#

谁说定期存款提前支取不划算？存中原银行“惠农宝”放心随便取

张小龙:交了8千万税无北京户籍孩子连私立也不让上

万字详解：ROE连续十年超过20的明星公司全面分析（附：详细名单）

“复活”半年后　京东拍拍二手杀入公益事业

离职时没有做满一个月，公司还需要帮纳当月社保吗？

最新文章

AI会带来大量不可重复的研究结果吗？

上海人工智能实验室招收人工智能加速计算全息实习生

最后1个优惠！VASP钙钛矿/半导体计算培训：二维结构/异质结/掺杂/电子/吸附/缺陷性质/催化性质

狂狂狂发顶刊！JACS、Angew.、AM、AEM、AFM、EES、Nature子刊等DFT代算好评如潮！

2022中科院分区表即将公布，今年迎来较大变化！

又一大牛学者回国，全职加入西湖大学！