人工智能和 LaMDA:为什么谷歌想要一个新的图灵测试

人工智能和 LaMDA:为什么谷歌想要一个新的图灵测试

为了更好地测试人工智能系统的能力,未来谷歌将完成204个标准化任务。

人工智能 (AI) 领域的兴奋:自从谷歌与一位证明聊天机器人系统 LaMDA 有意识的工程师发生争执后,事情似乎已经失控了。该软件的全名是“Language Model for Dialogue Applications”,可以生成非常逼真的文本,呈现不同的个性(人物角色),并长时间创建听起来真实的对话。

意识之争

虽然谷歌研究员 Blake Lemoine 声称我们正在与一个有个性的真实存在打交道,但谷歌和来自人工智能领域和机器学习 (ML) 的众多批判性思想家拒绝这一点 - Lemoine 即使出于宗教原因,除其他原因外,还有其他原因 - 想法平淡出去。

但无论人们如何看待这场激烈的争论,它都表明当前评估 AI 系统的方法已经不够用了——尤其是所谓的图灵测试。这是由计算机科学传奇人物艾伦图灵设计的,旨在确定计算机是否具有与人类同等的思考能力。问题:像 LaMDA 这样的文本创建系统很快就会克服这个障碍,因为它们拥有大量数据可供使用,同时使它们的文本非常逼真——这让我们回到了 Lemoine。

400 名研究人员完成 204 项 AI 任务

这个话题早就被谷歌认可了。在那里,1950 年的图灵测试现在将被来自众多知识领域的一整套测试所取代。据该组织称,总共需要完成 204 项任务,其人工智能研究人员已与来自全球 132 个机构的 400 多名同事合作开展该项目。这个问题已经解决了两年——而且来得正是时候。

未来将使用“超越模仿游戏”基准,简称 BIG-bench,而不是几种变体的图灵测试。(“模仿游戏”图灵最初称他为测试。)使用新方法,还可以确定通用人工智能(Artificial general intelligence,AGI) ——至少在理论上是这样。

图灵停留 - 调整

尽管图灵测试无法被封存,但英国萨里大学的阿德里安·希尔顿告诉《新科学家》杂志。但这还不够广泛,不适合现代 AI 系统。然而,他对 BIG-bench 是否真的能确定 AGI 持怀疑态度。毕竟,这种方法现在提供了一种更好地比较系统的方法。

BIG-bench 通过查询所有可能的主题领域来做到这一点。这包括国际象棋等经典以及语言理解、数学和逻辑。对测试的初步调查表明,对于目前大多是专业化的人工智能系统来说,整个 204 项任务仍然太难了。人还没有被抓到这里。

发表评论
留言与评论(共有 0 条评论) “”
   
验证码:

相关文章

推荐文章