当地时间 2 月 15 日,谷歌 DeepMind 推出 Gemini 1.5 Pro,其在处理大量视频、文本和图像的能力上得到增强。
2023 年 12 月,Google 推出 Gemini 1.0 版本,按照大小和复杂性可以分为 Nano 版、Pro 版、Ultra 版。本次新版本正是在此基础之上打造而来。
据了解,只有一部分被精选之后的开发人员和企业客户,可以使用 Gemini 1.5 Pro 的预览版。
DeepMind 表示,Gemini 1.5 Pro 在性能上与其之前的顶级型号 Gemini 1.0 Ultra 相匹配,但使用的计算能力较低。
至关重要的是,Gemini 1.5 Pro 模型可以处理来自用户的大量数据。虽然每个 AI 模型都有其可以消化的数据量上限,但新 Gemini 1.5 Pro 的标准版本可以处理多达 128000 个 tokens 的输入。
这些 tokens 是 AI 模型将输入分解成的单词或单词的一部分,与 GPT-4 的最佳版本(GPT-4 Turbo)相当。
目前,开发者能向 Gemini 1.5 Pro 最多提交 100 万个 tokens,这相当于大约 1 小时的视频、11 小时的音频或 700000 字的文本。毫无疑问这是一个巨大的飞跃,使得我们可以做目前其他模型无法做到的事情。
在谷歌展示的一段演示视频中,研究人员使用百万 tokens 版本向模型提供了一份 402 页的阿波罗登月任务记录。
然后,他们向 Gemini 展示了一张手绘的靴子草图,并要求它识别该图画所代表的记录中的时刻。
“这是尼尔·阿姆斯特朗(Neil Alden Armstrong)登陆月球的那一刻,”Gemini 正确地回答道,“他说,‘个人的一小步,人类的一大步。’”
这款模型还能够识别幽默时刻。当研究人员要求在阿波罗记录中找到一个有趣的时刻时,它找到了宇航员迈克·柯林斯(Mike Collins)将阿姆斯特朗称为“沙皇”(可能不是最好的台词)。
在另一次演示中,该团队上传了一部由美国默片时代演员巴斯特·基顿(Buster Keaton)主演的 44 分钟无声电影,并要求人工智能识别一张纸上的信息。
这张纸在电影中的某个时刻,会从人物的口袋中取出。不到一分钟,模型就找到了这一场景,并正确回忆出了纸上写的文字。
(来源:GOOGLE DEEPMIND)
研究人员还重复了阿波罗实验中的类似任务,要求模型根据绘图找到电影中的场景,结果它也能完成这一任务。
谷歌表示,它对 Gemini 1.5 Pro 进行了开发大型语言模型时通常会使用的一系列测试,包括结合文本、代码、图像、音频和视频的评估。
该团队发现 Gemini 1.5 Pro 在 87% 的基准测试中优于 Gemini 1.0 Pro,并且在所有基准测试中或多或少与 Gemini 1.0 Ultra 相当,同时使用的计算能力更少。
谷歌表示,处理更大输入的能力是专家混合架构取得进展的结果。使用这种设计的人工智能将其神经网络分成多个块,只激活与手头任务相关的部分,而不是立即启动整个网络。
谷歌并不是唯一使用这种架构的公司;法国人工智能公司 Mistral 发布了一个使用它的模型,据传 GPT-4 也采用了该技术。
DeepMind 深度学习团队负责人奥瑞尔·威亚斯(Oriol Vinyals)表示:“在某种程度上,它的运作方式很像我们的大脑,但并不是整个大脑一直都在激活。” 这种划分可以节省人工智能的计算能力,并且可以更快地生成响应。
艾伦人工智能研究所前技术总监奥伦·埃齐奥尼(Oren Etzioni)没有参与这项工作,他说:“这种在不同模式之间来回流动并利用它来搜索和理解的流动性非常令人印象深刻。”“这是我以前从未见过的东西。”
这种可以跨模式运行的人工智能,和人类的行为方式更加相似。“人们天生就是多模式的,”埃齐奥尼说,因为我们可以毫不费力地通过在说话、写作、绘图、制表之间切换来传达想法。
然而,埃齐奥尼警告不要从事态发展中获得太多意义。“有一句著名的台词,”他说,“永远不要相信人工智能演示。”
目前尚不清楚演示视频遗漏了多少内容或从各种任务中精心挑选了多少内容(谷歌确实因其早期 Gemini 发布没有透露视频已被加速而受到批评。)
如果输入措辞稍作调整,模型也可能无法复制某些演示。埃齐奥尼表示,人工智能模型总体来说是脆弱的。
另外,此次发布的 Gemini 1.5 Pro 仅限于部分开发者和企业客户。谷歌没有具体说明何时可以进行更广泛的发布。
运营/排版:何晨龙