服务粉丝

我们一直在努力
当前位置:首页 > 科技 >

谷歌发布Gemini 1.5,能识别视频中的幽默梗,目前仅面向部分用户

日期: 来源:DeepTech深科技收集编辑:DeepTech深科技

当地时间 2 月 15 日,谷歌 DeepMind 推出 Gemini 1.5 Pro,其在处理大量视频、文本和图像的能力上得到增强。

2023 年 12 月,Google 推出 Gemini 1.0 版本,按照大小和复杂性可以分为 Nano 版、Pro 版、Ultra 版。本次新版本正是在此基础之上打造而来。

据了解,只有一部分被精选之后的开发人员和企业客户,可以使用 Gemini 1.5 Pro 的预览版。

DeepMind 表示,Gemini 1.5 Pro 在性能上与其之前的顶级型号 Gemini 1.0 Ultra 相匹配,但使用的计算能力较低。

至关重要的是,Gemini 1.5 Pro 模型可以处理来自用户的大量数据。虽然每个 AI 模型都有其可以消化的数据量上限,但新 Gemini 1.5 Pro 的标准版本可以处理多达 128000 个 tokens 的输入。

这些 tokens 是 AI 模型将输入分解成的单词或单词的一部分,与 GPT-4 的最佳版本(GPT-4 Turbo)相当。

目前,开发者能向 Gemini 1.5 Pro 最多提交 100 万个 tokens,这相当于大约 1 小时的视频、11 小时的音频或 700000 字的文本。毫无疑问这是一个巨大的飞跃,使得我们可以做目前其他模型无法做到的事情。

在谷歌展示的一段演示视频中,研究人员使用百万 tokens 版本向模型提供了一份 402 页的阿波罗登月任务记录。

然后,他们向 Gemini 展示了一张手绘的靴子草图,并要求它识别该图画所代表的记录中的时刻。

“这是尼尔·阿姆斯特朗(Neil Alden Armstrong)登陆月球的那一刻,”Gemini 正确地回答道,“他说,‘个人的一小步,人类的一大步。’”

这款模型还能够识别幽默时刻。当研究人员要求在阿波罗记录中找到一个有趣的时刻时,它找到了宇航员迈克·柯林斯(Mike Collins)将阿姆斯特朗称为“沙皇”(可能不是最好的台词)。

在另一次演示中,该团队上传了一部由美国默片时代演员巴斯特·基顿(Buster Keaton)主演的 44 分钟无声电影,并要求人工智能识别一张纸上的信息。

这张纸在电影中的某个时刻,会从人物的口袋中取出。不到一分钟,模型就找到了这一场景,并正确回忆出了纸上写的文字。

(来源:GOOGLE DEEPMIND)

研究人员还重复了阿波罗实验中的类似任务,要求模型根据绘图找到电影中的场景,结果它也能完成这一任务。

谷歌表示,它对 Gemini 1.5 Pro 进行了开发大型语言模型时通常会使用的一系列测试,包括结合文本、代码、图像、音频和视频的评估。

该团队发现 Gemini 1.5 Pro 在 87% 的基准测试中优于 Gemini 1.0 Pro,并且在所有基准测试中或多或少与 Gemini 1.0 Ultra 相当,同时使用的计算能力更少。

谷歌表示,处理更大输入的能力是专家混合架构取得进展的结果。使用这种设计的人工智能将其神经网络分成多个块,只激活与手头任务相关的部分,而不是立即启动整个网络。

谷歌并不是唯一使用这种架构的公司;法国人工智能公司 Mistral 发布了一个使用它的模型,据传 GPT-4 也采用了该技术。

DeepMind 深度学习团队负责人奥瑞尔·威亚斯(Oriol Vinyals)表示:“在某种程度上,它的运作方式很像我们的大脑,但并不是整个大脑一直都在激活。” 这种划分可以节省人工智能的计算能力,并且可以更快地生成响应。

艾伦人工智能研究所前技术总监奥伦·埃齐奥尼(Oren Etzioni)没有参与这项工作,他说:“这种在不同模式之间来回流动并利用它来搜索和理解的流动性非常令人印象深刻。”“这是我以前从未见过的东西。”

这种可以跨模式运行的人工智能,和人类的行为方式更加相似。“人们天生就是多模式的,”埃齐奥尼说,因为我们可以毫不费力地通过在说话、写作、绘图、制表之间切换来传达想法。

然而,埃齐奥尼警告不要从事态发展中获得太多意义。“有一句著名的台词,”他说,“永远不要相信人工智能演示。”

目前尚不清楚演示视频遗漏了多少内容或从各种任务中精心挑选了多少内容(谷歌确实因其早期 Gemini 发布没有透露视频已被加速而受到批评。)

如果输入措辞稍作调整,模型也可能无法复制某些演示。埃齐奥尼表示,人工智能模型总体来说是脆弱的。

另外,此次发布的 Gemini 1.5 Pro 仅限于部分开发者和企业客户。谷歌没有具体说明何时可以进行更广泛的发布。

运营/排版:何晨龙

相关阅读

  • 马斯克评OpenAI首个视频生成模型:人类认赌服输

  • OpenAI周四发布了首个视频生成模型Sora,并展示了几段效果炸裂的演示视频。一位X用户分享了Sora生成的一名女子在东京街头漫步的视频,并评论称:“OpenAI今天宣布了Sora,它使用混
  • 2024商业新愿景:破立之间

  • 经济观察报 记者 陈白 自2023年初生成式人工智能引发了全球新一轮科技革新浪潮以来,由技术所带来的新红利想象与传统产业转型重构的风险挑战并存于商业世界。而外部世界的不
  • 微软市值打破苹果纪录?老巨头是怎么雄起的?

  • 在世界互联网市场上,微软和苹果可以说是两大巨头,甚至一度相爱相杀,苹果凭借iPhone、iPad等硬件产品强势崛起,微软则是靠云计算二次发家,但是就在最近微软市值进一步创新高打破了
  • 肺结节的评估与处理:定量预测模型的应用

  • 随着医学技术的不断发展,肺结节的诊断和治疗已经取得了显著的进步。然而,对于肺结节的恶性风险评估仍然是一个复杂且具有挑战性的问题。为了更准确地判断肺结节的恶性概率,临床
  • 大数据:让往日音容历历在目 | 媒眼看世界

  • 喜欢看日剧的朋友一定听说过《世界奇妙物语》这部电视巨作。这部剧开播至今已33年,每年都会推出新的剧集,涵盖科幻、奇幻、悬疑、惊悚、喜剧等元素。近日上映的《走马灯的歌
  • 智谱AI等投资沐言智语公司

  • 科技边角料获悉北京沐言智语科技有限公司日前发生工商变更,新增南京高榕五期一号股权投资合伙企业、智谱AI关联公司北京智谱华章科技有限公司等为股东,同时,注册资本由100万人

热门文章

  • 解码“新IT”的5个特征和3大价值

  • 党的二十大报告提出,要加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群。在数字经济与实体经济深度融合的产业浪潮中,以智能设备、边缘计算
  • OPPO k1的低价高配真实么?网友:不看不知道

  • 近日OPPO一款新机OPPO k1,摒弃了高价低配,就连自家老大哥r17都要怼一下。更是放弃了请代言人,以往的OPPO手机还没出来,各路流量小生,花样美男的代言就先来了。还有线下销售人员的
  • 一招教你手机无限制成为一台新设备

  • 大家平时用手机去注册app,肯定会遇到检测设备异常,交易关闭,等问题 这个都是手机已经不止1-2次注册过此app,不断更换手机仅是一个暂时的方法,却不是长久之计,手机总归会用完
  • 从零开始如何开网店

  • 随着互联网的高速发展,人们的生活发生了翻天覆地的变化,生活节奏越来越快,网购已经成为家家户户生活中离不开的一种购物方式了。网购的发展使得越来越多的人想要涉足电商事业,那

最新文章

  • 新春走基层|内江隆昌:金龙献祥瑞 非遗贺新春

  • 您的浏览器不支持此视频格式川观新闻记者 陈宇 内江观察 唐广 刘煜瑞 文/视频“摸摸龙头,万事不愁!”2月16日大年初七下午,内江隆昌市莲峰公园热闹非凡,不少市民嘴里说着吉祥的
  • 重要提示!事关春节返程→

  • 开车上高速时,你知道最近的充电桩在哪吗?遇到车辆事故、车辆故障时,你知道如何迅速联系上救援吗?给各位车主推荐个好用的工具!由交通运输部提供的“充电桩查询”服务在国务院客户