服务粉丝

我们一直在努力
当前位置:首页 > 科技 >

什么是人工智能“语料库”?为什么每个人都在谈论它?

日期: 来源:36氪收集编辑:36氪

编者按:比尔·盖茨(Bill Gates)、Reddit 首席执行官和其他科技领袖越来越多地谈论“语料库”,现在是时候了解它是“何方神圣”了。本文带你深度揭秘语料库以及它如何影响人工智能平台的运行。文章来自翻译,希望能对你有所启示。

得益于 ChatGPT 和类似人工智能平台的问世与飞速发展,人工智能的崛起一直是 2023 年最引人注目的话题之一。每天都会有关于人工智能技术如何影响创新、工作或人类生活的新文章出现。

如果你一直在关注人工智能领域,你可能会注意到最近科技高管们经常谈论的一个词:“语料库” (corpus)。Reddit(美国社交新闻站点)CEO、维基百科的创始人吉米·威尔士(Jimmy Wales)以及微软创始人比尔·盖茨都提到过。

以下是语料库的含义,以及为什么它对于理解 ChatGPT 和 Midjourney 等人工智能平台的运行至关重要。

什么是人工智能语料库?

学过拉丁语的人都知道“corpus”是“身体”的意思,现代英语里的“corpse”被译为“尸体”,源自拉丁语“corpus”。其他人可能也认识 corpus 这个词,因为它在今天仍然适用于现存法律机制中,被译为:人身保护令。这句话的字面意思是“你拥有人身自由权”,它确保任何被逮捕的人都有权出庭,以确定逮捕是否合法。

但当其用于人工智能领域时,“语料库”一词根本不是指身体。相反,它指的是用于训练人工智能的文本库或数据集合。这个语料库是人工智能审查的材料,以使其在设计时变得智能。

每个人工智能平台的语料库都是不同的,因为是人类决定他们想要用什么样的数据来训练 AI,而人类决定训练人工智能的语料库将取决于他们希望人工智能精通哪些方面或是解决什么问题。

语料库类型

语料库的类型没有限制,人工智能语料库的构成取决于人类创造者想让它做什么。

以 Midjourney 为例,Midjourney(一款 2022 年 3 月面世的 AI 绘画工具)是一个流行的生成艺术平台,用于使用 AI 创建图像。由于 Midjourney 只允许用户使用文本提示创建图像,因此它需要接受一系列图像和相关文本描述的训练。例如,为了让 Midjounry 生成瀑布的图像,它的语料库必须包含瀑布的图像以及描述瀑布的相关文本。

还有 ChatGPT 等人工智能平台,一种被称为大型语言模型(large language model,简称 LLM)的人工智能平台。强大的 LLM 有能力基于文本数据与人类进行对话聊天——前提是他们的语料库足够大且足够丰富。LLM 模型可以处理多种自然语言任务,根据其语料库所包含的内容,它可以回答复杂的问题,甚至能够生成原创作品,如短篇小说或创建太空射击游戏代码。LLM 模型的能力仅仅取决于用于训练人工智能的语料库文本数据,它基于大量文本数据进行训练以能够理解文本的含义,并给出相应答案。

我想知道 ChatGPT 的语料库是由什么组成的,所以我直接问了它。“ChatGPT 语料库是由大量互联网文本数据组成,包括网站、书籍、文章和其他公开来源。”它回答说。由于不满足于这个相当模糊的答案,我要求 ChatGPT 详细说明其语料库中的数据类型,这次 ChatGPT 的回答更加详细了:

  • 网站:来自不同领域和主题的网站文本。

  • 书籍:涵盖各种类型和主题的书籍文本。

  • 文章:来自新闻文章、杂志特写和博客文章的相关文本。

  • 研究论文:来自科学论文和出版物的相关文本。

  • 会话数据:来自对话和互动的多回合文本。

  • 社交媒体:来自 Twitter、Reddit 和其他在线论坛等平台的文本。

  • 维基百科:维基百科文章中涵盖众多主题的文本。

注意 ChatGPT 语料库并不包括图像,其不具备图像处理能力。这是因为 ChaptGPT 是一个基于文本的 AI 生成器,它不能生成图像,因为它的语料库从来没有包含任何可以训练图像的文本数据。

Midjourney 和 ChatGPT 的文本数据只是构成语料库的两个例子,实际上语料库可以由任何类型的数据组成。例如,如果你想制作一个可以创作音乐的 AI 平台,你只需要在它的语料库中介入音频歌曲相关的文本数据即可。或者,如果你想要一个能够以海明威风格写小说的人工智能,你可以使用一个只包含海明威书面作品的语料库。

语料库是否合法?

如果你没有一个语料库来训练 AI,AI 就无法学习。你的语料库越大,AI 就会变得越熟练、越智能。但是,当涉及到版权和知识产权法时,人工智能语料库可能就会存在很大的漏洞。

用受版权保护的内容数据训练人工智能,这样的做法是否违反法律呢?例如,如果我创造了一个可以生成类似 Banksy(注:英国著名艺术家)艺术品的人工智能平台,该平台基于 Banksy 的作品语料库来训练 AI,这是否侵犯了 Banksy 的版权或知识产权?我所创造的 AI 并没有直接“盗用”他的作品,只是复制他的风格,所以这是否仍然构成侵权呢?再比如,假设我创建了一个包含蕾哈娜歌曲语料库的 AI 程序平台,它可以使用蕾哈娜的声音或与之接近的声音生成全新的原创歌曲,这合法吗?

今年早些时候,由 AI 生成的模仿加拿大歌手德雷克(Drake)和歌手“盆栽”(The Weeknd)创作的新歌“Heart On My Sleeve”爆火并传播到了多个平台后,环球音乐集团(Universal Music Group)发表声明严厉谴责这首歌是“用生成式人工智能创作的侵权内容”。但使用人工智能工具的创作者可能并不这样认为。最终,无论是人工智能生成的音频、视频还是基于文本的媒体,随着 ChatGPT 和 Midjourney 等生成式人工智能程序越来越普及,“AI 是否侵权”这个问题很可能会在未来几年仍然需要进一步的探讨和研究。

与此同时,各国政府已经在计划立法来监管生成人工智能模型。例如,欧盟正在提议一项法律,要求人工智能所有者披露人工智能语料库是否包含受版权保护的内容。这种透明度将使版权持有人更容易识别自己的作品被用于哪些语料库,从而寻求赔偿。

在美国,国会研究服务处(Congressional Research Service)最近向国会建议,在更新版权立法之前,它可能更希望采取“采取观望态度”,建议国会监测法院在未来几年关于人工智能印发的版权案件的反应。

将出售语料库作为收入来源

当然,无论如何,一些内容创作者会选择接受人工智能为其提供的创收机会。比方说,一位在世的画家想赚些外快,她可非常容易地将自己的作品集打包在一个语料库中,并将其使用权出售给生成式人工智能公司。正如歌手格莱姆斯(Grimes)已经提出的那样,作家可以出售他们的小说集;杂志出版商可以出售过期杂志;歌手可以出售他们的人声语料库,或者要求 AI 基于他们的语料库生成的作品中获得一部分抽成。

如果埃隆·马斯克(Elon Musk)想为日渐走下坡路的 Twitter 带来新的收入来源,他可能会考虑将该平台上的所有推文打包成一个语料库,出售给人工智能初创公司。Meta 的 Facebook 也将从中找到新的收入来源,前提是 Twitter 和 Meta 可以声称拥有帖子的所有权。事实上,Reddit 的用户帖子语料库已经被用来帮助训练 ChatGPT 了,在最近接受《纽约时报》采访时,Reddit 首席执行官史蒂夫·霍夫曼(Steve Huffman)表示,他知道这个语料库的价值。“Reddit 的数据库非常有价值,但我们不需要把所有这些价值免费提供给世界上一些知名的公司。”霍夫曼说道。

从这个意义上说,随着越来越多的公司向人工智能领域扩张,强大的预包装语料库在科技界的地位可能会变得与淘金热矿工的镐一样重要,一个全新的语料库销售产业可能会随之诞生。

如果是这样的话,在未来的几个月和几年里, “语料库”将成为人工智能领域的常谈话题。

译者:Araon_


相关阅读

  • 从AI到伴侣:探索未来交流的无限可能性

  • 编者按:AI 伴侣,顾名思义,指的是利用人工智能技术模拟生成的虚拟恋人,可以通过语音、文字、图像甚至视频动画等方式与用户沟通交流。随着人工智能技术的不断发展,AI 伴侣也逐渐走
  • 成为AI提示工程师所需的6项技能,你知道吗?

  • 编者按:在过去的半年里,随着生成式人工智能的爆炸式增长,AI 新岗位与之相伴而生,越来越多的新兴职位开始涌现,其中包括年薪百万的提示工程师职位。如果你想成为一名专业的提示工
  • 云从科技:上半年净亏损约3.04亿元

  • 2023年8月14日,云从科技(688327.SH)于近日披露2023年半年报显示,公司2023年上半年实现营业收入约为1.64亿元,同比减少58.16%;对应实现的归属净利润约为-3.04亿元,上年同期亏损约
  • 信任人工智能何以可能

  • 作者:包傲日格乐 曾毅,中国科学院大学人文学院 中国科学院自动化研究所,摘自《自然辩证法研究》2023年2期,崔晋摘来源:《中国社会科学文摘》2023年第7期P42—P43在人工智能伦理
  • 人工智能专业可评职称

  • 记者从市人社局获悉,厦门市职称试点改革新增人工智能专业,该专业初、中级职称申报于8月14日8:00开始,9月13日17:30截止。人工智能专业主要包括人工智能算法、人工智能硬件、人
  • 让AI哄孩子,人工智能真能给婴儿当保姆吗?

  • 1 随着技术的发展,人工智能未来很可能成为婴幼儿的电子保姆,就像电视或游戏机那样,帮助节省成本和减轻父母的育儿负担。2 人工智能技术可能会给那些经历发育迟缓的孩子带来福

热门文章

  • 解码“新IT”的5个特征和3大价值

  • 党的二十大报告提出,要加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群。在数字经济与实体经济深度融合的产业浪潮中,以智能设备、边缘计算
  • OPPO k1的低价高配真实么?网友:不看不知道

  • 近日OPPO一款新机OPPO k1,摒弃了高价低配,就连自家老大哥r17都要怼一下。更是放弃了请代言人,以往的OPPO手机还没出来,各路流量小生,花样美男的代言就先来了。还有线下销售人员的
  • 一招教你手机无限制成为一台新设备

  • 大家平时用手机去注册app,肯定会遇到检测设备异常,交易关闭,等问题 这个都是手机已经不止1-2次注册过此app,不断更换手机仅是一个暂时的方法,却不是长久之计,手机总归会用完
  • 从零开始如何开网店

  • 随着互联网的高速发展,人们的生活发生了翻天覆地的变化,生活节奏越来越快,网购已经成为家家户户生活中离不开的一种购物方式了。网购的发展使得越来越多的人想要涉足电商事业,那

最新文章

  • 南京:搭建联动平台解“法结”化“心结”

  • “在江苏省、南京市两级检察院联动督导下,南京市玄武区检察院综合运用领导包案、挂牌督办、联动磋商等多元方法,化解了一起涉及25件行政诉讼、历时10年的涉房屋征收补偿类行
  • 从AI到伴侣:探索未来交流的无限可能性

  • 编者按:AI 伴侣,顾名思义,指的是利用人工智能技术模拟生成的虚拟恋人,可以通过语音、文字、图像甚至视频动画等方式与用户沟通交流。随着人工智能技术的不断发展,AI 伴侣也逐渐走