服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

OpenAI 千亿市值背后:外包数据标注员月薪不到两千,每天标注 20 万个单词

日期: 来源:InfoQ收集编辑:Jaime Hampton

 作者 | Jaime Hampton
译者 | 核子可乐
策划 | 李冬梅

ChatGPT 被视为近几年最具创新性的 AI 工具之一。这款强大的 AI 聊天机器人几乎可以生成任何问题的文本,从莎士比亚的十四行诗,到用 5 岁孩子能理解的语言描述复杂的数学问题,可谓“无所不能”。

近日,TIME 发布了一篇独家报道,发现 ChatGPT 在构建内容过滤器时所使用的标注数据由肯尼亚工人完成,且每小时收入不足 2 美元。

根据作者 Billy Perrigo 的说法,数据标注员的任务是阅读和标注文本内容,从“互联网上最阴暗的角落”中提取“最血淋淋的细节表达,包括儿童性虐待、兽行、杀人、自杀、酷刑、折磨、自残和乱伦等内容。”

1 外包数据标注工人时薪不到 2 美元

Perrigo 提到,根据资历和绩效,这些工人的最低税后时薪仅为 1.32 美元,最高税后时薪也不过 1.44 美元。英国广播公司 BBC 的一份报告估计,肯尼亚约有 75% 的工人住在非洲最大的贫民窟之一,内罗毕的基贝拉贫民窟。当地的失业率高达 50%,缺乏清洁水,也没有卫生设施可用。

承担这份外包工作的是 Sama(原 Samasource),一家位于旧金山的公司。该公司向来以建设“道德 AI”自居,号称要在数字工作与低收入人群之间搭设纽带。该公司在肯尼亚、乌干达和印度等地雇用人员,为谷歌、Meta 和微软等科技大厂提供数据标注服务。

作为 OpenAI 旗下最当红的聊天机器人,ChatGPT 采用的是升级版本的大语言模型 GPT-3.5。该聊天机器人于去年 11 月下旬首度亮相,推出不到一周就吸引到了超百万用户。ChatGPT 的用例包括数字内容生成、写作和代码调试。与其他同样基于 GPT-3.5 模型的前任服务一样,由于大量使用从互联网处采集到的训练数据,ChatGPT 极易输出有害内容。为了解决这个难题,OpenAI 必须为其开发内容过滤器。

2019 年,Sama 公司在肯尼亚雇佣大量工人,并声称帮助他们摆脱了贫困。

OpenAI 证实,Sama 公司雇用的肯尼亚员工确实在帮助 ChatGPT 过滤各种有害内容。该公司发言人表示,“我们的使命是确保人工通用智能有益于全人类的福祉,也一直在努力打造安全有用的 AI 系统、控制其中的偏见与有害内容。只有对有害(文本和图像)进行分类和过滤,才能最大程度减少训练数据中所包含的暴力和性内容,同时创建出能够检测有害内容的工具。”

2 “做这份工作是一种精神创伤”

TIME 还采访了四围名 Sama 公司员工,他们表示自己的工作体验可以用“精神创伤”来形容。有三名工人表示,他们每天需要阅读 150 到 250 条材料片段,这些段落的范围从 100 个单词到 1000 多个单词不等,算起来,平均每小时他们最多要阅读和标注超过 2 万个单词;但 Sama 对此表示质疑,称员工每天只需要审查 70 条片段即可。

TIME 在报道中提到,Sama 组织的三支数据标注团队中,每个小组都专注于一个主题。大多数成员的月工资为 170 美元,奖金最高不超过 70 美元。如果准确性特别高或者标注速度特别快,还能赚到额外的佣金。

报道称,以一天工作九个小时计算,那么税后时薪最低为 1.32 美元;如果能够达成所有考核要求,则时薪会略微上涨至税后 1.44 美元。Perrigo 还强调,肯尼亚不存在充分就业市场,所以很难对收入做出公平比较。不过在这批员工入职时,内罗毕接待员岗位的最低工资为每小时 1.52 美元。

Perrigo 发布推文称,“这样的工作条件也揭露出 AI 繁荣之下的阴暗面:AI 的发展,依靠的就是这群默默无闻的低薪工人。尽管他们为价值数十亿美元的新兴产业做出贡献,但仍然被严重边缘化。”随着微软与 OpenAI 的合作加深,OpenAI 的市场估值早已超过 300 亿美元(约 2072 亿元人民币)。

媒体 Quartz 也曾报道过此事,Sama 方面主动联系并对薪酬做了澄清,称其在东非地区设定的工资是其他内容审核公司的几乎两倍。“Sama 设定的月薪在 210 美元到 323 美元之间,达到肯尼亚最低工资的两倍以上,也远远超过了最低生活需求。相比之下,美国同类岗位的工资在每小时 30 至 45 美元之间。”

另外,Sama 还表示会为当地员工提供其他个人福利,包括咨询、冥想、祈祷、护理、游戏和本地艺术表演,“以及有益身心健康的全面餐饮服务”。但 TIME 在采访中得知,工人们为了完成每天的绩效考核,往往没时间去接受这些咨询指导。两位受访者表示,Sama 公司的管理层拒绝与他们一对一交流,转而用小组会议的形式代替。

2022 年 2 月,Sama 公司结束了与 OpenAI 间的服务合同,比预定计划提前的 8 个月。根据 TIME 的报道,双方的另一个数据标注项目已经启动,这次是处理包含非法内容的图像。OpenAI 发表了一份声明,称图像集中包含非法内容是因为沟通失误。

今年 1 月 10 日,Sama 公司宣布取消一切涉及敏感内容的剩余工作,包括与 Facebook 签订的价值 390 万美元的内容审核合同。接下来,Sama 将专注于为计算机视觉数据提供标注服务。

原文链接:

https://www.datanami.com/2023/01/20/openai-outsourced-data-labeling-to-kenyan-workers-earning-less-than-2-per-hour-time-report/

声明:本文为 InfoQ 翻译,未经许可,禁止转载

点击底部阅读原文访问 InfoQ 官网,获取更多精彩内容!

今日好文推荐

平台工程不适合中国企业?这个观点值得反驳!

科大讯飞回应用“绩效回溯”变相降薪;OpenAI逆天开放API,价格打骨折;推特裁员超70%,马斯克给剩下员工“画饼”?|Q资讯

直接到云上做开发?先等等,这个方案还“半生不熟”

“干净”的代码,贼差的性能

相关阅读

  • 看大厂设计师如何拆解搜索功能

  • 01 项目背景02 发现问题与设计策略03 搜索「建议」页设计04 搜索「联想页」设计05 搜索「结果页」设计06 项目总结搜索是每个产品必不可少的链路,影响着产品的体
  • 外媒:Arm计划通过IPO融资至少80亿美元

  • 【环球网科技综合报道】3月6日消息,据外媒报道,软银集团旗下的芯片设计子公司Arm很可能通过首次公开募股(IPO)筹集至少80亿美元。知情人士透露,Arm预计会在今年4月下旬秘密提交IP
  • 微软推出全新人工智能模型Kosmos-1

  • 【环球网科技综合报道】3月6日消息,据外媒报道,微软于近日推出了多模式大型语言模型Kosmos-1。据悉,Kosmos-1可以处理文本、图像、音频和视频等内容。比如,该模型可分析图像的内
  • 你看到的网络美女,可能是个AI涉黄骗局

  • 图源:小红书@爱旅游的小多01AI美女,越来越多AI的作画能力,越来越厉害了。之前人们还在嘲笑一些AI绘画智障,把萝莉画成肌肉男,然而短短两个月时间,AI就打了很多人的脸。AI画出来的
  • 卫河生态治理绘就水清岸绿新画卷

  • 竣工后效果图春意渐盛,牧野向新。3月2日,记者从市城管局获悉,连日来,我市重点民生项目——卫河生态治理工程(新飞大道桥至建设桥)正进行得如火如荼。该项目将优化河道生态绿网体系
  • 滑雪倒计时!七星岭滑雪场闭园时间确定啦!

  • “冰雪消融时万物始归春随着滑雪场的闭园,冬天大抵真的要结束了……关于七星岭景区闭园通知随着气温回升,积雪融化2022-2023年雪季已接近尾声七星岭滑雪场决定于2023年3月7日

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • 记录一下从编译的角度还原VMP的思路

  • 本文为看雪论坛优秀文章看雪论坛作者ID:wx_御史神风一摘要1.1 关于代码优化与还原关于还原,我认为难点是工作量大,需要自动化提升效率。还原和混淆是一对反义词,相同点是保证代
  • 爆款新课!Unidbg 模拟执行精讲

  • 在当今移动应用开发领域,Android Native 应用已经成为大量应用的核心。攻防双方都经常采用反调试、加壳、加密等一系列安全措施来保护Android Native 应用的核心算法,以避免安
  • 看大厂设计师如何拆解搜索功能

  • 01 项目背景02 发现问题与设计策略03 搜索「建议」页设计04 搜索「联想页」设计05 搜索「结果页」设计06 项目总结搜索是每个产品必不可少的链路,影响着产品的体