服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

ChatGPT 的中文语料问题

日期: 来源:小众消息收集编辑:Fenng

国内科技行业的朋友们在讨论 ChatGPT 的时候,有个错误的观点:中文互联网没有高质量语料。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

为什么这么说呢?因为 ChatGPT 这事儿咱落后了,落后的原因之一就是中文互联网没有高质量语料。这个似是而非的观点居然能被不少人接受。‍‍‍‍‍‍‍‍

如果中国互联网公司做 ChatGPT,会不会因为中文语料问题而导致产品不行呢?‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

那我想问,OpenAI 这个团队用的什么样的中文语料?不也是来自网络上公开的中文内容吗?难道他们有什么渠道能拿到别人拿不到的语料?‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

这不难理解的吧?

过去也有人问我,说你们团队做的「就诊问问」这玩意儿,训练的数据和内容来自哪里呢?我的观点:其实公开的信息和内容就足够,就能做很多事情了,根本不需要所谓的各种独家内容。就算做不成,那也是技术和产品不行,而不是因为数据内容不行。当然我们也不好意思说这是人工智能,只是用相关技术打造的产品而已。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

就诊问问·小程序版‍‍‍‍‍‍‍‍‍‍‍‍

ChatGPT 说:我们不应该将技术的成败归咎于语料的质量,而是要看技术和产品的表现。

大家能用的语料基本上是同一层面的,也就不存在「高质量」与否的比较。‍‍‍

OpenAI 做出来 ChatGPT 不是他们掌握了什么关于语料内容的秘技。这就好比一个高明的厨师做菜并不一定用的都是独家食材一样,难点之一在于做菜的方法。

甚至都不用列举什么具体的数据。比如有多大比例来自 WebText 2,有多大比例来自 WikiPedia。

只需要基本的逻辑分析就行。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

‍‍

在语料问题上,各家参与者不会有什么区别。‍‍‍‍‍‍‍‍‍‍‍

说「中文互联网没有高质量语料」多少带一点妄自菲薄的心态。现阶段尤其不应该妄自菲薄。‍‍

结论是,英文语料,大家都可以拿到一样的内容。而中文,甚至是更有优势。因为,国内参与 ChatGPT 的公司或团队各自有自己的封闭内容。



题图:由 DeepAI 创建


题外话,ChatGPT 是怎么看待这个问题的呢?‍‍‍‍‍‍‍

我认为中文互联网确实存在大量的高质量语料,并且像 OpenAI 和其他公司都已经成功地利用这些语料来训练语言模型。因此,在进行类似 ChatGPT 这样的技术开发时,语料并不是决定性因素,技术和产品的表现才是最关键的。
ChatGPT

相关阅读

  • 广告门内容部2023开年招人

  • 2023年是广告门成立的第15年,初心不改,继续前行是我们的目标和心愿。为了可以在这个了不起的大时代,继续深度报道和挖掘那些足够让人眼前一亮的内容、公司、品牌和个人,我们坚持
  • 又打起来了。。

  • 开头提醒一下,明晚19:00的直播,咱们请到了九泰基金黄皓老师返场,主要聊一聊成长赛道的新能源、军工、半导体等行业,大家点下面的红色按钮就能预约了。今天卫星互联网涨了很多,好
  • 这次,可能要和大家说再见了

  • 互联网思维可能真的要和大家说再见了。熟悉我们的读者朋友都知道,过去10年,如果没有特殊情况,即使是逢年过节,每晚23点30分,我们都会准时与大家见面。每晚23点30分,当你收到互联网
  • 互联网大佬不缺爱情

  • 作者:何必来源:新摘商业评论(ID:xinzhainews)中国互联网从来都不缺故事,在上世纪末那场互联网造富浪潮中,一个又一个弄潮儿在资本市场上争相起舞,并涌现出马云,马化腾,李彦宏,雷军等一
  • 壁纸 | 水墨中国风系列壁纸来啦!

  • 注:文中壁纸图片版权归原作者所有,请勿商用,侵权删。点击图片可放大保存原图温馨提示关注【宝藏姬】阅读更多精彩内容
  • 壁纸 | 干净护眼的绿色系壁纸系列

  • 注:文中壁纸图片版权归原作者所有,请勿商用,侵权删。点击图片可放大保存原图温馨提示关注【宝藏姬】阅读更多精彩内容
  • 壁纸 | 未来科技风壁纸专题

  • 注:文中壁纸图片版权归原作者所有,请勿商用,侵权删。点击图片可放大保存原图温馨提示关注【宝藏姬】阅读更多精彩内容

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • ChatGPT 的中文语料问题

  • 国内科技行业的朋友们在讨论 ChatGPT 的时候,有个错误的观点:中文互联网没有高质量语料。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍为什么这么说呢?因为 ChatGPT 这事儿咱
  • ChatGPT 在中国的风口:差距多大?

  • 我在几天前的文章里说过,面对 ChatGPT 这样的风口,每家大公司都不想错过。有朋友问我,是不是没发声的大公司对这件事不重视?怎么可能?如果把 ChatGPT 看作技术的话,国内巨头公司这
  • “羊了个羊”火了,再不蹭热点就凉了

  • 过不去第2关的同学看到这个图是不是懵了:这么火,热点海报赶紧做起来一波参考来了THE END欢迎各大创意机构及优秀的广告人投稿投稿邮箱:tougao@dczyk.com作品投稿 | 广告投放 |
  • 从网暴事件能吸取到的教训

  • 作为一名普通网友,从杭州姑娘被网暴这个事件上能吸取到的教训应该是:别在网络上太多暴露自己的生活。真的是认真的建议。作为一个行走网络江湖多年,不知道被网暴多少次的过来人
  • 阿里季度财报简析:乍暖还寒

  • 阿里巴巴公布了 2022 年十二月底止季度 (2023 年第三财季)业绩公告。根据本次财报披露的数据,截至 2022 年 12 月 31 日,员工总数 239740 人。而根据上一季度财报数据,截至 2022
  • 小道通讯 开放订阅说明 (2023 版)

  • 这是我创建的一个内容服务,今年已经是第八个年头。小道通讯目前采用邮件列表的形式。将不定期发布我写的文章,在别的地方看不到的内容,我的目标是:提供独立的稀缺的有价值的观点