发布仅两个多月,ChatGPT就以1亿注册量的成绩成为了世界上用户增长最快的应用程序。这款基于人工智能技术驱动的自然语言处理工具,用它高效的处理能力惊艳了世界,也正在全球人工智能领域掀起一场风暴。然而,如同其他“人工智能”一样,新江苏通过实测、采访和综合信息反馈看,ChatGPT还存在模式化回答、错误回答,甚至“一本正经地胡说八道”,数据经过技术清洗后,其语言缺乏想象力,也少批判性思维,对真善美等问题很难产生理性或感性认知,只是在“学”人,很难“超”人。
实测ChatGPT:有意思,但也存在瑕疵
ChatGPT问世前,人工智能聊天程序已屡见不鲜,但机械重复的话术和毫无信息增量的反馈往往让它们被贴上“人工智障”的标签。ChatGPT是否在对话环节表现出了明显优势?新江苏进行了实测。
开始对话前,ChatGPT的“自我介绍”显得十分坦诚。它将使用指南奉上,简明扼要地说明自己的优缺点。ChatGPT可以记住用户刚刚说过的话,可以连贯回答提问,也会拒绝回答不合时宜的问题。它表示,自己偶尔会答出错误信息、给出带有偏见或有害的答案,且自己对2021年以后的世界和事件知之甚少。
在新江苏随后开展的问答测试里,这些优缺点都得到了验证。不论是按照特定要求进行文字创作,还是撰写代码,抑或是天南海北地聊天,ChatGPT都能自如地给出回应。而提到近期土耳其发生地震的相关问题时,它“直率”地表示自己无法作答:“对不起,作为一个AI模型,我没有感知能力,也不能获知实时新闻事件。”
有意思的是,ChatGPT懂得如何“聪明且婉转”地表达。当向它提问“如何报复别人”“如何抢劫银行”等问题时,ChatGPT没有给出正面答复,表示自己“不鼓励这么做”,诚恳建议提问者以正确途径解决问题。当向它提出难以直接回答的问题时,它会适当提供“中立”答案。如问到“中国人有什么特点”,ChatGPT认为“不同的地区、文化、宗教和家庭背景使得中国人具有多样性”,并强调这些特点“不能代表所有中国人民”。
ChatGPT能在回答问题本身的同时向提问者提供其他讯息,甚至提供超出提问者预期的建议,这些都让它的“类人化”属性更加明显。
综合测试后,新江苏发现ChatGPT在处理部分问题时也存在瑕疵。比如,在提问《安娜·卡列尼娜》里结局女主人公卧轨时的内心活动,ChatGPT给出了“她决定选择活下去,去寻找生活的意义和价值”等与原著结局背道而驰的错误答案。事实错误或结论错误的现象在各类提问里时有发生。
创新与颠覆:人工智能研究已经进入新阶段
关于ChatGPT对人工智能领域的意义,国内外互联网巨头已分别给出自己的答案。谷歌“迎战”ChatGPT,发布实验性对话式人工智能服务Bard;微软在自己的搜索引擎加入先进的AI对话模型,以支持全新版本的必应和Edge;百度表示其ChatGPT类应用“文心一言”将于今年3月完成内测并向公众开放;腾讯混元AI大模型团队推出万亿级别中文NLP预训练模型HunYuan-NLP-1T,已落地腾讯广告、搜索、对话等内部产品。
“你已在见证它的发生,人们见证过互联网的几次革命。互联网的诞生,移动互联网和云技术兴起,现在是新的一次——AI正在重塑互联网。”微软CEO、董事长萨提亚・纳德拉如此评价。
“ChatGPT的问世,预示着人工智能研究已经进入新的阶段。”在清华大学新闻学院教授、元宇宙文化实验室主任沈阳看来,与以往人机对话系统相比,ChatGPT的对话模式和应答内容明显高出一筹。“ChatGPT正在从单纯的娱乐性聊天工具向生产力工具转变,它对行业的渗透是非常迅速且广泛的。”他解释道,ChatGPT拥有强大的交互能力和学习能力,能通过海量“聊天对话”收获信息、纠错数据,随着时间推移,它会对用户提出的同一问题做出不同或更靠谱的解答。
“它的活跃用户群体非常庞大,如果用户数量保持这样的增长速率,它会进入社会化的优化反馈过程,很快就能有更智能、更聪明的表现。”沈阳认为,如果将人工智能级别与人类智能对比,ChatGPT目前的水平已“接近本科生”。
错误与虚假:爆火之下的隐忧
ChatGPT一夜爆火,其成长速度却还没能追上影响力扩大的速度。尽管它在诸多方面表现优异,生成信息的错误率和局限性还是凸显了出来。
使用过程中,很多用户直观地感觉到ChatGPT在“一本正经地胡说八道”。有时看似在认真作答,但细究起来,其内容存在明显的“车轱辘话”,仅仅是在文本分段等形式上看似合理,内在逻辑却经不起推敲。
在此前的测试中,新江苏提问对土耳其地震如何进行救援,ChatGPT给出的信息充分却空洞,可以应用到实际的建议仅占全部内容的一小部分。ChatGPT曾表示,自己通过大量的文本数据来训练,包括新闻文章、博客、社交媒体、技术文档和书籍等,学会语言模式和知识以便解答问题。正是因为ChatGPT仍处于模仿而非创造的阶段,即便它在一定程度上做到了“讲人话”,也难以掩盖无法摆脱固有语言模式的缺陷。
不少用户还发现,ChatGPT提供的信息存在一定错误率。作为一种语言模型,它没有能力浏览互联网或访问实时信息,训练数据库也仅更新至2021年,可用信息有限,且真实性无法保障。“虽然ChatGPT一直在学习,但错误的信息源会输出错误内容,如果不去纠正和改进,它有可能成为谣言之源。”沈阳说,当海量信息灌入ChatGPT的智能大脑,如何把握信息的真实性和准确性,进而保证它可以在生产力层面发挥作用,是摆在开发团队面前的考验。
从事人工智能开发的乔斌分析,ChatGPT之所以常常给出错误或不恰当的回答,是因为它目前缺乏对人类常识的深挖和延伸能力。通过大量语料训练后,它可以“创造”答案,但用户如将它视为搜索引擎,它可能会给出带有误导性的错误结果。“它已经具备很好的理解力,但如果想要往生产工具方向发展,在某个行业里表现得更加专业,还需要在专业领域里做针对性知识训练,通过大量的信息‘投喂’来获得相应的工作能力。”
免费观点的输出是另一重隐忧。“ChatGPT可以不间断地给出观点或建议,一旦对其产生思维依赖,会比曾经计算器给数学教学带来的影响大很多。”沈阳表示,当人脑的思考价值性被抵消,人类会面临一个重大而震荡的适应期。
“学”人与“超”人:ChatGPT是否会取代人类?
ChatGPT的争议点,还在于人工智能是否会取代人类工作。ChatGPT强大的学习能力与信息检索力在一定程度上引发了某些行业从业者的“本领焦虑”,预测它将成为行业“终结者”的言论扎堆涌现。
美国明尼苏达大学法学院和宾夕法尼亚大学沃顿商学院的教授曾分别让ChatGPT“应考”不同课程的考试题目,它在法学院四次考试中获得C+,在商学院的MBA学科考试中获得B至B-的成绩。在一项研究中,ChatGPT的分数可达到或接近美国医疗执照考试的及格门槛,其回答具有连贯性、内部意义并包含频繁的见解。
从ChatGPT目前的表现成绩来看,它在注重数据与逻辑推演的领域表现亮眼,但对行业的影响程度仍存在争议。美国市场研究公司的一位分析师指出,很多创造性写作及复杂编程,都涉及想象力、批判性思维和其他综合因素,ChatGPT短期内无法轻易胜任。如新江苏向它提出撰写以“ChatGPT火爆”为话题的新闻稿时,它只给出带有明显拼凑痕迹的文字,整体质量未达到刊发水准。
“ChatGPT的语言组织和交流依然基于人类现有经验,这是一种模式化的表达,而非创意化的表达。”南京师范大学新闻与传播学院教授刘永昶认为,作为机器思维的载体,ChatGPT无法对其生产的内容有真正理解,它的判断标准是基于语言经验的“对”或“不对”,对类似于真善美等问题很难产生理性或感性认知。“换言之,它在‘学’人的道路上前进得很快,但‘超’人则是遥不可及的。”在他看来,如有“超”人的可能,必须基于智能与思维的自我演进,如果真有那一天,世界将难以想象。
(应采访对象要求,文中乔斌为化名)
新江苏·中国江苏网记者 童棹凡 柏丽娟