读创/深圳商报记者陈姝
△王小川(图片由搜狗提供)
“构建全媒体传播格局”是“2018媒体融合发展论坛”的主题。如何进一步加快传统媒体和新兴媒体融合发展,充分运用新技术新应用创新媒体传播方式,占领信息传播制高点?在论坛举行前夕,搜狗CEO王小川接受读创专访时表示,媒体的融合是平台和内容“双打通”,受众无障碍获取资讯。搜狗近年来深耕人工智能等领域,围绕自然交互、知识计算两大方向布局,在输入法语音识别、虚拟主播、软硬件翻译等方面已取得突破性进展。
媒体融合是平台和内容的打通
王小川认为,媒体的融合包括平台的打通以及内容的打通,受众不再受介质的影响,无障碍获取资讯。
首先是在浩如烟海的信息中,帮助平台的使用者快速找到所需信息。作为搜索引擎公司,搜狗已经在为知乎、今日头条等平台提供站内搜索服务;
第二,通过技术让语音、图像、视频等内容也可以转化成语言,突破介质的屏障。他说,人工智能技术可以让语音-语言、图像-语言、视频-语言、语言-不同语言之间实现无障碍的转换。搜狗输入法语音识别、图像识别、唇语识别、虚拟主播、机器同传、软硬件翻译产品,可以帮助媒体打破形式的局限;
第三,提升各平台媒体工作者的工作效率。一方面,通过底层技术帮助媒体完成速记等,如搜狗推出的搜狗录音翻译笔,可以帮助记者做录音转写和同传,把记者从整理速记和翻译的事务性工作中解放出来;另一方面,帮助用户筛选有全球价值的信息,搜狗搜索独有的微信搜索、知乎搜索、英文搜索、学术搜索都是媒体工作者的好帮手。
围绕两大方向布局人工智能
2018年的《政府工作报告》提出,“加强新一代人工智能研发应用”“发展智能产业”。结合自身能力特点,搜狗已经建立起“以语言为核心”的人工智能战略,围绕自然交互、知识计算两大方向布局业务。
在产品上,搜狗已经有问答、对话、翻译、语音四类AI产品。搜索和输入法作为搜狗的两大核心业务,在AI技术创新的加持下,通过数据和技术不断提升产品体验,拓深护城河,也带给了行业新的思路。据艾瑞咨询报告显示,搜狗搜索以17.8%的移动搜索份额,稳居中国第二大搜索引擎。搜狗手机输入法则继续稳居国内以DAU计的第三大手机应用,日活跃用户超3.8亿,同比增长36%。
在技术层面,搜狗近期斩获了多项国内外AI赛事第一,包括国内顶级NLP行业会议NLPCC竞赛单元语义理解比赛冠军;在语音合成领域最具权威性、广泛性的国际评测比赛BlizzardChallenge大赛中获得可懂度和语音停顿两项子任务第一;搜狗的视觉研究团队还获得了CVPRWAD2018挑战赛冠军。
在应用层面,搜狗医疗搜索频道搜狗明医具备智能自诊功能,首创了基于人工智能技术的智能诊断助手,模拟医生与病人对话的模式,与用户进行更自然、更智能的病情沟通。目前,其支持的可诊断症状种类较2018年一季度增加两倍,已经覆盖用户症状查询的90%以上。在翻译领域,今年上半年,搜狗先后推出了搜狗旅行翻译宝和搜狗录音翻译笔两款AI翻译硬件,这也是搜狗AI实用化落地的重要的一步。
“虚拟主播”应用场景广泛
今年7月11日,在香港RISE科技峰会上,王小川就曾现场展示了全球首个虚拟主播。搜狗使用央视主播姚雪松1.5小时的音视频数据,结合语音、图像等多模态信息进行联合建模训练,输入一段RISE大会的文字稿,就快速预测生成了与真人无异的播报效果,看起来就好像姚雪松本人亲临现场进行播报。
王小川表示,虚拟主播的推出源自搜狗在语言领域的积累与能力。该技术结合了人脸识别、人脸建模、语音合成以及深度学习等多项前沿技术,能将任意文本转化为相应的唇语,为用户提供多模态的交互体验并具备高度的可定制性。虚拟主播在技术上的实现意味着AI走向了音视频的富媒体表达,刷新了AI的边界。目前,搜狗的语音识别(ASR)目前准确率已超98%,日均语音输入调用次数峰值达4亿次;唇语识别(Lip-readingrecognition)在垂直应用领域中的准确率超90%;语音合成(TTS)支持23种音色、个性化合成以及情感迁移、唇语合成等。
他说,搜狗虚拟主播的应用场景非常广泛。首先可以用于内容生产行业,教育行业。如应用到教育行业,虚拟主播可以成为脾气很好的老师,不厌其烦地一遍一遍帮助用户进行发音口型指导。随着交互性的增强,虚拟主播未来还可以帮助服务行业更好地进行用户服务,替代部分重复性的服务工作,如银行的柜员,经常会重复相同的流程,虚拟形象可以替代人完成系列服务。虚拟主播未来也可以发展成为带屏智能音箱上的虚拟私人助理,用户可以从单纯与声音的交互变成与一个逼真的虚拟人物的交互。
自研录音翻译笔支持33种语言
搜狗的翻译技术和语音技术目前在业内领先,王小川称,公司也一直在不断优化相关产品,从而帮助媒体工作者提升工作效率。
翻译方面,搜狗拥有全球独创的神经网络机器翻译技术,能够保证整个翻译决策过程的连续性,使得翻译出的句子在流畅度上更优异。同时,搜狗在“国际学术赛事WMT2017”中,获得人工评价指标的双向第一名,中英机器翻译全球第一,并且获得主要机器指标BLEU第一名。
语音方面,搜狗的语音识别技术实力持续保持业界领先。作为国内语音输入量排名第一的公司,搜狗用户每日语音输入请求量峰值达4亿次,每日产生语料规模24万小时,为搜狗语音研发提供了大量的真实语料数据;同时搜狗自身在深度学习方面拥有雄厚的技术积累。
结合两项技术优势,搜狗自研了“搜狗录音翻译笔产品”,帮助媒体朋友、学生完成语音转写的繁复工作。目前,该产品实时转写的识别准确率在一米范围内已超过90%,3秒极速上屏,最快可支持400字/分钟的高速识别,翻译准确率则超过90%,其水平和效率远远超越了人类。搜狗录音翻译笔还支持包括中、英、日等33种语言的同传互译,能彻底取代传统录音笔。随着AI技术的进步,在识别准确性和翻译的信达雅方面,产品还将不断提升,使其更加实用、易用。
留言与评论(共有 0 条评论) |