专家们口中的AI,到底离我们有多远?

最近两年人工智能板块非常热闹,不管一级市场还是二级市场涨的都非常多。人工智能板块也推出了非常多的政策,从新一代人工智能发展规划把人工智能上升到国家战略,再到国家公布人工智能四大平台,在政策层面已经把人工智能上升到了非常高的位置。在此背景下,A股的人工智能板块也走出了波澜壮阔的大行情,科大讯飞等人工智能标的涨得都非常多。但是2018年经过大半年时间,AI板块沉寂的时间比较久,之前涨的比较多的公司现在都已经跌回来了。但是虽然计算机板块的行情处于这样的状态,人工智能的产业化落地却在加速。接下来就请捷通华声副总郭林郭总对人工智能产业化落地的进展情况进行解读。

一、公司情况介绍

捷通华声成立的历史比较长,2000年就成立了。但是成立之初还没有现在比较火的人工智能这个概念,所以那时我们也不知道自己是在做人工智能,当时做的是语音领域。说白了就是从语音合成起家的,捎带着做了一些手写输入、图像领域这方面的,都是局限于人机交互领域的核心技术。

01

核心技术

2011年左右,现代人机交互技术、人工智能技术开始深度学习,一些核心引擎和开源程序都浮出水面,现代意义上的人机交互技术上了新的台阶。在此基础上,我们抓紧脉络及时转型,把公司的全部精力和力量放在人工智能的人机交互领域。因为我们之前有比较好的基础,不管是在语音领域还是图像生物特征等领域,我们都有一些比较好的技术积累和沉淀。另外我们长期背靠清华大学,从管理团队到核心技术的研发合作,包括股权结构等很多方面都跟清华密切合作。因为有这些条件,所以我们抓住时机,在人机交互的各个领域都做了一些有益的工作。

现在我们对外宣称是全方位的人工智能公司,所谓全方位无非就是我们希望能够让机器具备能说能听能读能辨人能识人能思考会判断,最终希望能达到像人一样跟人去交往的目的。要达到这种目的就不光是语音,包括语义、图像生物特征等很多领域都需要核心技术的支持。目前我们拥有语音合成技术、语音识别技术、语义理解技术、图像识别技术、手写识别技术、麦克风阵列、声纹识别、人脸识别和机器翻译。我们用这12类人工智能的核心技术,结合目前市场需求组合出一些商业形态。

02

五大模块

现在我们现在有五个大的模块,公有云服务平台向产业界提供全方位的技术和能力,比如语音云、客服云等方面智能语音方案的服务。但是本身我们提供的是平台,具体跟市场的对接可能还要有合作伙伴开发者大家共同去做。

第二个模块是智能物联网模块,像智能电视、智能车载、智能家居、语音助手输入法都属于物联网。我们因为发展开拓的时间比较早,所以物联网领域比如车载导航仪、设备语音合成和手写输入,我们是主力的技术提供商。但是目前市场竞争比较激烈,我们也没有把它作为主要的发展方向。

第三个是能力平台,它跟公有云服务的区别是能力平台给企业和集成商提供人机交互的能力,这些能力交给集成商以后,结合自身业务形成解决方案。因为我们的能力种类特别多,所以互相组合以后可以让客户灵活挑选,实现企业的AI业务智能化升级的功能。这是我们目前比较主要的盈利模式。

第四是重头的全智能客户服务解决方案,简单的说可以叫智能客服。现在比较多的实体机器人语音导航、智能外呼语音分析数据系统等都是泛智能客服领域,按照现在人工智能的技术能够达到的效果,我们做出解决方案,这种方案相对比较实用,能够解决很多行业很多领域比如人力缺乏,或者服务体验感等问题。这是目前比较主流的落地方案,就是我们的全智能客服解决方案。

我们提供能力给经销商,利润的大头肯定叫经销商赚去了,我们实际上只赚这些能力的钱。所以有一些比较成熟的方案我们也会自己去做,做出来以后直接为客户服务。比如一些语音识别转录系统,比如司法医疗各种领域的定制化语音转录,还有企业事业单位的智能会议系统,开会的语音自助、智能会议,还有人员声纹这些综合身份认证使用我们的多维生物特征识别系统,还有把名片、文本、票据、证件照组合起来进行识别的图像识别系统。这些都是我们面向企业提供一体化定制化的人工智能产品。

03

市场火爆原因

第一是国家的政策支持比较明确;第二是市场各行各业都有这方面的需求,能够通过人工智能方法提高效率、降低成本、提高用户的体验;第三现在提供这种技术和产品的公司相对比较稀缺。所以在政策的支持和市场的强烈需求下,企业又比较少,这样就可能产生效果。目前可能有些产品还处在发展中,但是有些市场需求已经变得很迫切。所以我们现在的发展也是结合市场的需求,不断调整自己的商业模式,但是我们还是以核心技术为主的偏技术型的公司。

二、Q&A

1、17年国家当时颁布了很多人工智能的政策,比如新一代人工智能发展规划,后来也成立了一些人工智能产业联盟,且在海南、广东、湖南、厦门各地都出了很多税收优惠政策。这些政策是声音大雨点小还是实实在在的,这些政策开始落地的效果怎么样?

横向比较一下新能源和节能环保等领域,这些都是国家全力支持的政策,一定会有各种优惠。各地的政策主要是希望能够吸引一些做AI的企业家到当地去落地,然后增加税收,包括增加当地的人工智能产业的发展气氛。我认为目前相对来说还是比较盲目的。主要是几方面,一方面这些政策都是一些硬性的规定,边界不是特别清楚。政策表示只要做人工智能就支持,但问题是人工智能的定义是什么?什么样的公司算人工智能公司?这方面的界限其实是很模糊的,所以现在很多地方没有办法划界限,所以就把大数据、信息技术产业、互联网一鼓脑地堆在一起,只要在这个圈子里面都去支持。

另外政府的支持方式主要是财政补贴,但是就是软件的传统主题其实很难界定,国家难以进行监督和控制。所以一般国家希望做一些硬件方面的支持,但是实际上硬件里面的人工智能技术比例可能不一定很大。比如一台设备里用了一些语音识别,可能语音识别在里面只有1%的技术或者是成本,但是它是一台带有人工智能技术的设备了。

作为软件公司得到的支持力度并不是特别大,我们最希望国家能够在核心技术团队的支持上做一些有益的工作。因为我们现在很多核心技术核心算法是由企业来做,企业做这种事情是亏本的。我们以前做一些高新技术的产品和核心技术的研发,主要依靠的是大专院校和科研院所,由国家出钱去做一些底层的研发。现在国家很多方面的布局并不是很清晰,所以都得自己做。像BAT这种公司可以花很多钱做起来,因为它们有钱。对于中小型公司来说,投入可能跟投资人关心的盈利和营收增长形成矛盾。因为投入的越大可能盈利就越高,所以很多人工智能公司开始有些亏损。所以说国家肯定是支持,但是这些政策的效果对于核心技术研发公司来说,可能短期内效果并不是特别有利,但是气氛还是很好的。

2、现在在语音识别还有交互都比较火,市面上存在的公司也比较多,比如说讯飞、云知声等,怎么去看这些厂商的技术实力,或者行业里哪些公司的技术实力比较强?

主要做语音技术的公司就这几家,如果有一些新出来的公司,跟我们、讯飞和云知声还是有非常大的区别的。语音技术方面主要关心的是场景,用在哪个场景上可以赚钱可以落地。这个场景包括四块,一块是核心技术,第二块是外围技术,第三块是数据,第四块是设备。这四样东西组在一起,才能把有用的东西拿到市场去用。

现在拥有核心技术的公司其实非常少,因为它的投入比较大,成本比较高。数据的投入也比较大,需要日积月累。同时数据的标注、收集等都需要花很多钱,这些是老牌人工智能公司的优势。虽然看上去新老公司可能差别不是很大,但其实老公司的底蕴就是核心技术和这些数据,这是新公司很难在短时间内超越的。设备相对来说好办一些,一般自己能做就做,不能做就找合作伙伴去做。现在云之声等都选择了做芯片或者一些人机交互设备,好处就是多了一条腿走路,对营收、利润可能会有比较好的支撑,而且盈利点也会多一些,坏处是力量会分散一些。比如做车载芯片或者设备只能把心思放在车载上,做医疗方面的转写或者输入,主要的心思就放在医疗上,不可能太广泛,渗透到各行各业。

还有就是外围技术,就是语音识别时场景并不一定是现在这种安静环境下拿麦克风直接说话,可能面临一些降噪问题,还有像声源定位、识别方言口音,还有不同语音不同领域的理解。只有解决这些问题,技术才能够真正落地。所以现在有很多新冒出来的人工智能公司,把其中的一部分技术跟设备产品结合在一起,然后大张旗鼓的打旗号,能够很快赚到第一桶金,但是后续市场的推广和可复制性可能会差一点。

所以像讯飞、云知声等都代表着目前国内比较有实力的拥有核心技术,有一定技术积累的公司。但是人工智能的市场需求非常大,所以这几家公司包括我们在内有各自专注的发展方向,很少会有意主动去PK。

3、在语音的下游应用领域,哪些细分垂直行业景气度比较高?

语音技术跟语义的组合非常重要,光说语音识别的应用场景会小很多,但语音和语义结合在一起,它的场景就会无限扩大。所以语音识别和交互,我们认为就是语音识别和语义理解的组合。这个组合现在应用场景多的是智能客服类的解决方案,它的历史也比较长了,从12年左右到现在有六年左右的时间。很多著名的企业或者政府部门都用上了这种产品。由于这些产品的使用带来了一定的效益,也引起了很多行业的关注,所以大家敢花钱在这方面做一些投入了。所以最近每一年几乎都有一款新的可以用来解决各行各业问题的解决方案模式,我们把它叫做泛智能客服模式。

对于这种模式,市场上的应用场景还是比较丰富的,而且现在属于一种共有的状态。比如质检的需求量也特别高,所有呼叫中心话务员的质量检测,包括话务员接听电话的大数据评估和收集用机器人,能够特别高效去完成相应工作,所以这些在市场非常受欢迎。但是用户不知道跟客服打电话的时候,通话都被录音了,然后会把用户进行分析,把话务员的服务态度进行评估和筛选。这个过程用户是不知道的,但都是机器人在做,做完以后还是对相关的企业最有利。

所以现在应用领域很多,但是很多语音识别交互还有识别率的问题,还有口音、方言等都是积累的问题,可能还需要发展过程才能够不断去优化和完善再落地使用。目前比较多的还是这种客服类的解决方案。

4、现在很多语音转文字的产品也在智慧法院里边用,法院领域目前这个产品线的景气度如何?大概的竞争格局是怎么样的?渗透率高吗?

智慧法律市场或者叫法院语音转写市场我个人非常不看好,因为随着信息化3.0的建设,法院现在都是智能化,比如录像录音都已经渗入到每个环节,如果不把它转化成文字,使用效果会非常差。所以我们当时都认为这个市场非常大,而且全国有5万多个法院,检察院还有很多专业的评审系统。

虽然现在法院对语音转写的要求需求量大,但是它的场景非常复杂。因为法院里面庭审时的角色特别多,有审判员、律师、原告、被告、证人,有很多各种不同的人。审讯的领域也非常广泛,不管是婚姻法还是刑法都是不同的领域,不同的案件涉及的专业名词也特别多。法院对识别率的要求严谨性又特别高,所以不管是设备的布局,还是识别的准确率、后期的修改等存在很多问题。不同的法院都会提出不同的要求,这些要求不得到基本的满足是不敢用的。

所以这个领域可能有市场也有需求,但是做起来确实比较难。目前在公检法领域分别在跟人工智能语音技术的公司进行沟通接触,目前可能只有四家公司对接的比较深入,科大讯飞、腾讯、阿里还有就是接我们捷通四家公司,这四家公司有各自的重点方向。虽然这个市场谁都舍不得放弃,国家也很重视,但是它离达到行业的苛刻要求可能还要有一定的时间磨合。所以短期内从盈利的角度并不是很看好,还是投入比较大,但是长远来说它一定是比较渴望技术的市场,随着技术的发展应该能够不断创新不断收获。

渗透率方面,中国95%以上的法院已经实现了信息化3.0,已经做完了信号但是做完以后还没有转成文字。这样要看的就都是图像,而且时间也会比较长,所以转成文字是特别急需的。实时或者线下转成文字都是法院极需要的,但是实现转成文字的困难特别多,我们认为现在的核心技术还没有达到完美解决公检法语音转写的程度。所以目前虽然有很多法院和在试用设备或者产品,但是仅仅是在试用。据不完全统计了解,讯飞、腾讯、阿里和捷通几家累计的法院和检察院单位大概也就是几百家,但是基本上都没有收到多少钱,因为不太符合要求没有办法验收,所以它还是测试阶段。信息化代理人的分布率是95%以上,但是语音转写的分布率应该是可以忽略不计的。

5、现在很多公司都是开放的云平台,并且都是免费在开放,后续想通过云平台收费的难度是不是会比较大?

BAT开放云平台一定是免费策略,因为它们的醉翁之意不在酒,它们在云平台上给顾客进行免费服务的时候,其实是获得了这些客户的相关数据,这些数据才是它们的命脉。互联网类的公司最后要通过大量的流量,所以它解决的是数据的收集,拿到数据以后才实现了它的价值,AI技术在里面产生的价值可以是忽略不计的。因为它都是一些巨无霸企业,所以一定有免费的方式,这种免费方式对我们这些中小型技术型公司其实是一种挺大的影响。

我们在工作上做的要跟它们有区别有特色,互联网公司主要是to C我们主要是to B,我们主要的优势就是定制化。也就是说现在各行各业的需求,尤其像语音技术或者语义技术的定制需求,应该在相当长的时期里是无法逃避的,没有可能说人类在很短的几年里面做出一套完全通用各行各业和各种口音方言的语音识别技术。这是不现实的,一定是结合不同的需求去做不同的定制化。定制化对客户来说,他提出了特殊的要求,支付了费用,他能够独享这个技术。这样他一定不会在公有云上去做这些方面的使用,因为知道数据会被别人拿走。跟BAT来比较,它们做这些事情的成本会比我们高,因为它们的工资和团队的组成跟我们是有差别的,这样我们就有优势了。在to C的云服务角度,我们不会去竞争,因为市场本身是很大的。

6、捷通华声的灵云平台目前的发展情况怎么样,记录的企业用户大概有多少?

灵云平台实际上是生态的名词,不仅包括公有云服务平台,还包括私有云和多种形式的对接的平台。公有云平台跟BAT比较,它们的覆盖面和深度广度都比我们强很多,所以我们主要是针对一些特定的企业用户和合作伙伴,还有开发者社区这些方面。我们在这些领域给客户提供的服务这么多年相当多,不完全统计为近3亿以上的客户提供过相关服务,社区也有数万开发者注册,这个是公有云平台的服务。在私有云平台,我们主要是给客户定制解决方案,做一些落地的产品,所以不同的数据统计起来可能还是比较大的。

以上是华创证券计算机行业首席分析师陈宝健在进门财经的路演实录。

本文首发于微信公众号:进门财经。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。

发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

推荐文章

'); })();