目前人工智能(AI)最热门的应用之一是对话机器人。虽然大部分智能对话机器人运行得相当不错,但如何组织训练数据来构建和更加准确的训练对话机器人已经成为其广泛采用的瓶颈。因此Dashbot要开发一个专门用于创建和优化对话机器人的数据平台。
最近在自然语言处理(NLP)和迁移学习方面的进展有助于降低构建对话机器人的技术门槛。用户无需从头开始创建整个NLP系统,而是可以借用预先训练好的深度学习模型。现在的情况是,对话机器人似乎在一夜之间无处不在(特别是在国外网站,不经意就能弹出一个小小的对话窗口,而其背后就是一个对话机器人)。
对话机器人的开发和使用的突然激增。根据一项预测,对话机器人市场的年复合增长率为24%,对于科技投资者来说,这是一个潜在的利润丰厚的领域。问题在于会话数据是一团乱麻。各组织正在投入大量数据科学和数据工程资源,准备大量原始聊天记录和其他会话数据,以便用于训练对话机器人。
这个问题可以归结为:如果没有大量的人工工作来准备、组织和分析用于训练的大量文本数据,对话机器人就不能很好地工作。保持机器人的高效运行还需要持续的优化,这也是Dashbot帮助实现的自动化的目标。
虽然一个好的对话机器人似乎工作起来毫不费力,但要做到这一点,还有很多幕后工作要做。对于初学者来说,作为训练数据的原始文本文件必须进行清理、准备和标记。句子必须串在一起,问题和答案在对话中分组。作为这个过程的一部分,数据通常从数据湖中提取,并加载到存储库中,在存储库中可以查询和分析数据,比如关系数据库。
接下来,还有数据科学工作。在第一阶段,机器学习算法可能有助于识别文本文件中的集群。接下来可能是主题建模,以缩小人们正在讨论的主题范围。可以执行情感分析,以帮助识别与用户挫败感最高相关的主题。
最后,利用意图对训练数据进行分割。一旦意图与特定的训练数据相关联,那么NLP系统就可以使用它来训练对话机器人回答特定的问题。一个对话机器人可以被编程来识别和响应100个或更多的个人意图,并且它在每个意图上的表现都随着训练数据的质量而变化。
Dashbot成立于2016年,目的是尽可能多地实现这些步骤的自动化。并在将训练数据移交给亚马逊Lex、IBM Watson和谷歌Cloud Dialogflow等NLP对话机器人供应商之前,帮助尽可能及时地做好数据准备。
不需要数据工程师和数据科学家花费数天时间处理大量的文本文件,使用Dashbot的产品,名为“会话数据云”(Conversational data Cloud),可以自动完成将原始文本转换为精制JSON文档所需的许多步骤,这是主要NLP供应商所期望的。
很多企业的呼叫中心记录都堆积数据湖之类的数据库中。使用Dashbot自动化数据平台,就可以利用它,在几秒钟内改变它。
Dashbot产品分为三个部分,包括用于ETL和数据清理的数据组装工场;一个报告模块,用户可以对数据进行分析;还有一个优化层。
数据准备发生在数据工场上,而分析层对提出数据问题很有用,可以帮助阐明问题,比如:“在过去的七天里,有多少人打电话来询问我们刚刚推出的新产品线,有多少人对此感到不满?”
优化层可以帮助用户识别对话机器人被错误训练的实例。为了训练对话机器人,NLP系统必须具有与给定意图相关联的正确训练短语。Dashbot有一个混淆矩阵,可以识别注册意图和基础训练数据之间的不匹配。
例如,当输入短语“嘿,我想预约周六的驾照考试”时,对话机器人可能会回答“好吧,你想取消预约。这个训练短语的意图是错误的,你的机器人的反应是错误的。所以你需要开始消除歧义。
除了识别意图和培训短语之间的不匹配之外,Dashbot产品还可以向对话设计人员显示需要新的意图的区域,每个区域都有其必要的(和适当的)培训短语。
这家位于旧金山的公司已经获得了820万美元的风险投资,并吸引了Geico、Intuit和谷歌等客户。
留言与评论(共有 0 条评论) “” |