浅谈AI文章生成器的几点开发思路

AI、生物工程、纳米科学被称为21世纪三大未来技术,今天我们看一个小场景,AI文章生成器。顾名思义,这个工具的目的是让计算机能够像人类一样会写作,能够撰写出高质量的专业文章。




先看个不靠谱的,在之前热过一段时间叫狗屁文章生成器,可以根据关键字生成近万字的车轱辘话。这个生成的文章直接把我看哭,如果大家想感受下效果,可以尝试一下:

狗屁文章生成器链接:suulnnka.github.io/BullshitGenerator

从技术角度讲,一个文章模板库、一个段落随机生成器、一个话术库完全就能实现上述功能,这个比较简单。



但是,最终效果虽然比较简单,但模板库、段落生成器、话术库其实构成了文章生成器技术框架的第一层,第一层解决的是文章结构问题。


模板库

一篇典型的文章,应该包括标题、摘要、正文、引用(图片、音、视频文件、数据图表、其它说明性文件附件等)、审校等5个部分,而正文从结构上看有总分式、并列式、分述式、对照式、递进式、纵横式等6种。模板库为文章提供素材容器和结构性框架,并为可能的交互和参数干预提供接口。


段落生成器

段落生成器生成和管理段落,这是文章分治策略的一种体现,一篇文章有若干个段落组成,每个段落在特定任务(Special Task)的驱动下进行生成,并根据实际情况进行对应的衍化和分生,它的底层逻辑是对大纲语句(Outline Sentence)进行具有针对性的场景渲染(Scene Render),从而丰富文章内容。


话术库

话术库为经典文章、段落、语句、辞藻的收录库,它本质上是一种语义模式的积累机制,在段落生成时,可根据实际场景渲染的需要,进行直接引用转录(转化后再引用)。




基于上述技术,一篇没有灵魂、可能会胡言乱语没有逻辑的文章就写好了,接下来,我们谈谈让文章变得具有主题、逻辑通顺,能够使其真正成为文章的实现思路。



逻辑树

什么是逻辑树?拿苏格拉底三段论举例:

P:凡人要死

Q:苏格拉底是人

R:苏格拉底要死


先有P,再有Q,最后推出R,而不能随意颠倒,这就是逻辑性。比如你不能像这样:

R:苏格拉底要死

Q:苏格拉底是人

P:凡人要死

逻辑让文字和数据变成人们可以接收的故事、论证或其它什么对阅读者有帮助和启迪的内容,从而使文章具备了其存在意义,也即有了灵魂。逻辑树工作在文章生成器框架的第二层,第二层的目标是赋予文章逻辑。


世界著名咨询机构麦肯锡经常将逻辑树和金字塔逻辑模型作为解决复杂问题的咨询模型,常见的逻辑树结构有三种,如下图:


技术上,我们可以基于上述的逻辑模型构建以论点为根的树状逻辑结构,从而可以在后续利用分治算法解决各级叶子问题并逐步向上递归,追加和合并支撑性资源,从而佐证最终的论点。在结构上,每个节点我们称之为一个观点(Viewpoint),在结构阶段,每个观点都是一个句子,最终由段落生成器根据句子生成段落。

同时,审校应该基于专家经验和逻辑树进行交叉验证,从而为文章的生成和校验提供建议。




到目前为止,我们生成了一篇具有相当可读性的文章,逻辑通顺,可以顺畅的观点,那接下来做的,我们就是把它提升为一篇好的或优秀的文章。



在文章生成器第一层、第二层,我们通过逻辑树贯穿了各类文章素材,从而使文章具有故事性和论证能力,但问题是,目前为止,我们都是基于通用技术、通用素材和广泛性数据构建的文章内容,因此,在其独创性、新颖性上往往做的不够,因此,我们必须在第三层原创性上进行启发和引导,使文章具有更高的专业价值。


原创性因子库

这是一个基于作者自身的偏好学习系统,本质上是基于作者的专家经验或个人观点而建立的论断库(Assertion Repository),比如你对节食的看法是运动占80%,饮食占20%,从而区分开别人运动和饮食各占50%的观点。论断库的引入为文章的场景构建偏好维度,从而使其有别于其他的同类文章,并在文章撮合资源时对符合你论断的观点赋予更高的权重。


自动审校规则库

该模块通过不同的规则设置构建最佳实践集合,从而在进行文字生成时建立优化性导向。使其在不同的阅读维度上,如剧情反转、气氛渲染、带动节奏等方面能够注入专家经验。




注入上述服务后,相信生成的文章质量有进一步提升了,后续,就这个话题我会就NLP、神经网络、RNN等进行进一步的技术探讨,并尽可能的提供一些类似的产品供大家体验。欢迎对这个主题感兴趣的朋友随时和我讨论交流。

发表评论
留言与评论(共有 0 条评论) “”
   
验证码:

相关文章

推荐文章