2022年全国知识图谱和语义计算大会(CCKS)于2022年8月24日至8月27日在秦皇岛以线上线下混合的方式召开,主题是“知识图谱赋能数字经济”,旨在探讨数字产业化与产业数字化过程中的语言理解、知识获取、知识融合、知识推理等方面的关键技术,以知识驱动创新应用,加快数字社会建设步伐,营造良好数字生态,建设数字中国。鲍捷作为【工业论坛】主席,受邀参加此次大会。
会后鲍捷就知识图谱的相关问题接受采访,内容如下:
主持人:鲍老师您好,请问知识图谱是数据的最终形态吗?
鲍捷:那肯定不会,我们在对知识进行组织的过程中,经历了很长的路。知识图谱并不是今天才有的,60 年前就已经有知识图谱,只是叫不同的名字。在过去的 20 多年中,数据的组织不停地发生变化,一开始是线下数据,分离的数据,然后是大数据,最后到数据仓库、数据湖。所以数据的组织程度是不断地加深的。最近七八年,知识图谱被广泛应用,我们的很多应用领域逐渐解锁,知识起作用的地方和场景越来越多。
但是今天的知识图谱还是非常薄弱的,应该说只有图谱没有知识,甚至可以极端一点说是只有图,没有谱。所以我相信未来 10 年到 20 年,随着应用进一步地加深,我们会逐步加深图的表现力。现在的图谱相较于 20 年前的语义网的研究是非常简单的,可以说是把所有关于知识表现的部分都去除了。这么做是有原因的,因为当时的应用不够充分,另外当时的算法和算力也跟不上。随着过去20 年的发展,图数据库和问答引擎在金融、教育、医疗、军事等各方面的应用,使整个产业链得以建立。今后 20 年内,我们相信“谱”又会加回来,图谱之上的“知识”也会加回来。
在过去的 20 年当中,我们看到这样一个周期,从简单的图谱开始,1999 年我们有RDF,2004 年是OWL ,2009 年有了OWL 2 、RIF,由此实现了一系列表达力的上升。但是自 2009 年之后,我们迎来了表达力的下降。2012 年之后有了知识图谱,随后有了图数据库,所以今天是表达力一个低谷。我相信今后 20 年表达力会再次上升,我们能够表达的知识会越来越多,所以今天的知识图谱肯定不是最终的形态。今后可能还有一个 10 年甚至 20 年的长周期,我们会迎来表达力更丰富的知识图谱。
主持人:那么您认为是否会有新的数据组织形式呢?
鲍捷:答案是一定的,因为数据的组织形式经历了很多次。从最早期的无组织的数据,到后来的文件系统,在文件系统之上,我们构造了数据库系统;在图数据库系统之上,我们又构造了面向对象的数据库系统以及分布式的数据系统,就是Web;面向对象的系统加上 Web 后来又衍生出来了语义网,语义网又衍生了知识图谱,这是清晰的数据组织方式的演进。
那么未来我相信至少会沿着三个方向向前走:
第一,提高数据的可发现性,就是Findability ;像我们现在使用的推荐引擎、问答引擎等这些应用,知识图谱都在其下发挥了很大的作用。
第二,提高数据的 Portability ,即数据的可分发性;过去三四年的时间里,有大量的流程自动化工作,这就提高了数据的可分发性。而这背后也有大量的知识在起作用,它不仅仅是图谱,而是各种各样的规则系统。
第三个很重要的特性是让机器自己去发现新的数据的能力,Reasonability。通常这一点我们把它称为"智能"或者叫做"推理"。在这一方向上,之前的知识图谱是远远不够的。
所以,我相信未来在 Findability 、Portability 和 Reasonability 方面上,数字组织都会进一步增强,所以一定会有更加智能的数据组织方式出现。
主持人:最后请您谈谈知识图谱与我们日常生活有什么关联。
鲍捷:在 2008 年前后,曾经有一个预言,10 年左右时间语义网会成功。但是到了 2010 年前后,大家认为这个预言可能已经失败了,因为那时候是该领域的低谷。但是今天如果打开我们的手机,会非常有信心地说当年的预言是完全得到了验证。因为今天不管是订餐还是打车,还是找房子或者在线教育,(图谱)覆盖任何一个场景。App 里本质上就是一个 Web 页面,只是封装在一个 App 里而已。打开它的底层数据,内部全部都是元数据,即结构化数据。所以说我们今天能够跟小度这种音箱或者 Siri 手机问答系统对话,就是因为背后有大量知识图谱(应用)。今天的搜索引擎,和比如说饿了么、美团这种订餐应用背后也有大量的知识图谱。从线下到线上,从每一个人到每一个房子、每一道菜、每一个餐馆,都是实体,我们花了将近 20 年的时间把这些实体给搬到线上来。这些从线下到线上的映射,使我们构造了一个覆盖世间万事万物的庞大图谱。
这个图谱就是今天我们能够在线上生活的重要一环。比如说今年的疫情,很多行政力量触达不到的地方,社区团购却能使当地的居民可以得到供应,如果没有知识图谱的话,这一点又怎么能够实现呢?所以知识图谱是隐藏在下面的,不被看到,但在生活中的方方面面都得到了应用。
2008 年的四川地震时,我跟当时的导师 James Hendler 讨论一个问题,我当时写了一篇文章,说如果未来有更好的知识图谱让地震现场的居民把现场的情报快速地整合在一起的话,将来的救灾工作会更加顺畅,这可以让更多的生命被挽救。
经过了 14 年的时间,我们今天看到在防疫过程当中,知识图谱就发挥了当年我们预想的作用。所以说不管是从日常生活还是在应急响应当中,其实知识图谱都已经造福了整个社会,不仅在中国,整个世界都是这样。在过去十几年的时间里,整个人工智能产业链上的应用更偏向于统计,但今天会上也有很多老师说了知识在未来会发生更大的作用。所以我相信未来十年天平会再往回转,知识图谱一定还会在更多领域,创造出更多财富,挽救更多生命。
主持人:好的,谢谢鲍老师的分享。
鲍捷:谢谢。
联系我们
商务咨询(需求对接、产品试用等):contact@memect.co
也可联系微信 18500686425,加入智能金融社群,添加好友,请附上姓名、所属机构、部门及职位。
如果您有意愿加入我们,在智能金融领域做一番事业,请联系:hr@memect.co