走向深度学习——大数据背景下“中国古典知识库”的构想

2018-10-15 04:47　来源：光明网-《光明日报》　

　　作者：张力伟（中国出版集团研究员）

　　古籍是今日可见的文言时代的全部话语，在数字化时代到来以后，受到中文信息处理技术界的特别关注，成为后者技术移植和创新实践的实验场。20世纪70年代以来，古籍数字化产生了众多成果。从字库扩容到文本识别，建立起一批切实可行的古籍数字化整理标准，严格流程下加工的古籍文本，规范而整饬，优质的数字化文本不断积累。

　　已有的数字化文本，为阅读和研究提供了极大便利。用户可在某部图书或者在某个平台上的全部图书中搜检需要的字词，进而获取相关的内容。辅之以相应的工具，则可以进行统计、校对、词语匹配、内容聚类等工作，转换为古籍整理的工作语汇，就是说能够用计算机工具来处理文本校勘、词语名物注释、专题资料汇编等任务。

　　这些应用是从古文献领域来说的。从数据科学的角度看，近几年来，以深度学习为代表的大数据相关技术已成为当代科技发展的重要标志，渗透到社会各个领域，对各学科的知识体系及研究方式都带来了很大冲击。作为已有相关数字化基础的古籍整理专业，也需要认真思索，为拓展研究路径寻求有效的方法。

　　过往的学者在史料的爬梳寻检上既有真知灼见，又有宏大设想，只是限于物质条件和工具手段不得实现。如清代章学诚就已认识到索引的功用，提出应将古籍中的人名、地号、书目等一切有名可治、有数可稽者都制成韵编（即音序索引），以收事半功倍之效。但直至清末，这类索引的编制都寥寥无几，究其原因，在版刻刷印时代，不能不考虑篇幅巨大的索引带来的出版压力。

　　作为清华大学中国古典文献研究中心的兼职研究员，近年来我与中心同人合作，把古籍数据化及基于数据化的中国古代知识工程作为重要的学术思考方向，期望借此让古籍文本更有效地服务于实现传统学者的最高理想境界，即梁启超所谓的“探察人间全体之运动进步，即国民全体之经历，及其相互之关系”。

　　柳诒徵曾说，“史之所纪，则若干时间，若干地域，若干人物，皆有联带关系，非具有区分联贯之妙用，不足以胪举全国之多方面，而又各显其特质”。在传统的古籍整理手段下，学者们对此已做了很多尝试。如傅璇琮先生主编的《唐才子传校笺》，从群体观念、以笺证方式考证近四百位唐代重要诗人，将他们的生平和创作分事项列出，一一标举在不同文献中的记载和后人的考订，局部实现了这一学术理想。

　　中心以此为目标与追求，拟进行“中国古典知识库”（Chinese Classics Knowledge Base，简称CCKB）的建设工作，在保障古籍文献内容完整性及内部逻辑的基础上，突破文献原有结构，关注文献中的年代、地域、人物、社团、著述等实体的相关属性及不同实体间的关系，通过这些实体及相互关系对文献进行深层组织和知识管理。历史上的各种事物都在相互作用中发生、演进、湮灭、更新，这些事实散见于各类古籍中，有必要将其按客观的面貌梳理出来。

　　中心参与了国家重大科技文化项目“中华字库工程”，从传世宋元刻本文献中采集了大批经典文本，又参与不同专业出版机构的古籍主题词表及知识库建设工作，积累了较为丰富的经验。目前，CCKB已涵盖数以百万计的实体，千万计的实体属性及实体间关系，但还远不足以覆盖古籍文献内容。

　　知识库不仅能够智能化地保存和管理已有知识，还可对外提供便捷访问所需的知识接口，帮助人们准确、高效地获取知识资源。科技界在知识库构建方面已经做了大量工作，其工作思路和方法可作为我们的重要参考。比如，谷歌很早就提出知识图谱的概念，用符号来描述物理世界中的概念及其相互之间的结构，构建用于知识获取的网络服务。目前，该数据库已包含超过数亿个实体及实体关系，力图涵盖地球上所有书籍以及网站上的内容信息。专门领域的知识库也开始出现，哈佛大学费正清研究中心主持研发的“中国历代人物传记资料库”（China Biographical Database Project，简称CBDB），以中国历史人物为中心，对重要的工具书词条及传记资料进行数字化处理，提取人物及人物之间的社会关系，为学术研究提供了诸多便利。

　　这些经验印证了CCKB构建的可能性及广阔前景，也在操作方法上给予我们很多启示。多年来，我们主要采用人工方式提取各种实体，构建其属性和关系，稳妥而效率不高。清华大学在计算机及信息处理技术上有得天独厚的优势，在古文献研究这一传统领域也有着相当的实力，两相结合，应是未来中心构建CCKB的方向。清华大学计算机科学与技术系孙茂松教授的团队通过计算机对大量古代诗歌文本的深度学习，自主研发了古典诗歌创作系统，可以按照任意给定的主题或体裁，创作出格律谨严、内容合理、情感协调的律诗作品；清华大学统计学研究中心邓柯副教授首创“无指导中文文本分析技术”，即脱离先验词表的支撑，通过反复计算学习，可以初步实现对古籍文本的词语切分，为后续的标点断句、专名标注等工作提供了进一步审订编辑的基础。

　　结合这些高新技术手段，发挥文献中心传统古籍整理研究思路和基础实践等方面的长处，一方面，已提取的实体以及各种关系模型可以起到先验词表的作用，辅助开展实体及关系提取等文本挖掘分析工作，进而丰富扩大知识库的知识规模；另一方面，各类实体及其关系的抽取过程，实际上也是文本的标引过程，两者反复互动，最终将实现知识库与文献的映射与链接，从而达到所有文本的多维度有序提取、排列及重新组合。

　　在大数据技术支撑下，我们希望与多方通力合作，充分利用新技术手段和研究方法，构建古籍领域内完善的、足以映射全部内容的知识库，为今人及后人的古籍整理与文史研究提供一个可用的、好用的通用平台。

　　《光明日报》（ 2018年10月15日 13版）