点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

文化人 天下事
正在阅读: 古文字考释与人工智能
首页> 光明日报 > 正文

古文字考释与人工智能

来源:光明网-《光明日报》2020-11-07 05:43

调查问题加载中,请稍候。
若长时间无响应,请刷新本页面

  作者:吴振武(吉林大学考古学院教授、博士生导师)

  “人工智能+”已经跟很多行业发生关系。据人工智能专家介绍,凡是边界清楚的问题,最适宜用人工智能来解决。因此,像古文字考释这种道理上只允许存在一种正确结论的学问,利用人工智能技术来辅佐研究,自然再适合不过。事实上,古文字行业大概在30多年前,已有学者在探索利用计算机帮助缀合那些破碎的甲骨片子。最近看到“AI驱动的甲骨缀合”报道,是古文字学家和计算机专家合作,利用人工智能技术缀合了一批甲骨碎片,似乎相当准确。而诸如图像捕捉与提取、字形识别与转换、数据聚合与分类等与人工智能有关的工作,也都有学者在努力研究,并都有喜人突破。其目的都是希望靠计算机来解决人工做起来十分烦琐且不容易准确的工作。

  这里举几个自己以往考释古文字的例子,来说明人工释读古文字的很多关键点今后是完全有可能利用人工智能技术去帮助解决的。

  第一,古文字中有些字,形体非常接近,却是不同的两个字。

古文字考释与人工智能

  图一

  如甲骨文、金文中的“並”和“替”,差别只在它们所从的两个“立”,一是左右并排(並),一是高低错落(替)。楚文字中的“之”和“出”,差别只在最底下一笔,一作平画(之),一作上弯形(出)。历史上,在学者正确分辨出来之前,“替”字都被误释成“並”;而楚国印章中的“出”,也多被误释为“之”,致使一些重要商业史料被湮没。20世纪30年代,在洛阳金村出土的一批青铜方壶上,都有记录容量和重量的铭刻。在容量“四斗”之后,有“(图三)客”二字,过去多有误释,目前最流行的释法就是释为官名“(图四)(司)客”。我多年前曾在一次演讲中指出,“客”前一字,跟“(图四)”字是有区别的。其所从的(图五),不但比“司”字所从的(图六)少一画,连首笔的斜度,也就是笔势,二者都是不同的。这个字实际上就是“以”字。释作“以”,不但字形上解释起来毫无障碍,文意也极为通畅。“以客”要读作“已格”,就是已经校量过了的意思。“以”读“已”,在古书中本是很常见的,而“客”与“格”的通假,早在西周铜器铭文中就已出现过了。近年新出的好几件记容铜器上,都发现“客”读作“格”(度量)的例子。而三晋记容铜器铭刻中,也曾出现过“已(图七)(校)”这样的话。所以金村方壶铭文中这两个字的正确释读,一定是“以(已)客(格)”,而不能是其他。这种字形上的细微差别,往往是误导学者释读的一个重要原因。

  第二,即使字都不难认识,但因某些特殊情况的存在,也会导致人眼的疏忽,进而导致错误的释读。

古文字考释与人工智能

  图二

  过去我曾讲过一个反书的例子:徐国青铜器上曾出现过“鱼腊”(腊音昔,干肉),这是古代礼书上常见的连举名物,但因“鱼”字在铭文中是反写的(与铭文铸造有关),结果导致各种各样的误释,致使我们丧失一次古代礼制方面的“二重证据”机会。这里再举一例:《古玺汇编》2238号是一枚三晋阳文小方印(图一),旧以为其上只有三个字,定为私印。我在2006年审读一篇博士学位论文时曾指出,此印实际上是五个字,前两个字的下部,都含有合文符号“=”(两个字合在一起占一个字的地位,称为合文)。只是因为印面地位狭窄,加上所有文字都并排横列,所以看起来非常隐晦,以致一般研究的人都会疏忽放过。正确的释读应该是“曲邑匀邑守”,是一方很特殊的官印。过了11年,2017年,陕西收藏家公布了一方新发现的类似三晋官印,印文是“曲邑武阴守”,其上“曲邑”二字也同样作合文并有合文符号(《戎壹轩藏三晋古玺》),证实了我之前的看法(图二)。

古文字考释与人工智能

图三

古文字考释与人工智能

图四

古文字考释与人工智能

图五

古文字考释与人工智能

图六

古文字考释与人工智能

图七

古文字考释与人工智能

图八

  第三,穷尽资料,并尽可能地缩小考释范围,是准确考释古文字的一个重要途径。

  在三晋玺印所见的姓氏中,有一个怪字作(图八),它既作为单字姓氏出现,又出现在复姓中(这里用俗称,实际是氏)。过去曾有学者释为“佗”,字形上虽然也马马虎虎可以通过,但实际上解决不了跟已知古代姓氏的对应问题。也就是说,这样的考释最终还是无法落实。后来我在检阅旧材料时发现,这个怪字在复姓中,不但出现在后一个字的位置上,如“大~”;也出现在前一个字的位置上,如“~中”。这样一来,释读的可能范围便大大缩小了。于是我检查了所有已知复姓,最终知道此字实际上就是古文字里很常见的当“叔”字用的“弔”,只是它的写法在三晋变异了。“大叔”氏、“叔中”氏和“叔”氏,不但见于传世文献(即太叔、叔仲),也见于汉代私印。后来我又在魏国兵器上发现同样写法的“弔梁”氏,那自然就让我们马上想起孔子的老爸名纥字叔梁。晋有叔梁氏,是见于古姓氏书记载的。

  以上几个古文字考释的例子,如利用人工智能技术,大约涉及:(1)手写汉字字形的精准图像识别,含反书、合文、重文等特殊情形;(2)语料库的建设,含通假标识与断句等;(3)古代历史与制度的相关数据库建设。假使通过计算机读图并与各种相关的“库”建立起有效的勾连与筛选,也就是通过人工智能技术达到较为精准有效的数据处理,那么古文字考释的速度与成效自然会大大提高。虽说这些恐怕还都属于比较低端的人工智能,未来一定还会有更高级的诸如机器自我学习提升以及人机嫁接互动等技术,但这已是我们当下可以憧憬和努力的方向了。

  《光明日报》( 2020年11月07日 12版)

[ 责编:李方舟 ]
阅读剩余全文(