点击右上角微信好友
朋友圈
点击浏览器下方“”分享微信好友Safari浏览器请点击“
”按钮
【治史心语】
作者:王 剑(南京师范大学历史文博学院教授)
随着人工智能技术的迅猛发展,生成式AI成为一种“泛在”并呈现出前所未有的应用潜力,所有的学科面对这一新技术的挑战与机遇,自然都不能无动于衷。明清史研究作为以多语种、海量规模文献及复杂历史背景为基础的断代史研究,与生成式AI的某些功能天然契合。那么,在明清史研究中,生产式AI究竟能做什么,不能做什么,它对明清史研究是机遇还是挑战,是当下明清史研究中应该高度注意的问题。
一
生成式AI,尤其是以DeepSeek、ChatGPT等为代表的大语言模型,其自然语言理解与生成能力,在资料处理和整合、文献翻译及标注等方面,给明清史研究者带来了极大的便利,同时,在研究方法、研究思路及研究范式等方面,也能给明清史研究带来新的启示。
在一些年轻明清史学者的研究实践中,生成式AI的功能已不限于简单的信息检索或文献翻译,它正逐步构建起一个“工具泛在化”的研究生态。从文献解读、文本标注、语言互译、史料结构化,到图像识别、关系抽取、语义聚类与多模态数据可视化,生成式AI已成为学者处理史料、构建知识谱系、创建特色个人图书馆乃至开展研究的新型“基础设施”,其背后是一种跨越技术与人文边界的学术范式重构。
第一,生成式AI能有效扩大明清史学者的文献边际。受限于学术视野、文献获取能力与方法等,任何学者都有自己的文献边际。过去,学者的文献边际受阅读范围的限制,阅读范围往往较小,而自从数据库及互联网技术广泛应用于学术领域,学者们通过数据库及跨库的逻辑检索,学术研究的文献边际迅速扩大,明清史领域的学术研究亦是如此,并由此带来研究成果的不断更新。
明清史研究中最耗费时间与精力的部分,往往是浩繁史料的搜集、整理、辨伪与标引。在生成式AI时代,研究者可将开源的数字化明清史料以及自己搜集的其他史料投喂给生成式AI,将历史文献高效转化为可分析的结构化数据,甚至直接生成资料长编。与使用数据库检索形成的初步数据相比,研究者给生成式AI投喂的数据则使得明清史学者的文献搜集范围大大增加了,而投喂的文献可能是多语种、多形态的史料,史料的内涵远超传统数据库文献。这样的史料处理方式,其实已经超越文献搜集的范畴,不仅有效扩大了明清史学者的文献边际,更重要的是帮助研究者从海量文献中迅速提取有效信息,并形成自己可用的数据集或个人特色图书馆。
第二,生成式AI可以帮助明清史学者深度挖掘文献。无论是卡片式文献,还是通过数据库检索而来的明清史料,研究者都需对这些史料进行仔细研读与标注。从数据库中检索而来的文献,很可能是巨量的,那么对这些初级文献进行分析研读也是一个大工程。学者们使用生成式AI,可将这些传统的文献资料通过数字化与结构化的处理,转化为数据资源,并通过给定主题,对结构化数据进行对话式的互动语义分析,并可以不断地修订AI的回答,对史料进行深入挖掘,或通过“穷举式”的逻辑关联,让生成式AI自动完成文献的关键词提取、语义聚类、实体识别、主题归纳、时间线串联等任务,实现由“智能人工”向“人工智能”的转变,使研究者面对海量的明清文献,可以在不牺牲资料全面性的前提下开展大规模文本比较与趋势分析。
第三,生成式AI可使明清史研究成果呈现多模态的表达。过去明清史研究成果的主要表现形态和传播方式是学术论文和学术专著,这是和学术评价的手段与标准相关的。生成式AI推动了明清史研究的可视化、交互化表达与传播。首先,在图像识别和处理方面,生成式AI的发展使明清史研究迈向融合图像重构、语义识别与沉浸体验的复合式探索路径,为明清史研究与学术传播注入新活力。生成式AI可通过算法比对、词频分析等方法增强史料的可验证性,提升明清史解释的逻辑严密性。其次,生成式AI在知识图谱构建、ArcGIS地图展示、动态图表制作等方面的强大表达效果,使得明清史研究成果部分地可视化了,可大幅提升学术成果的传播力。而且,生成式AI具备语言生成能力,只要有足够的资料,即可实现对历史人物语境的还原、场景的再造及风格化文本的仿写,为明清史研究提供多样化的表达维度,同时也为明清史教学引入具有沉浸感的传播方式。
第四,生成式AI可以大大拓宽明清史研究学术交流的全球视野。明清史研究的许多话题,早已成为国际性的学术话题,为不同国家的学者们所共同关注。以往的明清史研究与学术成果的交流,时常受到语言不通的制约,随着生成式AI在语言翻译与多语种语料整合方面优势的显现,明清史研究中多语种史料的使用成为可能,不同语言学者间的学术合作与交流也已没有障碍,多语种间的学术传播由此可以便利开展,这无疑有利于国际学术界的学术合作与交流。如明清外交、海洋交流、宗教传播等问题的研究中,生成式AI能处理并归类多种语言文献,为比较史学与全球史研究开辟新路径。
生成式AI擅长对既有数据的识别与重组,其核心能力集中于文本处理、图像分析、语义聚类与数据可视化等方面。这些功能表明,生成式AI正在重塑明清史研究的“技术手段”,并为学者提供新的研究路径。在此意义上,生成式AI是“效率机器”而非“解释机器”。
二
尽管生成式AI在明清史研究中展现出高效的文本处理能力,然而其内在的局限与潜在风险也是客观存在的,其在明清史研究中所不能为之事,正日益引发学界的关注和讨论。
生成式AI工作的逻辑是基于“已知”数据在既有的数据与逻辑框架内进行组合与重构,但无法提出真正具有创新性的课题,亦可能出现生成式AI“幻觉”问题,无法对其生成答案的真实性负责。同时,它缺乏判断史料真伪的能力,无法深入理解史料所处的历史语境及某些史料“顾左右而言他”的语义,更不具备承担知识评价、伦理反思和理论创新的主体性。
第一,生成式AI对“未知”数据的麻木导致容易产生学术“幻觉”。理论上来说,生成式AI必须依赖大量高质量的数字史料,但明清史研究的现实是海量文献受限于格式、整理质量、使用权限等因素,尤其是未数字化的史料难以直接利用。如果这些明清文献不能有效地投喂给AI,那么它的工作效能仍可能局限在数据库搜集的文献范围内,因此,生成式AI对未开源的史料,“未经训练的”田野调查、口述文献等新史料是麻木的,进而影响其输出结论的准确率和合理性。这种结论容易给人生产“幻觉”现象,即在没有依据的前提下生成看似合理但实则虚假的内容。
笔者曾以一篇发表过的学术论文原题投喂给生成式AI,要求其生成一篇可能和原文一致的“研究成果”,而AI生成的却是一篇看似正规的“胡说”。其内容并未真实存在于任何史料之中,还捏造了一些根本不存在的作者及引用文献,这种“幻觉”的产生,即来源于生成式AI对“未知”,即未投喂的相关研究成果的麻木。因此,生成式AI虽然在某些具体操作层面,如文献整理、初步归类与语言润色等方面具有实用价值,但它常常陷入“表面准确,深层空洞”的机械化陈述,难以超越AI自己的“文献边际”。
第二,生成式AI难以实现对历史语境的深层理解与阐释评价。毫无疑问,明清史研究本身是有着不同层次的要求的,如白描式的求真,对历史问题进行解析与阐释,以及更高层次的价值评判等。基于标准化的数据进行显而易见的联系是生成式AI的长处,但深层次的明清史研究从来就不是显而易见的,在面对海量的可能存在矛盾之处的明清史料时,生成式AI的文献边际本身就会限制AI的能力,而涉及复杂历史背景、制度变量与多元价值观念的史料时,生成式AI既难以识别隐喻意义,也难以把握在特殊历史语境下文献的委婉表达,因此往往会产生严重误读,更不用说那些基于复杂思维与评判的现象解释及价值判断。
第三,生成式AI无法承担明清史研究的理论创新与问题意识生成。历史研究的逻辑,是从若干的已知(即史料),来论证研究者的未知(即结论),深入的历史研究,核心在于提出突破性新问题、重构解释框架、提出新论点。当前的生成式AI尚不具有创新性问题意识,也无法建构系统的理论体系。尽管生成式AI能在一定程度上提升文献处理效率,甚至是生成论文选题、搭建类型化的文章结构,但是,生成式AI无法展现历史学研究者所应有的创新意识。过度依赖人工智能的分析逻辑,可能会导致研究范式的“技术化退化”——即以工具效率取代理论深度,以数据精度遮蔽历史复杂性,模糊了历史研究作为解释性人文科学的属性,进而削弱了对问题意识与批判性思维的培养。
第四,生成式AI无法遵循既有的学术规范与伦理。从目前对生成式AI的使用效果来看,AI生成的“研究成果”,内容难以溯源,过程不透明,内容无法验证,容易造成学术不端现象。为应对这一挑战,当前多家学术期刊和出版机构出台相关政策,明确要求作者在投稿时注明是否使用了生成式AI工具,并详细说明生成式AI参与的具体环节及其对论文主体内容的影响程度。这类举措旨在提升研究透明度,确保学术成果的原创性与可信度,避免破坏历史学的研究规范与知识信任体系,同时推动学术界对人工智能使用规范的共识构建。
历史学作为一门承载社会记忆与人类价值、分析因果与结构逻辑的人文学科,其研究范式、理论维度与学术创新具有不可替代的独特性。生成式AI可以是历史学者的工具,但绝不能成为替代者。在未来的发展中,历史学研究者不仅应当善于借力数字工具提升研究效能,更需保持强烈的批判意识与反思能力,使技术真正服务于历史学研究。
《光明日报》(2025年10月13日 14版)