点击右上角
微信好友
朋友圈

点击浏览器下方“
”分享微信好友Safari浏览器请点击“
”按钮

作者:孙茂松 孔存良(分别系清华大学教授、助理研究员)
随着数字化、网络化,尤其是智能化的持续深入发展,数据已成为国家关键战略资源。“十五五”规划纲要提出,“迎接数字时代,激活数据要素潜能,推进网络强国建设,加快建设数字经济、数字社会、数字政府,以数字化转型整体驱动生产方式、生活方式和治理方式变革。”语言资源作为重要的数据资源,对推动学科交叉创新、支撑智能社会构建、维护国家安全及提升国家文化软实力具有深远意义。
中文语料库建设是我国语言资源建设的基础性工作。近日印发的《教育发展“十五五”规划》提出,加强数字中文建设。推进新型国家语料库建设和应用。实施国家关键领域语言科技赋能计划。此外,《教育强国建设规划纲要(2024—2035年)》也提出了“建设新型国家语料库”的任务。《关于加强数字中文建设推进语言文字信息化发展的意见》要求:“推动基础性语言资源建设,实施国家关键语料库共建共享计划,重点支持建设大规模中文语料库。”
语料库建设是一个“老”话题,英文语料库建设可回溯至20世纪60年代。中文语料库建设比英文晚了大约20年。那么,当人工智能发展到大模型时代,语料库建设呈现哪些新的特点?面临哪些主要挑战?又应该有哪些应对之策?这些基本问题都需要我们认真思索并回答。
语料库建设走过的路程
语料库建设的“初心”是面向语言教学和研究,同时面向自然语言处理技术研发。在其发展过程中,始终强调两点:一个是语料库的“大规模”,另一个是对大规模“生”语料库的“精加工”。
20世纪60年代,美国布朗大学建立了约100万词的BROWN语料库;70年代,英国兰卡斯特大学、挪威奥斯陆大学和卑尔根大学联合建立了规模相近的LOB语料库。1995年,规模达1亿词的英国国家语料库(The British National Corpus, BNC)面世,其中书面语文本9000万词次,口语文本1000万词次。这在当时绝对属于名副其实的“大规模”了。早期语料库通常只进行词语切分、词性标注等基本加工。90年代初,美国宾夕法尼亚大学构建的宾州树库(Penn Treebank, PTB)对300万词英语句子进行了深层次加工——句法标注,随后又构建了首个中文树库(Chinese Treebank, CTB),规模为10万词。至2016年,CTB 9.0完成了200万词中文语料的标注。2014年,斯坦福大学提出通用依存句法标注方案(Universal Dependency, UD),试图以统一标注规范对全世界任何语言标注依存句法结构。据其官网统计,目前已完成逾3700万词的加工,涵盖186种语言。“精加工”多倚重人工完成,因此通常是浩繁的工程。
我国自20世纪80年代前后启动中文语料库建设,基本上是参照国外上述“大规模”及“精加工”的路数来做。部分具有代表性的语料库建设成果包括:北京大学基于《人民日报》构建的现代汉语标注语料库,规模约2700万字,进行了分词、词性、专有名词、多音词等标注;国家语委牵头建设的现代汉语通用平衡语料库,规模约1亿字,其中5000万字经分词和词性标注;北京语言大学BCC语料库(Beijing Language and Culture University Corpus Center),规模约62亿字,覆盖报刊、微博等载体和文学、科技等领域,并进行了适当加工。
2010年起,人工智能进入石破天惊的深度学习时代,并在2020年前后快速推进至大模型时代。语料库在大模型发展中起着关键作用,已演变为支撑人工智能基本能力迭代并迈向通用人工智能的核心要素。毫不夸张地说,没有语料库就没有语言大模型。在大模型时代,语料库建设的内涵和外延都发生了急剧变化,如对大规模“生”语料库的需求呈爆炸式上升,以人工标注手段为主的语言“精加工”则从语料库建设的主导地位退居至“不太起眼”的位置。
新型语料库建设的基本特点
第一,规模极其浩大。2020年,美国开放人工智能研究中心(OpenAI)提出语言大模型的规模法则(Scaling Law),指出模型的训练损失随数据的指数级增加而线性下降。在此驱动下,训练用“生”语料库规模大到无所不用其极。如2020年ChatGPT-3训练语料库约含3000亿词;至2025年,DeepSeek-V3的训练语料库已达约14.8万亿词。典型的开源语料库如C4(约1750亿词)、The Pile(约2000亿词)、RedPajama(约1.2万亿词)等,其规模与传统语料库相比有天壤之别。值得注意的是,传统语料库由于规模限制需要均衡采样,新型语料库则致力于收录“全空间高质量”内容。
第二,范围极其广博。传统语料库多集中于新闻、文学作品等典型类型,新型语料库则广泛纳入网页、杂志、百科全书、科技图书、学术期刊、辞典乃至代码等多源类型,如维基百科、ArXiv等平台的开放获取论文和GitHub等平台的代码数据等。
第三,语言极其多样。传统语料库多以单语或双语为主,新型语料库则试图打通所有语言,构建覆盖数以百种语言的多语言语料库,如CC100、mC4、OSCAR等。Meta发表于《自然》杂志的NLLB项目,构建了涵盖200多种语言、规模约450GB的多语语料。此外,古籍、方言、手语、盲文等特殊语言类型,也会一定程度上被新型语料库所收录。
第四,模态极其丰富。以文本模态为枢轴,将声、图、视频等相关模态数据对齐、融通,形成多模态语料库。近年来,图文对齐数据发展尤其迅速,如OpenAI的CLIP语料库含4亿图文对,LAION-5B多达58.5亿对,DataComp更扩展至128亿对。语音文本对齐数据规模也持续增长,如WaveCaps含约40万语音—文本对、VSDial-CN含约120万对等。视频作为融合文本、语音、图像的复合媒介也备受关注,如WebVid含1000万视频—文本对,VTP含2700万对。这些多模态数据构成了新型语料库的生力军,赋予人工智能多角度理解、“生成”大千世界的能力。
第五,加工极其专精。针对大模型训练的各类新型数据被不断构造出来,如文本问答数据集、图文问答数据集、大规模指令数据集等。此外,从浩瀚无比的语料库中筛选出高质量语料,对大模型训练越来越重要,同时极具难度,需要研发相关的数据治理技术。借重大模型技术构造大规模合成数据也成为常态。
中文语料库建设的主要挑战
上述特点为大模型时代中文语料库设计指明了方向。建设规模浩大、范围广博、语言多样、模态丰富、加工专精的中文语料库体系,理应成为推动我国人工智能发展、赋能智能社会建设的基础性工程。显然,这个工程极其艰巨。我们将主要面临来自数据供给、体系构建与合规治理三方面的严峻挑战。
一是中文语料相对匮乏。当前,主流开源语料库仍以英文为主。据阿里研究院《大模型训练数据白皮书》,全球网站英文内容占比约59.8%,中文内容仅占约1.3%,差距悬殊。在大模型训练广泛使用的Common Crawl网页语料库中,中文占比也仅为约4.8%。
二是中文语料库体系远未建立。面向大模型时代的“全空间高质量”中文语料库体系尚处于雏形。如中文百科全书、科技图书、学术期刊、辞典等高知识密度的语料在现有中文语料库中几乎难觅踪迹,高质量的多模态数据也十分稀缺。
三是数据治理机制亟待完善。当前语料数据治理仍较为粗放,缺乏顶层设计。具体表现为三点:第一,版权保护与数据共享难以平衡。图书、辞典、影视作品等是天然的高质量语料,理应成为国家语料库的重要组成部分。然而,其合规共享面临版权保护壁垒,国际上已有相关纠纷案例。例如,Anthropic公司在训练Claude模型时因不当使用版权数据,向作者及出版商支付了高达15亿美元的和解金。第二,标准缺失导致“数据孤岛”。各单位加工的语言数据格式不一、质量参差,阻碍了数据要素的流通与协同利用。第三,隐私与安全风险突出。在数据采集、加工和训练过程中,如何有效防范信息泄露,确保内容符合伦理与价值规范,是语料库建设中必须严守的安全底线。
上述挑战都是全局性的、深层次的。应该采取怎样的应对之策?需要我们知难而上、持续探索。
中文语料库的建设路径
一是拓宽数据来源,突破数据供给瓶颈。系统推进出版物、古籍文献、地方志、历史档案等优质线下资源的数字化转化,激活存量语言资源。大力发展数据合成与增强技术,实现数据规模的跃升。
二是完善体系设计,整合全空间高质量数据。系统规划中文语料库的整体架构,重点推动图书、辞典、影视作品等高质量数据入库。同时,拓展多模态数据的来源与形态,鼓励各级图书馆、博物馆采集音频、图像、视频等多模态数据。此外,将方言、少数民族语言、手语、盲文等纳入建设范畴。
三是创新版权机制,整合关键语言资源。由国家相关部门牵头,探索建立关键语料的授权使用机制。依法合规构建解决了版权问题的国家关键语料资源。建立分级开放机制:基础共性数据向社会开源,高价值专业数据实行授权使用,保障建设者权益,形成可持续生态。
四是推动标准建设,强化全流程治理。加快制定国家或行业层面的语料采集、清洗、标注、质检与交换标准,打破“数据孤岛”。研发高效、智能、可复用的数据处理工具链。同时建立覆盖数据全生命周期的治理框架,明确隐私保护、安全审核、伦理审查等环节的责任与流程,筑牢语料库建设的安全底线。
大数据时代中文语料库的建设具有高度的紧迫性,但又难以一蹴而就。不行不至,行于当行。相信通过坚持不懈的群策群力、攻坚克难,中文语料库建设的新格局将逐渐形成,从而对我国人工智能的发展作出历史性的新贡献。
《光明日报》(2026年07月05日 05版)
