点击右上角
微信好友
朋友圈

点击浏览器下方“
”分享微信好友Safari浏览器请点击“
”按钮

作者:饶高琦(北京语言大学副研究员)
随着生成式人工智能掀起新一轮科技浪潮,语言作为数据要素与文明载体的双重价值日益凸显。我国学者20世纪就提出了语言资源的学术概念,并在教学、科研和行业中加以实践。历经数十载耕耘,语言资源建设已取得斐然成就。目前,我国已建成世界上最大规模的语言资源库和中国语言资源知识图谱。从服务于语言研究和语言教学的数十亿字语料库,到支撑千亿参数大模型训练的超大规模中文数据集;从静态文本采集,到动态、多模态、深标注的综合性资源平台,语言资源完成了从学术“象牙塔”到产业“新石油”的蝶变,为提升国家语言能力、繁荣数字经济和推动数字中国建设提供了坚实基础。
物质因可用而稀缺,因稀缺而交换,进而具有了资源属性。大规模交换催生了对规范标准的需求,语言资源亦不例外。语言规范标准为语言资源建设提供了统一的前置约束与基础框架,确保了资源在形式、结构和描述上的一致性。这种一致性是实现语言资源高质量集成、互操作与可持续利用的基础保障。我国已发布百余项国家通用语言文字和民族语言文字信息化规范标准,为自然语言处理技术在人工智能、数字产品和信息产业领域的应用创新奠定了规范基础。相比于语言资源研究、实践和行业的快速发展,规范标准与法规的建设仍显滞后,这已成为制约语言资源建设和数字中文健康可持续发展的重要瓶颈,具体表现在以下三个方面。
一是技术迭代与标准缺位的矛盾,导致“数据孤岛”与“质量迷雾”。当前,语言资源呈爆炸式增长,但其建设仍处于“野蛮生长”阶段。各类资源在字符编码、元数据描述、接口协议与质量评估等方面缺乏统一标准,致使资源难以互联互通,形成众多“数据孤岛”,宝贵的数据要素无法在更大范围内有序流通和高效利用。生成式人工智能对海量语料的依赖,更使得语料准确性、文化适配性与伦理合规性缺乏标准评估的问题十分尖锐。缺乏高质量、“干净”的数据“燃料”,不仅制约大模型性能的进一步提升,更潜藏放大算法偏见、引起价值误导的风险。这从源头制约了人工智能的健康发展,限制了中文在数智时代生产要素价值的释放。
二是产业发展与治理盲区的矛盾,引发“无序竞争”与“权属风险”。语言数据产业活力充沛,但因数据权属、流通交易、安全隐私、伦理审查等规则不明,易陷入无序竞争,也使得数据作为生产要素的价值难以通过规范市场充分释放。在全球数字竞争中,中文语言字符编码、语义标注、多模态融合等基础标准的滞后,直接关系到国家文化安全、数据主权和标准主导权。若核心标准受制于人,将在全球数字治理中陷入被动,阻碍中华文化在数字空间的传播力。
三是学科融合与人才断层的矛盾,凸显供需困境。语言资源建设是文、理、工深度交叉的一个领域。高质量语言资源建设急需既精通语言学基本原理、懂得数据工程技术、掌握人工智能工具,还具备法规伦理意识的复合型人才。大规模数据工程也要求从业者在伦理、工具、意识上达到一定标准。近年来,关于“谁是可用人才”“如何培养人才”的讨论广泛而深入,但仍存在考核缺乏标准、高级人才培养欠规范等问题。职业院校、高校、科研院所和企业都在努力“各自发明”对语料库人才、语言资源人才的定义与培养方案,许多规划难以落地。
直面上述挑战,我们需要将加强规范标准与法规体系建设作为破局的核心抓手,为语言资源的开发、利用与治理立规立矩,护航赋能。
其一,坚持规划引领,构建前瞻协同的标准体系框架。应紧扣《关于加强数字中文建设推进语言文字信息化发展的意见》要求,进行顶层设计与系统规划。重点围绕“资源数字化转化”“生成式资源质量与安全评估”“资源治理与赋能应用”等任务,加快研制覆盖字符编码、元数据、语义标注、质量评估、接口协议、权属界定等关键环节的标准规范,形成一套逻辑清晰、相互支撑的标准体系,筑牢数据质量底线。
其二,聚焦应用场景,以标准赋能产业升级与文化传播。标准体系建设需坚持需求导向,优先瞄准智慧教育、数字文博、无障碍服务、网络内容生态等领域,研制急需的应用标准。通过标准引领,促进语言资源的高效流通与高质量利用,赋能人工智能技术创新和数字文化产业升级,最终确保“中文在全球数字空间和人工智能关键应用场景中的使用占比显著提高”的目标得以实现。
其三,推动跨界融合,培育高水平的复合型人才队伍。打破学科与行业壁垒,创新“语言+人工智能+治理”的复合型人才培养模式。鼓励职业院校和高校设立交叉学科,支持产学研联合培养。同时,探索建立语言资源建设相关从业人员的能力标准与评价体系,为国家关键语言语料基础设施的“新基建”提供坚实人才保障,以期缓解人才供需脱节问题。
规范标准体系是数字中文建设的基础工程,是激活语言资源数据要素价值、护航其安全高效流通的制度保障。面对技术迭代加速、应用场景深化和国际竞争加剧的新形势,亟待构建系统完备、科学规范、运行高效的语言资源标准体系。这不仅是破除数据壁垒、提升资源质量、优化学科生态的技术路径,更是强化数据主权、维护文化安全、提升国际话语权的战略举措,也是推动我国由“语言资源大国”迈向“语言资源强国”的关键举措。以标准建设引领发展方向、以规范治理夯实应用根基,方能使中文语言资源在技术赋能与人文传承的双重任务中释放更大价值。
《光明日报》(2026年07月05日 05版)
