点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

文化人 天下事
正在阅读: 发挥语言数据的基础资源作用和创新引擎效能
首页> 光明日报 > 正文

发挥语言数据的基础资源作用和创新引擎效能

来源:光明网-《光明日报》2025-06-08 04:10

调查问题加载中,请稍候。
若长时间无响应,请刷新本页面

  作者:姜国权(首都师范大学国际文化学院党总支书记、教授)

  人工智能作为引领新一轮科技革命和产业变革的战略性技术,深刻改变着人类的生产生活方式。作为生成式人工智能的重要组成部分,大语言模型是使用大量文本数据训练的深度学习模型,通常具备千亿级别的超大规模参数,展现出突破性的语义理解与文本生成能力。因此,以语言数据的赋能作用为着力点,分类建设基础性、应用性、战略性、特色性的优质语言数据集,大力推进语言文字与信息技术深度融合,发挥优质语言数据、前沿语言技术在数字中文建设中的基础支撑能力,有助于推进数字中文建设,全力服务教育强国、科技强国和文化强国建设。

  释放语言数据潜能,推进语言文字资源保护和利用。多民族、多语言、多方言、多文字是我国多彩语言生态和多姿语言文化景观的真实写照。为此,我们应有规划地对语言资源进行科学采集与监测,建立包括文本、图片、语音、视频等多模态语言数据的大规模中文语料库及高质量民族语言文字语料库,有效释放语言文字的数据要素价值,为汉语方言和少数民族语言资源的保护、开发与利用提供大数据素材。同时,利用语言数据的非消耗性、非竞争性、高流动性等特征,打造涵盖语言数据采集、传输、储存、加工的集成化数据资源信息库,充分发挥语言数据的“乘数效应”,激活其作为信息载体的重要价值,为满足不同领域、不同行业的数据需求提供支撑。

  释放语言数据潜能,助力国家通用语言文字推广普及。加强推普的数字化赋能力度,需要收集、加工大规模普通话文本、音频和视频数据,用以构建普通话示范与矫正模型;构建大型方言/民族语言语音对比数据库,提取分析特定方言/民族语言的易混淆音、语法偏误等问题,精准刻画语言生态。以此为基础,建立普通话与方言/民族语言的有效对应关系模型,为用户提供对话练习、发音纠正、评价反馈等个性化服务,实现更高效的普通话学习。还可利用大语言模型智能生成特定交际场景对话模板,以实现情境化表达练习。

  释放语言数据潜能,提升全社会语言服务能力与质量。我国已建成世界上规模最大的语言资源库,对我国语言资源进行多模态、全息化、标准化的记录与保存,为语言技术赋能数字社会语言服务的精准化、普惠化、便捷化建设提供了坚实的语言数据资源保障。在社会公共服务方面,加快推动相关部门间数据互通,构建覆盖政务、医疗、法律、商业等基本民生领域的行业领域语料库;同时,通过采集分析公共服务场所的语言数据,识别高频交际障碍点,部署普通话优先的语音交互系统,进一步提升沟通效率。在无障碍服务方面,基于语言数据驱动的语音交互、手写识别、手语翻译、盲文翻译等语言技术垂直应用于社会生活场景,将有效提升无障碍语言服务效率与质量。在应急语言服务方面,通过建设应急术语语料库,集成方言/民族语言数据和区域化自然灾害的历史数据,可以快速生成多语言的预警广播或用于急救翻译的语音指引,提升应急服务能力。

  释放语言数据潜能,扩大优质教育资源的覆盖范围。在大语言模型等前沿语言技术驱动下,语言文字能够充分发挥数据要素价值,塑造教育发展新优势。首先,构建教育领域应用型语言数据库,将学科知识转化为多模态语言数据,将静态的学科知识转化为立体的知识图谱,促进学科实践应用与创新,实现从“知识记忆”到“能力培育”的教育范式变革。其次,扩展语言数据的采集范畴,广泛汇集教师教案、真实的课堂教学、学生作业与测试以及教师批改反馈等数据,通过大语言模型训练捕捉学习者潜藏的学习规律,提炼优秀教学模板,生成智能教学助手,推动大规模因材施教,提高教育教学效率和质量。最后,加强跨语言翻译、智能字幕生成等技术融入数字教育对外开放,实现中国“金课”的国际共享。

  释放语言数据潜能,增强维护国家语言文化安全的能力。语言文字是国家重要的安全资源和战略资源,是国家综合实力的重要支撑,事关国家主权、安全和发展大局。有必要重点建设支撑国家安全与发展的语言数据资源,以数字技术动态监测、收集和分析相关核心数据,提高数据支持决策的效率。一方面,借助技术手段实现对大量语言数据的实时、不间断地采集、分析,及时反映语言的使用、变化情况,助力建设健康文明的网络语言环境。另一方面,全球范围内的绝大多数大语言模型使用英文数据进行训练,这不仅挤压了其他语言的数字生存空间,也使得大语言模型生成的答案更多体现了英语世界的看法和解读,造成语种信息茧房。因此,需要着力推进中文数字化与数据中文化,促进中文数据的规模生产、优质集成、融合创新、规范治理和复用增效,以保障我国的话语能力和话语权。

  释放语言数据潜能,搭建高质量国际交流与合作桥梁。语言文字是思想表达、文明互鉴以及联通世界的基础工具,应加快推进国家战略语言数据资源建设,以前沿技术的深度应用赋能国际传播。一方面,建设大规模的跨语种、跨语言数据库,为口译、笔译和实时转译、字幕生成等人工智能翻译服务提供资源支持。另一方面,大语言模型可以通过海量的语言数据训练,挖掘不同语言之间更深层次的语义和认知差异,减少跨文化交流误读和误解。

  随着数字经济快速发展,语言数据有力地推动了科技创新、加速技术成果转化,成为促进国家发展、社会进步的基础性战略资源和关键性新型生产要素。我们应当以国家战略为目标,充分发挥语言数据的基础资源作用和创新引擎效能,推动语言文字和信息技术深度融合发展,进而全方位释放语言文字的数据要素价值,将数字中文建设蓝图转化为语言文字事业高质量发展的生动实践,更好地服务数字中国建设。

  《光明日报》(2025年06月08日 05版)

[ 责编:孙宗鹤 ]
阅读剩余全文(