点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

文化人 天下事
正在阅读: 大模型冲击语言学
首页> 光明日报 > 正文

大模型冲击语言学

来源:光明网-《光明日报》2025-06-05 04:55

调查问题加载中,请稍候。
若长时间无响应,请刷新本页面

  作者:本·布鲁贝克

  世界上每个婴儿都能在出生后短短几年内学会一门语言,这样看学习语言似乎并不难。但要弄清楚这个过程是怎样运作的,就是另一回事了。对此,语言学家已经提出过详细的理论解释,但机器学习近来的发展又给这一领域增添了新的难题。计算机科学家在试图构建语言模型,以便让机器理解人类语言时,并没有沿用语言学几十年来的研究成果,而是另辟蹊径,采取新的方法,最终实现了现今像ChatGPT一样可靠的聊天机器人。可他们创造出的语言模型真的在学习吗?

  美国纽约大学计算语言学家塔尔·林岑表示:“就算它们的行为看起来和人类相似,但很可能出自完全不同的原理。”

  这不仅仅与表面上的定义有关。假如语言模型确实在学习语言,研究人员也许需要新的理论来解释它们是如何做到的。但如果这些模型只是表面上看起来像在学习语言,那么机器学习对语言学研究可能就没有什么启示性意义。

  语言模型真的在学语言?

  语言学领域的泰斗诺姆·乔姆斯基公开支持后一种观点。2023年,乔姆斯基与另外两位作者在《纽约时报》上发表了一篇犀利的评论文章,提出了许多反驳语言模型的观点,其中一个乍听上去自相矛盾:语言模型与语言学无关,因为它们学得太好了。具体来说,作者认为,这些模型能够学会任何语言,包括“不可能语言”,即那些不遵循现有人类语言规则的语言,甚至可以像学习真实语言一样轻松地学会那些“不可能语言”。

  最近,5位计算语言学家对乔姆斯基等人的主张进行了检验。他们改造了一个英文文本数据库,由此生成12种“不可能语言”,结果发现语言模型在学习这些语言时,比学习普通英语更加困难。他们的论文《不可能语言的模型》在2024年计算语言学协会年会(ACL 2024)上荣获最佳论文奖。

  美国普林斯顿大学语言学家阿德尔·戈德伯格表示:“这是一篇出色的论文,绝对及时且重要。”研究结果表明,语言模型对那些想要理解婴儿咿呀学语过程的科学家,或许还是很有用的。

  事实上,在20世纪上半叶,语言学家大多致力于记录世界各地的语言。到了20世纪50年代末,乔姆斯基率先走出一条新路。他借鉴了理论计算机科学和数理逻辑的思想,展开了一场雄心勃勃的探索,以揭开所有语言背后的普遍结构。

  乔姆斯基认为,人类大脑拥有与生俱来的语言处理能力。这可以解释语言学中的许多重大谜团,包括有些简单的语法规则为什么从未出现在任何已知语言中。

  在乔姆斯基看来,如果语言学习背后的机制与其他类型的学习相同,人类语言就不会特别偏向某些语法规则而排斥另一些语法规则。但倘若语言学习真的与众不同,那正符合他的预期:任何专门的语言处理系统都会让人类倾向于使用某些语言,使得其他语言成为“不可能语言”。

  美国加利福尼亚大学洛杉矶分校的语言学家蒂姆·亨特表示:“如果说人类天生就具备学习某些东西的能力,那么自然也要说人类先天不会学什么。”

  很快,乔姆斯基的观点成为理论语言学研究的主流,并占据主导地位长达半个世纪。后来,机器学习革命到来了。

  机器学习崛起

  语言模型是一种基于神经网络的数学结构。神经网络由神经元组成,依靠神经元之间的连接来处理数据。每个连接都有一个权重,表示连接的强度。为了构建一个语言模型,研究人员首先需要选出一种特定类型的神经网络,接着为网络中的所有连接随机分配一个权重。由此得到的语言模型起初会输出无意义的内容。随后,研究人员会使用大量文本数据来训练这个模型,让它逐个预测句子中的下一个词。具体来说,语言模型会根据输入的一段文本,输出对下一个词的预测,而后与正确答案比较,并据此调整神经元间连接的权重大小,以便提高预测准确性。经过足够多微调后,这一语言模型最终会生成非常流畅的句子。

  语言模型与人类在许多方面都截然不同。举例来说,目前最先进的模型需要用数万亿个词进行训练,远远超过人类一生中能接触到的语言量。即便如此,语言模型也许可以为语言学习过程提供一种新颖的研究样本,以避开对人类婴儿进行实验的伦理限制。

  美国哈佛大学的计算语言学家伊莎贝尔·帕帕迪米特利奥是那篇新论文的合著者。“我们无法利用动物研究语言,”帕帕迪米特利奥说,“语言模型是我们可以拿来做干预性研究的第一个对象。”

  语言模型能够有效运作的事实证明,即便没有乔姆斯基所说的先天机制,类似语言学习的过程也可以发生。基于神经网络的系统已经在许多任务中取得了巨大成功,这些任务与语言处理完全无关。而且模型的训练过程根本没有采用语言学家对句子复杂结构的任何认识。

  英国萨塞克斯大学的计算语言学家杰夫·米切尔表示:“你只是在说,‘我看过这些词,知道下一个是什么。’但这是一种非常线性地看待语言的方式。”

  2020年,米切尔和英国布里斯托大学心理学家杰弗里·鲍尔斯合作,开始研究语言模型不同寻常的学习方式如何影响它们掌握“不可能语言”的能力。从零开始发明一种新语言会引入太多不可控的变量,比如一个模型在学习这种人造语言时可能表现更好,也可能表现更差,但很难确定其中的原因。为了解决这个问题,米切尔和鲍尔斯设计了对照实验。他们通过以不同的方式操控英文文本数据集,创造出三种新的语言,这些人造语言均受奇特的规则支配。例如,他们会将每个英文句子随机分割成两部分,并且颠倒第二部分词语的排列顺序,由此得到一种新的语言。

  实验开始时,米切尔和鲍尔斯选用了一种未经训练语言模型的4个完全相同的副本,接着用4种不同的数据集(包括三种被改造后的“不可能语言”以及未经改造的普通英语)分别训练那4个语言模型。最后,他们为每个模型安排了一场语法测试,测试内容源于用来训练对应模型的全新句子。

  结果显示,用“不可能语言”训练的模型,并没有被复杂的语法迷惑。它们在测试中的准确率与接受普通英语训练的模型十分接近。

  这似乎表明,语言模型可以学会“不可能语言”。乔姆斯基与合著者在他们那篇2023年的评论文章中引用了这些结果,认为语言模型本质上无法区分“可能语言”和“不可能语言”,甚至是那些夸张到极致的“不可能语言”。但争论似乎并没有就此结束。

  剧情反转?

  朱莉·卡利尼对乔姆斯基等人的说法没有那么肯定。2023年8月,卡利尼刚刚开始在美国斯坦福大学攻读计算机科学专业的研究生。乔姆斯基对语言模型的批评时常出现在卡利尼同学间的非正式讨论中。随着卡利尼深入阅读文献,她发现自米切尔和鲍尔斯2020年发表的论文以来,还没有任何关于“不可能语言”的实证研究。她认为乔姆斯基的断言需要更多证据,并且觉得米切尔和鲍尔斯的那篇论文很有趣。但他们只测试了一种比较老、如今已经不太流行的神经网络,然而理论上他们的观点应该适用于所有语言模型。在卡利尼看来,需要做的任务显而易见:用现今模型来检验乔姆斯基的主张。

  卡利尼与她的导师克里斯托弗·波茨会面时提出了一个研究计划,要深入研究转换器模型的“不可能语言”习得过程。转换器模型是一种深度学习架构,属于当今顶尖语言模型的核心,如OpenAI的GPT系列模型。起初波茨认为,这个课题对卡利尼这一研究生新生来说过于大胆,但卡利尼却坚持认为将其作为自己的第一个研究项目很有意义,最终说服了波茨。

  卡利尼和波茨一致决定由卡利尼负责训练模型。但首先,他们需要确定具体要测试哪些转换器模型,以及要研究哪些语言。为此,他们邀请了帕帕迪米特利奥和另外两位语言学家——美国加利福尼亚大学欧文分校的理查德·富特雷尔和得克萨斯大学奥斯汀分校的凯尔·马霍瓦尔德。研究团队决定使用较小的转换器模型,这些神经网络基于一个于2019年推出的模型GPT-2,它是ChatGPT背后的语言模型的前身。较小的神经网络需要的训练数据较少,也就与人类稍稍接近一些。或许它们也会像人类那样,比起“不可能语言”更偏爱“可能语言”?

  然而,卡利尼很快就发现,不是每个人都这么认为。她在斯坦福大学计算机科学系的同学中很少有对机器学习持怀疑态度的人,但有许多人在“不可能语言”的争论中站在了乔姆斯基那一边。卡利尼表示:“很多人相信转换器模型可以学会任何东西。”

  研究团队构建了12种“不可能语言”,其中大部分是从一个普通英语数据集出发,通过用不同方式调整该数据集中句子的词语顺序得到的。一种极端情况是,把词语顺序随机打乱,不过其他情况都是遵循一个简单的规律来调整排序——比如,将每句话里三个相邻的词语归为一组,然后交换每组中第二个和第三个词语的位置。他们也将米切尔和鲍尔斯曾经研究过的“部分反向”语言纳入其中,以及一种“完全反向”语言,即将数据集里每句话都反转词语顺序。另外,最后一种人造语言叫作“跳词”,与本来的普通英语最为接近。区别在于判断一个动词是单数还是复数的方式,因为这种人造语言的复数标记是在该动词后4个词之后的位置放一个特殊字符,而不是像普通英语那样在动词后面添加“s”这样的后缀,如“runs”。这种设计灵感其实来源于语言学文献中的经典案例,研究人员特别好奇语言模型会如何处理这种语言。

  “‘把这个(标记)放到4个词之后’不算特别复杂,”亨特说,“但好像没有哪种人类语言遵循这种模式。”

  所有“不可能语言”都不同程度地扰乱了普通英语的语言学结构,但除了随机乱序之外,其他所有人造语言都在理论上传递了相同的信息。“原则上,一个全能预测器在处理‘不可能语言’时,并不会比处理‘可能语言’更困难。”富特雷尔说。

  卡利尼和同事从一个转换器模型的多个副本开始,每个模型分别用一种不同的语言进行训练。在训练过程中,他们会定期暂停训练,测试每个模型的预测能力。所有模型都随着时间推移表现得越来越好。甚至在随机乱序的极端情况下,模型仍然能学到词语“the”比“impossible”更常见的规律。但使用普通英文文本训练的模型比其他模型学习速度更快,最终表现也优于其他所有模型,只有一个例外:接受“跳词”语言训练的模型表现大致相当,因为这种语言只是用特殊字符替代了一些动词后缀,并将其放置在动词后4个词之后的位置。

  这不意外,毕竟这种人造语言跟普通英语之间的差异细微,不大会影响对大多数词语的预测。然而,当研究人员用专门设计的测试方法来区分接受这两种语言训练的模型时,差异立刻显现:相较于普通英语,语言模型还是更难掌握“不可能语言”。这是一个经典的情节反转:语言模型并非无所不能。

  任务完成了?

  研究结果显示,语言模型倾向于学习某些语言模式,就像人类一样。它们的偏好在某种程度上与人类相似,但并不是完全一致。同时,人类语言学习的某些方面可能依然要用乔姆斯基的理论来解释。人类大脑和神经网络都很复杂,以至于让人望而却步,尤其是在像语言学习这样的复杂任务上,理解二者的差异非常困难。这样说来,论文原标题“Mission:Impossible Language Models”可谓一语双关,既涵盖“不可能语言”的内容,也表达了任务非常困难。(“Mission:Impossible”为《碟中谍》系列电影原名。)

  但正如动作片中的主角,研究人员总是乐于接受那些看似不可能的任务,并通过创造性的方法取得进展。卡利尼与合著者指出一个简单的原理叫作“信息局部性”,可以用来解释为什么某些“不可能语言”对语言模型而言比另一些更难习得。这个原理可能也和人类语言习得相关。他们的研究结果已经为后续研究提供了若干明确的方向。

  “这就是我格外喜欢这篇论文的地方,”南非开普敦大学的认知科学哲学家瑞安·内夫特说,“它催生了如此多新的研究方向和问题。”

  一个值得探索的方向是,研究神经网络的设计细节如何影响“不可能语言”的学习难度。米切尔和鲍尔斯先前的实验结果已经表明,不同种类的神经网络在学习能力上可能有完全不同的表现。为了改善语言模型,研究人员通常会调整模型背后的神经网络,并观察哪些微调能让模型更好地学习普通语言。但或许更有意义的是,寻找那些让模型对“不可能语言”习得能力变差的调整方式。

  “这个研究项目很吸引人,”波茨说,“这也是我们将在‘不可能的任务2’中要做的事情。”

  像许多续集一样,这项任务也有一个支线剧情,它的灵感来源于亨特对团队研究结果的回应。亨特建议比对“跳词”语言与另一种新的人造语言,他怀疑新的人造语言会让神经网络更加难以应对,即便它更接近真实语言。不过,亨特依然更认同乔姆斯基的语言学观点,但他很高兴看到关于神经网络语言学习的主张在被直接检验。亨特说,“我希望能看到更多这样的实验研究。”

  卡利尼和同事希望他们的研究结果也能启发其他研究人员参与到“不可能语言”的研究中。这是一片富饶的研究领域,蕴含着足够多值得被研究的内容。

  “这很可能发展成一个许多人共同参与的研究项目,”富特雷尔说,“它不应该只是少数人的课题。”

  《光明日报》(2025年06月05日 14版)

[ 责编:张倩 ]
阅读剩余全文(