点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

文化人 天下事
正在阅读: 人工智能的技术发展与未来展望
首页> 光明日报 > 正文

人工智能的技术发展与未来展望

来源:光明网-《光明日报》2026-01-24 02:25

调查问题加载中,请稍候。
若长时间无响应,请刷新本页面

人工智能的技术发展与未来展望

演讲人:张亚勤 演讲地点:清华大学“人文清华讲坛” 演讲时间:2025年12月

  今天,我们正迎来一个全新的重大机遇——人工智能,它已然拉开了第四次工业革命的序幕。

  技术进步的大趋势

  首先我想谈一下技术大趋势,以及人工智能带来的启示。

人工智能的技术发展与未来展望

  张亚勤清华大学智能产业研究院(AIR)创始院长。曾任百度总裁、微软全球资深副总裁兼微软亚太研发集团主席、微软亚洲研究院院长兼首席科学家等职。

  经过几十万年的进化,我们人类的大脑不足3斤重,功耗只有20瓦,但是人类却如此之聪明。人类大脑包含了860亿个神经元,有百万亿个连接或者说突触,存储量至少有1个Petabyte(拍字节)。

  我们对人类大脑的理解是渐进的,现在可能也还不超过10%。早年间,美国科学家保罗・麦克莱恩提出“三重脑”理论,将大脑分为不同层次:负责呼吸、睡眠、运动等生理功能的层次,处理情感的层次,以及负责推理、决策的高级层次。这个理论虽然不够精准,但为我们理解大脑提供了直观的视角。如今我们知道,大脑拥有150多个不同的功能区,860亿个神经元分布其中,分别负责声音、视觉、语言、运动等不同功能。人类的记忆功能尤为神奇,包含天生的DNA记忆、短期的海马体记忆、长期的皮层记忆,还有显性记忆和隐性记忆。可以说,人类大部分智能都来源于这些不同类型的记忆体。

人工智能的技术发展与未来展望

2025年世界互联网大会“互联网之光”博览会现场,一款智能机械手展示模仿人类手部精细动作。新华社发

  诺贝尔奖获得者丹尼尔・卡尼曼将人类的思考模式分为两种:系统1是快思考,面对事物时能快速产生直觉、迅速作出决定,无需深入思考;系统2是慢思考,需要经过深度分析和推理,是人类高级智能的体现。这两种系统可以相互转换,当我们对某件事足够熟悉后,慢思考会转化为肌肉记忆和直觉。比如学车初期,我们会刻意关注交通规则、路牌、信号灯和路况,但熟练之后,驾驶就会变成自然、自觉的行为,这就是系统转换的过程。

  人工智能,本质上是学习人类智能的过程。多年来我们一直在探寻智能的本质。“人工智能”(Artificial Intelligence)这一概念于1956年被正式定义,而它的理论奠基可追溯到更早——英国科学家图灵率先定义了“计算”与“智能”,并提出了“图灵测试”:若机器能通过多轮对话,让人类无法分辨其是否为人类,就意味着通过了测试。另外还有两位重要奠基人常常被忽略:一位是“信息论之父”香农,他定义了比特和信息量(熵),另一位是“控制论之父”维纳,他定义了负反馈、学习和自适应,这些基础概念对人工智能的发展起到了至关重要的作用。

  多年来,人工智能领域出现了很多不同的学派,大致来说主要是两种不同的思路。一种思路认为,可以把大脑的逻辑、规则、推理过程都用符号表示出来,这就是符号学派。基于这种方式,逻辑体系很漂亮、很简洁,也有明确的因果关系,具备透明性,我们知道机器是怎么推理的,但它唯一的缺点就是不实用,在实际应用中效果不佳。还有一种思路来自连接学派。这个学派认为,大脑如此复杂,智能的实现十分困难,所以要通过大量的数据,通过积累经验、持续学习、不断适应,以及与世界的连接来获取智能,这就是连接主义。最近10~20年主流的深度学习技术用的就是这样的方法。

  人工智能发展史上有几个里程碑性质的关键事件值得关注:2016年围棋人工智能程序AlphaGo第一次击败了李世石九段,比分是4∶1。柯洁九段不服气,2017年他和AlphaGo下了三盘棋,最终0∶3。AlphaGo当然很聪明,它用到了深度学习、强化学习,还有蒙特卡洛搜索,是很了不起的成果,它学习了人类几十万盘棋局。但我觉得更了不起的,是大家听闻较少的AlphaGo升级版AlphaGo Zero。它完全不用学习人类的棋局,而是自己和自己下棋,通过不断地博弈来学习,进化速度非常快。AlphaGo Zero和AlphaGo的前一个版本下了100场棋,它完胜,比分100∶0。它不仅可以下围棋,还可以下国际象棋以及别的棋类。所以后来DeepMind(谷歌旗下人工智能公司)团队说,从此我们不和人类下棋了,因为所有的棋类,人类都下不过人工智能。AlphaGo和AlphaFold代表的是一个特别重要的概念——智能体。

人工智能的技术发展与未来展望

在“AI·镜界—南京人工智能生态街区”,工作人员展示一款AI眼镜。新华社发

  基于类似逻辑但算法不同,DeepMind又推出AlphaFold,解决了人类蛋白质解析预测长期面临的难题。原本人类需要花费10亿元、众多科研人员耗费十余年才能完成的工作,AlphaFold仅用一年就全部解决。

  2024年,诺贝尔物理学奖、化学奖均授予了人工智能领域的奠基人,其中就包括DeepMind创始人德米斯・哈萨比斯——他的团队既创造了AlphaGo,也打造了AlphaFold。2025年1月,我在达沃斯与他有过一场关于新药研发、生物计算及人工智能未来发展的有趣对话。

  另外一个大的里程碑,是2022年,OpenAI的ChatGPT出现了。过去的深度学习或者神经元网络,主要还是针对具体任务,本质上是一种很聪明的模式识别,比如说语音识别、人脸识别、图像识别,或者字符识别等,算是一种高级的识别技术。但ChatGPT出来之后,跳跃到了一个新的范式,它不仅可以识别,还可以生成、可以创造,生成式AI就这么出现了。

  生成式AI有三个重要的元素:统一表征(Tokenization)、规模定律(Scaling Law)和涌现效应(Emergence)。其中最重要的,我认为是统一表征。ChatGPT是怎么做的呢?有点像人类的神经元,我们人类有860亿个神经元,不管分布在什么地方,每个神经元的结构都是完全一样的,视觉的、听觉的、运动的、记忆相关的,都是同样的结构。生成式AI的统一表征也是类似的道理,不管什么样的信号进来,都把它变成Token(词元),核心任务就是预测并生成下一个Token。它可以生成文字、图像、视频,现在大家已经用得很多了。同时它还可以生成新的数据、代码、数学方程式、工具——它不仅能生成工具,还能使用工具;它还可以生成新的蛋白质、分子、材料、药物。当大语言模型的参数量突破百亿级别时,便会触发规模定律,出现涌现效应。也就是说,模型的性能并非线性增长,而是随着规模扩大发生跃迁,从而涌现出未经编程的、令人惊喜的新能力。

  还有一个重要的里程碑,是中国的DeepSeek,出现在2025年1月。DeepSeek出现之前,中国有上百个大模型,这些大模型基本都是在模仿学习ChatGPT等的技术路径、算法的架构体系。在DeepSeek出现之前,我曾经说过,我们和美国在大模型领域的差距,大概是两到三年。DeepSeek是一家小创业公司,它的工程团队所在地距离清华大学可能就5~10分钟路程,团队里很多都是清华的学生。DeepSeek是一条新的路径,在算法、技术、系统架构上都有创新,它用1%的算力就可以达到和美国前沿大模型相似的能力。DeepSeek出来之后,咱们和美国在大模型领域的差距就缩短到大约2~3个月,也就是一个版本的差距,在有些应用方面我们可能做得更好。另外,它采用开源模式,它的开源模型很快就被很多买不起大模型的国家、地区所使用,这使得整个模型的落地和应用变得越来越快。所以我把它称为“DeepSeek时刻”,这是属于中国的时刻。

  从生成式AI到智能体AI

  2025年,人工智能领域迎来了又一重要转变——从生成式AI迈向智能体AI。在此之前,我们遵循“规模定律”:数据越多、算力越强,模型效果越好,达到一定阶段后会出现涌现效应。但2025年我们发现,语言领域预训练阶段的规模效应正在放缓,数据资源逐渐趋于饱和,继续增加算力的边际收益不断减少。与之相对,后训练(Post-train)阶段的重要性日益凸显。这就像人类的成长:预训练如同上学阶段,从本科到硕士、博士,通过学习积累知识变得聪明;而后训练则像是工作后的实践,在具体场景中不断学习、进化,这也是智能体AI的核心来源。

  什么是智能体?人类作为高智能物种,能够设定任务和目标、规划实现路径、不断试错反馈,凭借强大的记忆完成任务。例如,同学们想学习人工智能的话,就会想需要去上哪位老师的课、会比较哪位老师讲得最好,以及需要哪些参考书、要如何准备考试、做哪些练习题等,把学习人工智能这个目标分解,然后找到最佳的实现路径,这是我们人类的核心特点之一。而AI智能体在学习人类这种高级智能时,具备三大关键能力:

  第一点,自主学习(Autonomous),而不是自动学习(Automatic),这两者之间存在很大差别:自主学习是没有固定的规则,在不断探索中学习;而自动化往往是有预设规则的,是按照定义好的规则来运行的。

人工智能的技术发展与未来展望

用户在DeepSeek手机客户端上提问。新华社发

  第二点,可进化,通过不断迭代可以变得更好,而且进化之后,下次再做类似的事情,可以把原来学到的知识用上。这是我们人类和其他物种的重要区别之一——人类的智能是可以叠加的。而和人类亲缘关系最近的物种黑猩猩,它们一代和另一代之间的智能是没有本质区别的。

  第三点,泛化能力,即举一反三的能力。比如说一个人学会了怎么去订票,那么他所拥有的这个技能可以用到其他类似的领域,例如报销、购物等等。可泛化性是我们人类的特点,但人类的可泛化能力也是受到一些限制的。比如,有的同学可能理科成绩很好,但文科就不一定和理科一样优秀了。再比如,我有一个好朋友,他特别聪明,工作也做得很棒,但他学开车拿驾驶执照前后用了15年都没拿到,最后总算拿到了,结果马上就撞车了。但我们还是希望人工智能能够具备举一反三的泛化能力。

  这些智能的实现,离不开最基本的东西——数据。数据的本质就是数字化,我们的技术底座就是数字化。首先是信息世界的数字化,然后是物理世界的数字化、生物世界的数字化。过去40年,我们最重要的工作就是数字化。这项工作的早期从1985年开始,我们进行内容数字化、文档数字化,我们的语音、图像、视频、文本、PPT等都是在那个时候变成数字化内容的。后来加上HTML等技术,取得了一个重大成果,就是互联网,先是PC互联网,后来是移动互联网。然后我们又对企业进行数字化,或者说对企业进行信息化,包括ERP系统、CRM系统、数据库等,还有各种各样的业务流程。这一阶段催生了两个最大的成果,一个是数据库,另外一个是云计算。现在,我们的物理世界正在被数字化,汽车、公路、交通灯、城市在数字化,我们的电网在数字化,我们的家庭在数字化,我们的车间在数字化,我们的工厂在数字化……整个物理世界都在经历数字化的变革。同时,生物世界的蛋白质、大脑、细胞、基因等等也都在被数字化。

  美国麻省理工媒体实验室主任曾在数字化1.0开启时提出,我们正在从“原子”走向“比特”。“比特”是香农所定义的数字世界的基本单位。而如今,我们正从比特回归原子、走向分子——新一代智能是信息智能、物理智能和生物智能的融合,是比特、原子和分子的融合,也是碳基生命和硅基世界的融合。

  清华大学智能产业研究院(AIR)的实践

  2020年12月,我来到清华大学创立了智能产业研究院(AI Industry Research,简称AIR)。AIR的“I”有三重含义:国际化(International)、人工智能(AI)、产业(Industry)。我们的使命清晰明确:用人工智能创新赋能产业,推动社会进步;目标是打造面向第四次工业革命的国际化、智能化、产业化研究机构。

  要实现这一目标,核心是培养未来技术领军人才。我们采用“学术+产业”双引擎模式,大部分老师既具备深厚的学术造诣,又拥有丰富的产业经验。目前研究院已有20多位老师、100多位博士后和博士生、400多位实习生,已成为全球人工智能领域最活跃、最具贡献的机构之一。

  智能体AI的多元应用

  接下来,我将结合AIR老师们的研究成果,从信息智能、物理智能、生物智能三个维度,为大家介绍智能体的具体应用。

  信息智能体:从数学解题到科学研究

  智能体的核心难点之一是实现自主、可进化、可泛化的能力,让其能在手机、PC、眼镜、手表、电视等不同设备上运行,可应用于购物、旅游、企业供应链管理等多个场景。更重要的是,我们希望智能体能够完成更高级的任务,比如解数学题、发明方程式、提出新问题等。

  AIR李鹏老师团队与清华大学丘成桐先生的数学研究团队合作,研发了数学智能体AIM。它能够分解任务,完成定理证明。例如在材料科学、分子动力学领域的重要难题“均匀化问题”的证明中,AIM形成了17页的证明文档。这是人机协作的绝佳范例,据数学老师反馈,证明中最难的部分由AI完成。

  虽然目前AIM证明的问题仍有一定难度限制,但我相信未来五年,人工智能能够独立证明更难的数学问题——比如千禧年提出的7个最难数学问题(目前已有2个被解决,剩余5个,包括计算机领域的NP完备性问题、哥德巴赫猜想、黎曼猜想等)。我与丘成桐先生就此“打赌”,我认为五年内AI能完成其中至少一个难题的证明。无论具体时间如何,核心意义在于:AI已具备证明难题、提出新问题、生成新方程式的潜力。

  物理智能体:从机器人到无人驾驶

  不同于目前的语言模型,物理世界的智能体需要具备视觉(Vision)、语言(Language)、行动(Action)能力,构建“世界模型”。AIR曹婷老师团队研发的系统,就实现了物理世界机器人智能体的核心功能——通过感知、推理、进化、行动和奖励机制,生成决策和动作,指挥机器人完成任务。

  詹仙园老师团队研发的X-VLA系统,尝试解决智能体的泛化问题。传统机器人学会一项技能后,难以迁移到其他机器人或不同场景。而X-VLA系统仅需9亿个参数,就能部署到不同机械臂和机器人上,实现技能的跨设备、跨场景迁移。比如机械臂学会叠衣服后,更换不同机械臂、调整桌子高度,仍能完成叠衣服任务,还能将相关技能迁移到做家务等其他场景,完全通过自主学习适应环境。

  无人驾驶是物理智能体的另一重要应用,也是我多年来持续关注的课题。无人驾驶的难度极高,需要车辆精准感知复杂交通环境、规划路径、做出实时安全的决策,集成了人工智能的各项核心技术,因此被称为“人工智能集大成者”。目前在全球范围内无人驾驶取得了显著进展,整个产业正从技术研发走向商业化落地。

  生物智能体:从新药研发到智能医疗

  人工智能在生物智能领域的应用,首先体现在新药研发的加速上。德米斯・哈萨比斯曾在达沃斯对话中提到,未来十年左右人类所有疾病都可能被治愈,这一观点也许过于乐观,但人工智能确实能大幅缩短新药研发周期。

  AIR兰艳艳老师团队研发了新药筛选新技术,通过AlphaFold解码2万多个蛋白质结构,找到“口袋靶点”,再与几十亿、上百亿个蛋白质进行对接。目前仅有不到10%的蛋白质可用于制药,大量蛋白质分子结构的应用价值尚未被发掘,而该技术通过人工智能算法实现了筛选速度的百万倍提升。该研究成果发表于《科学》。

  聂再清老师团队打造的新药研发智能体,能够根据研发需求分解任务,自动查找资料、分析蛋白质结构和功能,生成初步研发图谱,极大提升了新药研发的效率,为科研人员提供了重要支持。

  人工智能在医疗领域的另一突破,是AIR刘洋老师团队打造的全球首个无人智能体医院——清华大学人工智能医院(2025年4月成立)。这是一个虚拟医院,医生、病人、护士等角色均由智能体担任,涵盖不同科室,形成完整诊疗闭环。智能体之间通过协作、博弈不断进化,无需人工标注数据。需要强调的是,AI智能体医生并非要替代人类医生,而是作为医生的助手,提升诊断效率和准确性。目前,该系统已在清华校医院、长庚医院等十几家医疗机构开展测试。

  未来技术发展和产业格局

  人工智能时代的“操作系统”

  下面,我想讲一下未来技术的发展趋势,特别是产业格局的变化。

  我在微软公司工作近16年,其间主持开发了全球最大的嵌入式操作系统WindowsCE。操作系统,是定义一个时代最重要的技术平台,有了操作系统之后,芯片、应用程序,整个技术生态其实都是围绕着操作系统来部署的。在PC时代,我们知道操作系统是Windows(视窗操作系统),芯片是X86架构,围绕着这个平台开发了各种各样的应用程序。到了移动互联网时代,我们用的手机操作系统是iOS和安卓,在国内也用华为的鸿蒙系统。芯片变了,变成了ARM架构,应用也变了,有各种不同的移动应用,像微信、短视频等等。到了人工智能时代,大模型就是操作系统。围绕着这个操作系统,芯片架构变成了以GPU为主流,应用生态也变了。这次人工智能时代的技术规模,比移动互联网时代、PC时代都要大很多倍,可能会达到一个数量级、两个数量级,甚至更大的规模。

  2023年3月,我绘制了人工智能时代的架构图:以前沿基座大模型为操作系统,上层涵盖行业垂直系统、SaaS应用软件,端侧(手机、PC)则通过大模型蒸馏或压缩后的小模型运行App。到2025年10月,我对这一架构进行了更新,核心变化是将SaaS和App替换为智能体——我认为智能体是未来的SaaS,也是未来的App。虽然短期内手机App仍是主流,但智能体功能将逐步融入其中。

  通用人工智能(AGI)的实现路径

  智能体是实现通用人工智能(AGI)的必然路径。目前AGI的定义尚未统一,我对其的理解是:可进化、可泛化、具备长期记忆,在99%的任务上超过99%的人类。要实现AGI,还需要解决一系列关键问题,比如构建符合物理定律的世界模型、理解因果关系、优化记忆系统等。当前AI的记忆较为粗糙肤浅,而人类记忆是智能的核心复杂部分。

  如果按照这样的定义,我认为我们在15~20年内会达到AGI的水平,并且能够通过“新图灵测试”。图灵测试一开始只是文本对话层面的测试,现在它已经延伸到各个领域了。首先在信息领域,在内容生成方面,我觉得5年之内就可以达到AGI的水平。10年之内,在物理智能方面可以实现AGI,无人车从技术方面已经基本过关了,人形机器人还需要更长的时间。我们现在看到各种人形机器人的表现都很好,也有很多相关研究,包括人形机器人的灵巧手、人脸肌肉控制等技术,但要做到真正和人类相似,估计至少还需要10年时间。我很看好这个产业,我认为,这会是一个巨大的产业。但是目前人形机器人还处于科研阶段,还未达到完全量产的程度。更重要的是生物智能领域,比如脑机接口、生物体与AI的融合、生命体的数字化等,这个领域要实现AGI,我认为还需要差不多20年的时间。

  从互联网的发展脉络来看,1995年我们开启了PC互联网时代,2005年开启了移动互联网时代,2015年开启了物联网时代,也就是万物互联的时代。现在我认为,我们进入了一个新的时代,即智能体互联网时代,也就是Internet of Agents。

  这里面有一个特别有意思的概念——Agent Swarm(智能体群)。这是2025年提出的概念,认为未来人类交往将通过智能体实现,智能体之间将形成群体智能,通过协作、博弈、纠错不断进化,如同蜂群、动物群体一般,最终进化为类似人类大脑神经元网络的结构,并催生“智能体经济”。这种智能体经济将彻底改变经济形态、人类组织架构和企业运作模式:企业的核心资产将变为芯片、数据中心、数据和AI模型;团队组建不再局限于招聘人类员工,智能体将成为重要组成部分。

  人工智能的风险与治理

  我们还要强调一件最重要的事:人工智能智能体在带来巨大机遇和强大能力的同时,也伴随着不可忽视的风险。

  风险包括几个层面:首先是信息智能领域的风险,我们已经看到了,它可以生成虚假信息,它可以进行深度伪造,有的时候它还会产生幻觉,还可以用来欺骗他人。另外,还有版权归属的问题。

  我们现在使用的互联网信息,从2025年11月开始,已经有50%以上由人工智能产生。该怎么防范这些信息中可能隐藏的风险?这需要我们从技术、政策、法规方面共同努力。不过,目前这个领域存在的风险,我认为还是可控的。

  在物理世界,我们把大模型、智能体和无人车、机器人、无人机,包括军事系统连接起来,智能体之间的协作和博弈如果出现失控、被恶意滥用,造成的风险就会更大。在生物智能领域,假如人类的大脑和AI连接在一起了,尽管这可以给人类带来巨大的好处,但是我们也可以想象到一旦出现失控、被滥用等情况,风险也会特别大。所以我们需要去研究和解决这些问题。这就需要科学研究人员、技术开发人员、产品设计人员,以及政策法规专家等各方协力共同打造有效的治理框架,这个治理框架应该是全球范围的。对此,我个人是有信心的——进化了这么多年的人类,完全可以发明高级的工具,同时管理好高级的工具。

  当前,人工智能正从鉴别式AI走向生成式AI,并逐步迈向智能体AI。新一轮人工智能是信息智能、物理智能和生物智能的融合,是原子、比特和分子的融合。在这一进程中,我们拥有天文级海量数据、指数级运算能力,更重要的是人与机器将协同进化,催生巨大的产业机遇——达沃斯AI理事会预测,到2030年,人工智能带来的新机遇将创造约20万亿美元的经济价值。同时,我们也必须直面隐私保护、安全保障、就业转型、社会公平、风险治理等一系列社会挑战。

  人工智能正在开启第四次工业革命。我坚信,凭借强大的国力、众多的人才和有利的政策,中国必将成为其中的领军者。

  《光明日报》(2026年01月24日 10版)

[ 责编:王文韬 ]
阅读剩余全文(