封面

“天才”的选择

霍思伊  2025-01-06 12:32:15

张钹:中国科学院院士,清华大学人工智能研究院名誉院长、教授,中国人工智能领域的主要奠基者。

 

2024年度教育家

 

他是中国人工智能主要奠基者,40岁后跨界走进这个“无人区”。他发表了中国第一篇人工智能领域论文,获得了中国这一领域的第一个国际重要奖项,也是首位人工智能领域的中国科学院院士。他教书六十余载,培养的近90名博士四代同堂。他熬过了人工智能的冬天,培养的“清华代表队”成为中国人工智能发展的中坚。

 

2024年年终,一边是AI巨头们扎堆发布“颠覆性”进展,比如“AI教母”李飞飞发布了一张图就能生成3D场景的AI模型;一边是国内大模型市场在下半年遇冷。

 

在冷热两极化的“AI大战”中,中国科学院院士、清华大学人工智能研究院名誉院长张钹始终保有定力,既没有对技术进步过度乐观,也不像一些人那样唱衰大模型。

 

早在两年前,人们还沉迷于大模型的“尺度定律”(Scaling Law,即规模越大,大模型越强)时,张钹就指出,ChatGPT只是向通用人工智能(AGI)迈出了第一步,下一步是与环境的交互。在他看来,AI的发展必须迈向对现实三维世界的深刻理解。

 

这是张钹又一次做出技术预判。89岁的他说话逻辑清晰、思维敏捷,输出观点快而密。说不到两句,就能感受到从他身上弥漫过来的强大自信。身为中国人工智能领域的奠基人之一,他的四代学生组成了中国最具代表性的一支AI队伍——“清华代表队”,其中一些人已成为国内大模型江湖的重要力量。

 

经历人工智能40多年来的潮起潮落,张钹总是逆潮而行,做出与别人不同但正确的选择。他是天才吗?他的技术洞察力来自哪儿?如何才能找到通往人工智能的真正方向?

 

“问题都解决了,还需要我干什么”

 

张钹的第一次选择发生在1978年。

 

清华大学进行部分院系调整,张钹所在的电子系(原自动控制系)改为计算机技术与应用系,系中原来从事自动控制研究的老师面临两个选择:待在计算机系,或去新成立的自动化系。他选择了前者。

 

很多老师劝他:国家未来要大力发展工业,自动化是最有前景的方向之一。“自动化领域,手里的工具主要就是PID(工业控制系统中最广泛使用的控制器),花一两年时间就能掌握它,放弃并不可惜。”张钹回忆,“有人说,你把已有的知识都丢掉了,还剩什么?我说,还剩一个脑袋。”

 

带着“唯一的脑袋”留在计算机系,张钹遇到的第一个任务是寻找有潜力的新方向。他翻阅国外学术期刊,发现美国很多大学的计算机系里都有一个方向:人工智能。

 

“当时,对于人工智能是什么,我也不是特别清楚,但它对我有极强的吸引力,因为这个领域里充满了大量的未知。AI在国际上刚发展了约20年,很多原理都说不清,这恰恰是我的用武之地,如果问题都解决了,还需要我干什么?”张钹说。

 

由于历史原因,张钹这一代学者错过了从事研究的黄金时期。43岁的他决定从零开始。下定决心不仅要勇气,还要有强大的自信。1935年出生于福建一个知识分子家庭的他,小学到中学的任何考试和竞赛成绩都是第一名。1953年,他以数理化三门满分的成绩考入清华大学电机系,后转入自动控制系。

 

数学是张钹最拿手的学科。阅读大量人工智能文献后,他敏锐地发现:多数AI研究中没有使用任何数学工具,“这意味着,很多还未解决的问题有机会用数学办法解决”。

 

1984年,张钹和当时在安徽大学任教的弟弟张铃,共同发表了中国AI领域的第一篇论文,刊登在AI国际顶刊上。论文研究的是用数学理论解决机器人的运动规划问题,即机械臂抓取物品时,如何通过更好的线路规避周围的障碍物。

 

那是20世纪80年代,以符号主义为代表的第一代人工智能正处于低潮。符号主义者认为,人类认知和思维的基本单元是符号,计算机为了模拟人类的智能行为,需要先把知识表示成符号,再通过推理等规则对符号进行操作,最后形成答案。“这是以知识驱动为核心。”张钹说。

 

符号AI的开创者们最初希望研究出通用方法,很快遭遇了失败,于是,退而求其次提出“专家系统”,即将知识范围缩小到一个具体领域,但这很难推广并上升到理论。

 

1980年,作为改革开放后的首批出国访问学者之一,张钹来到美国伊利诺伊大学香槟分校进修,他发现,很多AI专业的博士在论文的选题上遇到困难。“迟迟找不到好的选题,或者找了一个题目多年做不出来,只好中途放弃。”

 

张钹没有受到影响。“我不在意低潮还是高潮,只要清楚这件事能做就行。”这是典型的张钹式回答。事实上,从1978年暑期起,他就开始研究机器人运动规划,他出国第二年,就已投出中国AI领域的第一篇论文。他和张铃提出,将机械臂所在的几何空间简化成拓扑空间,“这就变成了一个纯数学问题”。此时,距离他决心转战AI还不到三年。

 

张钹成为国际上第一批提出用数学模型解决AI问题的学者之一。“研究工作相当于做解剖,解剖必须用快刀,先进的数学工具就是一把快刀。”张钹相信,“只要数学工具能用上,(人工智能的)研究就可以往前推。”

 

“雪山还是狗”

 

2002年,袁进辉还在西安电子科技大学计算机系读大三,成绩年级第一,想申请清华直博,“我咨询师兄,他说你可以先从清华计算机系最有名的老师开始联系”。当时,张钹是清华计算机系唯一的中国科学院院士。

 

此前,袁进辉已读过张钹和张铃共同撰写的一本关于人工神经网络的专著,第一反应是“两个作者的姓名好有特点”“书里有很多数学理论”。该书出版于20世纪90年代,那时人工神经网络是AI里很小众的领域。“张钹和张铃老师研究的是小众方向中更小众的偏理论部分,在当时是相当少见且超前的。”袁进辉说。

 

发现符号主义难以走通后,AI研究者逐渐转换思路,发展出连接主义的新流派,即信息是通过在人脑神经元之间建立起 “刺激—响应” 的连接进行传递。这一流派的代表成果就是人工神经网络。

 

但早期的人工神经网络只是浅层神经网络,难以解决稍微复杂一点的现实问题。于是,连接主义起步不久就陷入低谷,只有少数人认定这条路是正确的,包括2024年诺贝尔物理学奖得主杰弗里·辛顿、“卷积神经网络之父”杨立昆,还有张钹。20世纪90年代,张钹和张铃联手,围绕神经网络理论发表了多篇论文。

 

20世纪80年代末开始,国内AI发展迎来低潮期。彼时,张钹选了一条更务实的道路:承担国家重点攻关课题。但他没有放弃当时看起来不太有希望的理论研究。“清华人工智能学科理论研究的队伍中,基本一半人在做符号主义,一半人在做人工神经网络,而人工神经网络和深度学习一脉相承。等到深度学习的时代真正到来,我们立刻将大部分兵力转向深度学习。”张钹说。

 

2012年,深度卷积神经网络AlexNet在ImageNet(世界上最大的图像数据集)竞赛上一战成名。自此,以深度神经网络为基础的深度学习彻底出圈。“这就是以数据驱动为核心的第二代人工智能。”张钹说。

 

他指出,与早期的神经网络相比,深度神经网络“把深度加深了”,即中间的网络层数变多之后,性能发生了重大变化,只需输入大量的原始数据,就可以“自学成才”。他最初感到兴奋,但随后开始思考:深度学习的边界在哪儿?

 

清华大学计算机科学与技术系教授、人工智能研究院副院长朱军是张钹的学生。“2013年前后,正是深度学习最热的时候,很多激进的观点认为,AI三五年内就可能在自动驾驶等复杂场景量产,但张钹是国内最早公开谈论深度神经网络存在缺陷的专家之一。”朱军对《中国新闻周刊》说,“这时候他已经快80岁了。”

 

深度学习的一个关键弱点是容易被欺骗。张钹团队发现,深度神经网络的图像识别很脆弱。一张以雪山为背景的图片,只要加入一点“噪声”,“自学”之后的AI会将其识别成一条狗。这一问题绝非“雪山还是狗”这么简单,而是指向一个困扰张钹多年的更大难题:深度学习往何处去?

 

他很早就意识到,深度学习存在不可解释性与鲁棒性差(系统的抗干扰能力差)等根本性缺陷。2016年起,他陆续提出关于“新一代AI”的观点,2020年发表论文《迈向第三代人工智能》。他提出,第一、第二代人工智能都只是从一个侧面模拟人类的智能行为, 为了建立一个更全面反映人类智能行为的AI,需要把知识驱动与数据驱动结合起来。

 

打开“黑匣子”

 

2022年11月30日,ChatGPT正式亮相。此前,人们根本无法想象AI模型可以变得如此巨大。“绝大多数AI研究者感到非常震惊。”张钹说。

 

袁进辉指出,ChatGPT的诞生让人工智能进入截然不同的发展阶段。模型变大后,人们突然发现,过去多少年解决不了的问题可以用统一的方法搞定。“这是一次工业革命级的技术革命。”

 

像过去一样,张钹看问题的视角和别人不同。他说,多数人理解ChatGPT就是“大数据+深度学习”,其实它真正的突破,首先在自然语言文本上。ChatGPT不是像第二代AI那样,简单地把文本作为数据来处理,而是把文本当成知识(内容)来处理。“只有当机器可以从大量的数据中获取到知识,真正的转变才会发生。所以,ChatGPT能力的强大源自两点:一是大模型;二是大文本。”

 

可以说,ChatGPT是张钹预测中的第三代人工智能的雏形,但还远远不够。张钹指出,ChatGPT突破了前两代AI只能在限定领域完成限定任务的限制,这为建立起统一的人工智能理论提供了重大机遇,“这才是第三代人工智能实现的关键”。

 

迄今为止,人类一直通过模拟的方式让机器的行为与人类相似,但大模型还是一个“黑匣子”,这正是张钹认为AI理论下一步可能突破的地方。“我们要把大模型的内部机理分析清楚,解剖复杂系统行为背后的内在逻辑。谁能做到这一点?我说至少需要第二个爱因斯坦。”

 

在张钹的倡议下,2018年,清华大学成立人工智能研究院基础理论研究中心,朱军为研究中心主任。被问到理论突破的难度有多大时,他引用了一句话:“当你提出问题时,可能离解决问题已经不远了。”

 

这是张钹最常说的一句话。在他看来,中国学生解决问题的能力很强,但提出问题的能力不足。因此,在培养学生时,张钹格外重视训练学生“提出问题的能力”。

 

袁进辉2003年起跟随张钹读博,不像有的导师会出于“更容易出成果”或“项目有需要”等原因给学生指定博士选题,张钹总是让学生自己找题,鼓励大家自主探索无人区。

 

张钹强调,学生一定要有批判性精神,敢于质疑现有成果。“中国培养的很多学生只知道标准答案。我常说,不怕馊主意,就怕没主意。”

 

“先有正确的理解,再有正确的判断”

 

2016年,袁进辉决定孤注一掷。

 

他从微软亚洲研究院离职创业,选择的赛道是AI基础设施(AI Infra),即AI模型的“操作系统”。“我的理念是模型未来一定会变得很大,变大之后,现有的深度学习框架将难以承载,谷歌、亚马逊等大厂设计的底层架构都不是为大模型准备的,提前布局AI Infra,将来一定有商业机会。”他解释。

 

袁进辉的“超前”想法可以追溯到更早的博后时期。2008年,张钹认为计算机和脑科学的交叉很有潜力,提出了计算神经科学的方向,并邀请海外相关专家加入清华担任讲席教授指导学生,袁进辉就是受益者之一。若干年后,神经网络爆火,他下意识地从脑科学的角度去思考:“即使深度学习是万亿级的参数,离人脑神经元的规模也有好几个数量级的差距。人工神经网络未来必须变得很大,才可能真的拥有接近人类的智能。”

 

一些顶尖科学家面对象牙塔外的商业世界会显得无措,但张钹是一个另类。多位受访者提到,他在商业方面的眼光也很犀利。

 

2024年,国内的AI玩家从“炼大模型”的狂热中清醒过来,开始转向应用,而张钹两年前就预料到这一局面。“国内企业烧钱根本烧不起,只有做应用才能活下去,但这也是中国大模型企业当下面临的最大挑战,大模型尚未成熟时就去做应用,70%—80%的企业可能都会倒下。”他分析。

 

为何张钹总能做出正确的选择?“答案很简单,必须先有正确的理解,才能做出正确的判断。”他说,“就是要深思熟虑,我很不容易说服自己去相信某个结论,会不停地对自己提出疑问,然后刨根究底,直到把这个问题彻底想明白。”

 

ChatGPT诞生后,有些人觉得AGI马上就能实现,张钹却非常保守。他认为,需要去研究AI大模型的底层逻辑,尝试不同的问题,测试机器的能力边界。朱军指出,大模型发展的各个阶段,张钹总能快速找到一些最适合又很巧妙的例子去测评模型的弱点,根源在于他对AI系统本身有非常深刻的思考与见解。

 

张钹设计了这样一个问题:“我朝东面走,向右手方向转90°,迎面走来一个人,我看到他左手方向的地上有一道很长的他的身影。此时是早晨、中午还是下午?”

 

GPT-4o(GPT-4的升级版)没能答对,OpenAI2024年9月发布的新一代推理模型o1则回答正确:是早晨。张钹发现,两者的参数和数据没有明显区别,差距源于“思维链”技术。“o1对这一问题分析的逻辑链非常细致,一步步推理出了结果。”

 

AI领域最激烈的变化就集中在短短十几年内,这一切都发生在张钹77岁之后。朱军说,张钹自我要求极高,有强烈的好奇心与求知欲,快90岁每天还在看国外最新的论文。“他是我见过的学习能力最不可思议的人之一。最前沿的模型,玩得比我们还溜。”

 

很多学生认为张钹是天才。张钹说,先天的智商决定了一个人能够达到怎样的高度,但最终实际达到的高度取决于努力的程度。大模型里有个神奇的现象叫“涌现”,指模型规模增加到某一临界点时,性能会突然显著提升,甚至出现一些难以预测的能力,比如真正的智能。

 

“所以,你认为自己是天才吗?”

 

“我从6岁开始,每天都在学习,再笨的人也学聪明了。”

 

这就是天才的“涌现”。

 

发于2025.1.6总第1171期《中国新闻周刊》杂志

杂志标题:张钹:“天才”的选择

记者:霍思伊

编辑:杜玮