新智元报道

编辑:编辑部 HNZ

【新智元导读】强化学习之父Richard Sutton和他的导师Andrew Barto,获得了2024年图灵奖。有人说,图灵奖终于颁给了强化学习,这是迟到的「奖励」。

2024年图灵奖,颁给了强化学习之父!

就在刚刚,计算机学会ACM宣布:Andrew G. Barto和Richard S. Sutton为2024年ACM图灵奖获得者,以表彰他们为强化学习奠定了概念和算法基础。

继诺贝尔奖之后,AI学者再次将图灵奖收归囊中。


「强化学习之父」Richard S. Sutton和他的导师Andrew G. Barto,都为强化学习做出了奠基性的贡献。

从1980年代开始的一系列论文中,二人就引入了强化学习的核心理念,构建了数学基础,并开发了强化学习的关键算法——这是创建智能系统最为重要的方法之一。

1998年,Sutton和Barto共同撰写了「Reinforcement Learning: An Introduction」(强化学习导论),这本书至今仍被视为该领域的奠基之作。目前,已被引用了超过75,000次。

如今,Barto是马萨诸塞大学阿姆赫斯特分校信息与计算机科学系的名誉教授。

Sutton是阿尔伯塔大学计算机科学教授,Keen Technologies的首席研究员,以及阿尔伯塔机器智能研究所(Amii)的特聘研究员。

ACM A.M. 图灵奖常被誉为「计算机领域的诺贝尔奖」,奖金高达100万美元,由谷歌提供资金支持。该奖项以奠定了计算科学数学理论基础的英国数学家艾伦·图灵(Alan M. Turing)的名字命名。

得知自己获得今年图灵奖的消息时,Sutton感到非常震惊。


就在最近,Sutton才刚发文引述了图灵的名言

RL之父和他的博导

AI行业一直努力最大化机器知识容量。而身处这个行业的Richard Sutton,长期以来一直在思考一个更为基础的问题——机器如何学习?

随着「Reinforcement Learning:An Introduction」的出版,这本强化学习领域的「圣经」在数十年后,仍然有着重要的意义。因为这些思想本质上看似简单,却对更广泛的AI行业产生着持续的影响。


Sutton这样解释他的研究方法:研究必须从小处着手;这种基础研究,不会立即为最新技术带来明显的改进。

早在1978年,二人便开始合作。

当时,Sutton正在马萨诸塞大学阿默斯特分校攻读博士学位,而他的导师正是Barto。随后,Sutton又跟着Barto完成了博士后研究。

他们编写了一些最早的RL算法,就像人类或机器学习的方式一样,让机器通过反复试错获取知识。


虽然Sutton由此赢得了学术界的赞誉,但在某种程度上,却让他跟谷歌、微软、OpenAI等大公司构建的LLM所代表主流理论,产生了分歧。

在他看来,这些技术只是在模仿人类行为,并未真正认识到自己的行动,并且从中学习——

我认为它们并不在通往AGI的正确道路上。

强化学习的核心,是确保机器「从经验中学习」,或者理解反馈并从错误中学习。

然而,LLM是从海量历史数据中提取信息来生成回应的,所以它们的智能程度也仅仅与其神经网络在给定时间的规模相当。

因此,LLM天然就有一种「愚蠢的弱点」。虽然可以调整对书面问题的回答,但它们的主要目标,仅仅是确定文本链中的下一个输出而已。

对于如今的许多AI系统,Sutton都评价为「在于你互动时完全不会学习」。

比如在他看来,ChatGPT就不会根据自己的经验改变任何权重;它对结果漠不关心,也真正缺乏认知;它对发生的任何事都不会惊讶,因为它本来对于发生的事就没有任何预期。


Sutton的谷歌DeepMind前同事Michael Bowling如此评价他——

当世界其他地方都在追逐大语言模型应用时,Rich仍在坚守基础研究的阵地。

在以后,当人们希望看到能真正和人类互动的AI系统,他们可能会意识到,Sutton对强化学习的贡献是多么意义重大。

而且在过去五年中,RL也越来越被重视。引起全球轰动的DeepSeek,就是用RL通过正反馈循环来训练AI的。

在阿尔伯塔机器智能研究所(Amii)负责人Cam Linke看来,Sutton是一位为人谦逊、不事张扬的专业人士。他摒弃了科学领域常见的传统等级制度或政治因素,对他来说科学过程才是关键所在。

继Geoffrey Hinton和Yoshua Bengio在2018年与Yann LeCun一起因对深度神经网络研究的贡献获奖后,Sutton是最新一位获得图灵奖的加拿大研究者。

他表示,自己将自己看作是一个强化学习智能体,通过经验在各个层面学习,比如踢到脚趾后调整走路的方式,或者接受一份工作,从中获得乐趣。


什么是强化学习?

AI领域通常关注于构建AI智能体——即能够感知和行动的实体。

更智能的AI智能体能够选择更好的行动方案。因此,知道哪些行动方案更好对AI至关重要。

奖励——这一借用自心理学和神经科学的术语——表示一个提供给AI智能体与其行为质量相关的信号。

强化学习(RL)就是在这种奖励信号的引导下学习找到更好行动方案的过程。

从奖励中学习的理念对于动物训练师来说已经存在了数千年。

后来,艾伦·图灵(Alan Turing)在1950年的论文《计算机器与智能》中探讨了「机器能思考吗?」这一问题,并提出了一种基于奖励和惩罚的机器学习方法。

虽然图灵称他曾进行一些初步实验,而且Arthur Samuel在1950年代后期开发了一个能通过自我对弈进行学习的跳棋程序,但在随后的几十年里,AI的这一研究方向几乎没有取得任何进展。

到了1980年代初,受到心理学观察的启发,Barto和他的博士生Sutton开始将强化学习构建为一个通用问题框架。

他们借鉴了马尔可夫决策过程(MDP)提供的数学基础,在这个过程中,AI智能体在具有随机性的环境中做出决策,在每次状态转换后接收奖励信号,目的是将长期累积的奖励最大。

与标准MDP理论假设AI智能体已知MDP的所有信息不同,强化学习框架允许环境和奖励是未知的。

强化学习的信息需求最小,结合MDP框架的通用性,使得强化学习算法可以应用于广泛的问题领域。

Barto和Sutton,无论是合作还是与其他研究者协作,都开发出了许多强化学习的基本算法。

包括他们最重要的贡献——时间差分学习,它在解决奖励预测问题方面取得了重要突破,此外还有策略梯度方法和将神经网络作为表示学习函数的工具的使用。

他们还提出了结合学习和规划的AI智能体设计,证明了将环境知识作为规划基础的价值。

正如前文提到的,「Reinforcement Learning: An Introduction」这本书使数千名研究人员能够理解并为这一领域做出贡献,更重要的是,它还在继续激发当今计算机科学中的许多重要研究活动。

尽管Barto和Sutton的算法是几十年前开发的,但在过去十五年中,通过与深度学习算法(由2018年图灵奖获得者Bengio、Hinton和LeCun开创)相结合,强化学习的实际应用取得了重大突破——深度强化学习技术。


强化学习最引人注目的例子是AlphaGo计算机程序在2016年和2017年战胜世界顶尖人类围棋选手。

近几年的另一个重大成就是聊天机器人ChatGPT的出现。

ChatGPT是一个LLM,其训练分为两个阶段,第二阶段采用了一种称为基于人类反馈的强化学习(RLHF)技术,以更好地捕捉人类的期望和偏好。

强化学习在许多其他领域也取得了显著成功。

一个备受瞩目的研究案例是机器人在手中操作和解决物理(魔方)问题的运动技能学习,这表明完全在模拟中进行强化学习,最终也可能在显著不同的现实世界中取得成功。


其他的应用领域包括网络拥塞控制、芯片设计、互联网广告、优化算法、全球供应链优化、提升聊天机器人的行为和推理能力,甚至改进计算机科学中最古老的问题之一的矩阵乘法算法。

最后,这项部分受到神经科学启发的技术也反过来回馈了神经科学。最近的研究,包括Barto的工作,表明人工智能中开发的特定强化学习算法,为有关人类大脑中多巴胺系统的大量发现提供了最佳解释。

获奖人介绍


Andrew Barto


Andrew Barto是马萨诸塞大学阿默斯特分校信息与计算机科学系荣誉退休教授。是IEEE和AAAS的Fellow。

Barto于1970年从密歇根大学获得数学学士学位。在阅读了Michael Arbib and McCulloch和Pitts的作品后,他对利用计算机和数学来模拟大脑产生了兴趣,五年后因一篇关于元胞自动机的论文获得了该校的计算机科学博士学位。

他于1977年作为博士后研究员开始在马萨诸塞大学阿默斯特分校的职业生涯,此后曾担任多个职位,包括副教授、教授和系主任。

此前,他曾获得包括马萨诸塞大学神经科学终身成就奖、IJCAI研究卓越奖和IEEE神经网络学会先驱奖在内的众多奖项。

Richard Sutton


Richard Sutton是阿尔伯塔大学计算机科学教授,Keen Technologies的研究科学家,以及阿尔伯塔机器智能研究所(Amii)的首席科学顾问。是AAAI、英国皇家学会和加拿大皇家学会的Fellow。

在2017年至2023年期间,他曾担任DeepMind的杰出研究科学家。

在加入阿尔伯塔大学之前,他于1998年至2002年在AT&T香农实验室AI部门担任首席技术专家。

Sutton获得了斯坦福大学心理学学士学位,并在马萨诸塞大学阿默斯特分校获得计算机与信息科学的硕士和博士学位。

Sutton获得的荣誉包括国际AI联合会研究卓越奖、加拿大AI协会终身成就奖和马萨诸塞大学阿默斯特分校杰出研究成就奖。

参考资料:

https://awards.acm.org/turing

ad1 webp
ad2 webp
ad1 webp
ad2 webp