强化学习先驱 Andrew Barto 与 Richard Sutton 获得2025图灵奖

文章来源于机器之心

人工智能学者,再次收获图灵奖!

今日霍州(www.jrhz.info)©️

刚刚,计算机学会(ACM)宣布了 2024 年的 ACM A.M. Turing Award(图灵奖)获得者: Andrew BartoRichard Sutton

他们都是对强化学习做出奠基性贡献的著名研究者,Richard Sutton 更是有「强化学习之父」的美誉。Andrew Barto 则是 Sutton 的博士导师。自 1980 年代起,两位学者在一系列论文中提出了强化学习的主要思想,还构建了强化学习的数学基础,并开发了强化学习的重要算法。两人合著的《 Reinforcement Learning: An Introduction》一直是强化学习领域最经典的教材之一。

Andrew Barto 是马萨诸塞大学阿默斯特分校信息与计算机科学荣休教授。Richard Sutton 是阿尔伯塔大学计算机科学教授,同时也是 Keen Technologies 的研究科学家。

ACM 图灵奖常被称为「计算机领域的诺贝尔奖」,奖金为 100 万美元💵,由谷歌公司提供资金支持。该奖项以提出计算数学基础的英国数学家艾伦・图灵命名。

强化学习,当今 AI 突破的原点

今日霍州(www.jrhz.info)©️

jrhz.info

说起强化学习,我们可以想起最近引爆全球 AI 技术爆发的 『DeepSeek』 R1,其中的强化学习算法 GRPO 赋予了大模型极强的推理能力,且不需要大量监督微调,是 AI 性能突破的核心。

再往前看,在围棋上超越人类的 AlphaGo 也是利用强化学习自我博弈训练出的策略。可以说最近的几次 AI 突破,背后总有强化学习的身影。

人工智能领域通常会比较关注智能体的构建 —— 即可以感知和行动的实体。更智能的智能体能够选择更好的行动方案。因此,想出比其他方案更好行动方案概念,对 AI 非常关键。借用自心理学和神经科学的「奖励」— 词,表示向智能体提供的与其行为质量相关的信号。强化学习(RL)是在这种信号下学习更成功行为的过程。

通过奖励学习的理念对动物训练师来说已有数千年历史。后来,艾伦・图灵 1950 年的论文《计算机械与智能》提出了「机器能思考吗?」的问题,并提出了基于奖励和惩罚的机器学习方法。

图灵报告说他进行了一些初步实验,Arthur Samuel 也在 1950 年代后期开发了一个能通过自我对弈学习的跳棋程序。但在接下来的几十年里,AI 的这一方向进展甚微。

直至 1980 年代初,受心理学观察的启发,Andrew Barto 和他的博士生 Richard Sutton 开始将强化学习作为一个通用问题框架进行构建。

他们借鉴了马尔可夫决策过程(MDP)提供的数学基础,在这个框架中,智能体在随机环境中做出决策,每次转换后收到奖励信号,并最大化其长期累积奖励。

与标准 MDP 理论假设智能体知道一切不同,RL 框架允许环境和奖励是未知的。RL 的最小信息需求,结合 MDP 框架的通用性,使 RL 算法可以应用于广泛的问题。

Andrew Barto 和 Richard Sutton 联手或者协同他人,都开发了许多 RL 基本算法。其中包括他们最重要的贡献 —— 时间差分学习(该算法为解决奖励预测问题取得了重要进展),以及策略梯度方法和使用神经网络作为表示学习函数的工具。他们还提出了结合学习和规划的智能体设计,展示了获取环境知识作为规划基础的价值。

同样有影响力的是他们的教科书《Reinforcement Learning: An Introduction》(1998),它仍然是该领域的标准参考,被引用超过 79,000 次。这本书让数千名研究人员理解并为这一新兴领域做出贡献,至今仍激发着计算机科学领域的许多重要研究活动。

今日霍州(www.jrhz.info)©️

尽管 Barto 和 Sutton 的算法是数十年前开发的,但通过将强化学习与深度学习(由 2018 年图灵奖获得者 Bengio、Hinton、LeCun 开创)相结合,强化学习的实际应用已在过去十五年中取得重大进展。于是,深度强化学习技术应运而生。

强化学习最著名的例子是 AlphaGo 计算机程序在 2016 年和 2017 年战胜了顶级人类围棋选手。另一个近期重大成就是聊天『机器人』️ ChatGPT。

ChatGPT 是一个经过两阶段训练得到的大型语言模型(LLM),其中第二阶段采用了一种名为「基于人类反馈的强化学习(RLHF)」的技术,其作用是可以让模型输出符合人类期望。

强化学习在许多其他领域也取得了成功,其中之一是『机器人』️运动技能学习。通过强化学习,机器手可以学会操作物体和解决物理问题;并且这种学习过程可在模拟中完成,然后再迁移到现实世界。

强化学习适用的领域还包括网络拥堵控制、『芯片』设计、『互联网』广告、优化、全球供应链优化、改进聊天『机器人』️的行为和推理能力,甚至改进矩阵乘法算法 —— 这是计算机科学中最古老的问题之一。

最后,强化学习还反过来助力了神经科学的发展 —— 强化学习正是受到了该学科的启发。最近的研究,包括 Barto 的研究成果,已经表明 AI 领域开发的某些强化学习算法可为涉及人类大脑中『多巴胺』系统的广泛发现提供最佳解释。

「Barto 和 Sutton 的工作展示了将多学科方法应用于我们领域长期挑战的巨大潜力,」ACM 主席 Yannis Ioannidis 解释道。「从认知科学和心理学到神经科学的研究领域启发了强化学习的发展,这为 AI 领域的一些最重要进展奠定了基础,并让我们更深入地了解大脑如何工作。Barto 和 Sutton 的工作不是我们已经超越的垫脚石。强化学习继续发展,并为计算和许多其他学科的进一步发展提供了巨大潜力。用我们领域最负盛名的奖项表彰他们是非常恰当的。」

「在 1947 年的一次演讲中,艾伦・图灵表示『我们想要的是一台能从经验中学习的机器』」,谷歌高级副总裁 Jeff Dean 指出。「Barto 和 Sutton 开创的强化学习直接回应了图灵的挑战。他们的工作是过去几十年 AI 进步的关键。他们开发的工具仍然是 AI 繁荣的中心支柱,带来了重大进步,吸引了大量年轻研究人员,并推动了数十亿美元💵的投资。RL 的影响将持续到未来。谷歌很荣幸赞助 ACM 图灵奖并表彰那些塑造了改善我们生活的技术的个人。」

今日霍州(www.jrhz.info)©️

个人背景

Andrew G. Barto

Andrew Barto 是马萨诸塞大学阿默斯特分校信息与计算机科学系荣誉退休教授。他于 1977 年作为博士后研究助理在马萨诸塞大学阿默斯特分校开始职业生涯,此后担任过多个职位,包括副教授、教授和系主任。Barto 在密歇根大学获得数学学士学位(优等),并在那里获得了计算机与通信科学的硕士和博士学位。

Barto 的荣誉包括马萨诸塞大学神经科学终身成就奖、IJCAI 研究卓越奖(Research Excellence Award)和 IEEE 神经网络学会先驱奖。他是电气和电子『工程师』协会(IEEE)会士和美国科学促进会(AAAS)会士。

Richard S. Sutton

Richard S. Sutton 是阿尔伯塔大学计算机科学教授、Keen Technologies(一家总部位于德克萨斯州达拉斯的通用人工智能公司)的研究科学家,以及阿尔伯塔机器智能研究所(Amii)的首席科学顾问。Sutton 从 2017 年到 2023 年是 DeepMind 的杰出研究科学家。在加入阿尔伯塔大学之前,他曾于 1998 年至 2002 年在新泽西州 Florham Park 的 AT&T 香农实验室人工智能部门担任首席技术人员。

Sutton 与 Andrew Barto 的合作始于 1978 年,当时在马萨诸塞大学阿默斯特分校,Barto 是 Sutton 的博士和博士后导师。Sutton 在『斯坦福大学』获得心理学学士学位,在马萨诸塞大学阿默斯特分校获得计算机与信息科学的硕士和博士学位。

Sutton 的荣誉包括获得 IJCAI 研究卓越奖、加拿大人工智能协会终身成就奖和马萨诸塞大学阿默斯特分校的杰出研究成就奖。Sutton 是伦敦皇家学会会士、人工智能促进协会会士和加拿大皇家学会会士。

参考链接

https://amturing.acm.org/

特别声明:[强化学习先驱 Andrew Barto 与 Richard Sutton 获得2025图灵奖] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

李乃文没有想到,因剪彩风波丢掉的“体面”,一个晚上就找回来了(李乃文的)

曾经感慨“演员是一条不归路”的李乃文,人到中年却仿佛打开了新世界的大门,从专注演戏的演员,变成了综艺节目的常客,真可谓踏上了一条意想不到的“不归路”。 周围粉丝一起哄,他的综艺“后遗症”又犯了,以为自己制造了…

李乃文没有想到,因剪彩风波丢掉的“体面”,一个晚上就找回来了(李乃文的)

快速卷帘门分析系统的控制知识:(快速卷帘门分析方法)

调试时只用轻触面板(没有轻触面板时仅在电气箱的门上接上升、下降、停止按钮、手动-自动旋钮和手动指示灯、自动指示灯)等到门的下极限、下原点、下变速、上变速、上极限和延时等基本数据设置完成后(门能够正常上下运行)…

快速卷帘门分析系统的控制知识:(快速卷帘门分析方法)

2025年构筑智能化攻防格局:网络安全实验室的战略与未来蓝图报告(智能制造2025的重点领域有哪些)

该报告围绕网络安全实验室的战略布局与未来发展,系统阐述了以智能化为核心的攻防体系构建路径,为网络安全防护提供了全面蓝图。第一阶段以具体业务场景为切入点,实现流程自动化与效率提升;第二阶段构建统一智能安全平台…

2025年构筑智能化攻防格局:网络安全实验室的战略与未来蓝图报告(智能制造2025的重点领域有哪些)

西电无人机集群实现“秒级”处置 森林防控迈入智能协同时代(电科院无人机集群)

针对“动态火场”火势蔓延快、环境变化急、集群响应易延迟的难题,团队将无人机集群技术应用于协同灭火关键环节,一方面通过“动态联盟”策略为无人机分派最优任务,另一方面采用“混合轨迹规划”算法实时规划飞行路径,使…

西电无人机集群实现“秒级”处置 森林防控迈入智能协同时代(电科院无人机集群)

2025年,如何挑选一款贴心实用的礼金簿?礼金簿结婚签到本礼单簿记账本📒人情嘉宾礼簿婚礼礼薄婚庆用品大全全解析(2025年怎么样)

随着消费升级,选择合适的礼金簿不再只是记录礼金那么简单,它关乎新人和宾客的互动体验。本文详解礼金簿的功能定位、选材工艺、容量设置、样式设计等核心要素,帮助新人找到最适合的款式。 预算有限的新娘不必纠结高价进口纸张,选择厚实耐磨且有独特设计感

2025年,如何挑选一款贴心实用的礼金簿?礼金簿结婚签到本礼单簿记账本📒人情嘉宾礼簿婚礼礼薄婚庆用品大全全解析(2025年怎么样)