首页 > 学院 > 名词解释 > 正文

什么是强化学习?从奖励中学习

2025-03-06 17:47:21
字体:
来源:转载
供稿:网友
人工智能(AI)领域关注构建智能体,即能感知与行动的实际存在,而更智能的智能体现在其能选择更优的行动方案。因此,“某些行动优于其他”的概念是 AI 的核心。奖励(reward,源于心理学与神经科学的术语)表示提供给智能体与其实际行为质量相关的信号。强化学习(RL) 则是通过奖励信号学习更成功行为的过程

“从奖励中学习”的理念由来已久,可以追溯到千年以来的动物训练,后来,图灵 1950 年的论文《计算机器与智能》(Computing Machinery and Intelligence)提出“机器能思考吗?”的问题,并提出了基于奖励和惩罚的机器学习方法。

尽管图灵报告了一些初步的相关实验,以及亚瑟・塞缪尔(Arthur Samuel)在 20 世纪 50 年代开发了通过自我对弈学习的跳棋程序,但此后数十年,在人工智能这一方向进展甚微。20 世纪 80 年代初,受心理学启发,巴托与博士生萨顿开始将强化学习定义为通用问题框架。

他们借鉴马尔可夫决策过程(MDPs)的数学基础,其中智能体在随机环境中决策,每次状态转移后接收奖励信号,以最大化长期累积奖励为目标。与传统 MDP 理论假设环境完全已知不同,强化学习框架允许环境与奖励是未知的。这种最小化信息需求与 MDP 的通用性结合,使强化学习算法适用于广泛问题。

巴托和萨顿与其他研究人员共同开发了强化学习的许多基本算法。他们的重要贡献之一是——时序差分学习(Temporal Difference Learning),它在解决奖励预测问题方面取得了重要进展;以及策略梯度方法(policy-gradient methods)和将神经网络作为表示已学习功能的工具使用。他们还提出了结合学习和规划的智能体设计,证明了将环境知识作为规划基础的价值。

此外,他们的经典教材《强化学习:导论》(Reinforcement Learning: An Introduction,1998)被引用超 7.5 万次,至今仍是该领域标准参考资料。在这本书的影响下,成千上万的研究者能够理解并参与到这个新兴领域,并继续激发今天计算机科学领域的大量重要创新。

尽管巴托和萨顿的算法诞生于数十年前,但其与深度学习算法的结合(由2018年图灵奖获得者Bengio、Hinton和LeCun开创),从而导致了深度强化学习的出现,在过去 15 年取得多项重大突破。

最突出的例子是 AlphaGo 程序在 2016 年和 2017 年战胜了最优秀的人类围棋选手。最近一项重大成就则是聊天机器人 ChatGPT 的开发。ChatGPT 是一个经过两阶段训练的大型语言模型(LLM),其中第二个阶段采用了一种被称为基于人类反馈的强化学习(RLHF)的技术,以获取人类的期望。

此外,强化学习也在许多其他领域取得成功。一个引人注目的例子是在机器人操作和解决物理(三阶魔方)问题中的运动技能学习,这表明有可能在模拟中进行所有强化学习,最终在截然不同的现实世界中取得成功。其他领域包括网络拥塞控制、芯片设计、互联网广告、全球供应链优化、提升聊天机器人的行为和推理能力,甚至改进计算机科学中最古老的问题之一——矩阵乘法的算法。

最终,一项部分受神经科学启发的技术也予以了回报。包括巴托在内的近期研究显示,人工智能领域开发的特定强化学习算法为有关人类大脑多巴胺系统的大量发现提供了最佳解释。

ACM 主席雅尼斯·约安尼迪斯(Yannis Ioannidis)表示:“巴托和萨顿的研究成果表明,将多学科方法应用于我们领域长期存在的挑战具有巨大潜力。从认知科学、心理学到神经科学等研究领域启发了强化学习的发展,这为人工智能的一些最重要进展奠定了基础,并让我们对大脑的工作原理有了更深入的了解。巴托和萨顿的工作并非我们已经跨越的垫脚石。强化学习仍在不断发展,并为计算及其他众多学科的更进一步提供了巨大潜力。授予他们本领域的最高荣誉,实至名归。”

谷歌高级副总裁杰夫·迪恩(Jeff Dean)指出:“在 1947 年的一次演讲中,艾伦·图灵曾表示‘我们需要的是一台能够从经验中学习的机器’。由巴托和萨顿开创的强化学习直接回应了图灵的这一挑战。他们的工作在过去几十年里一直是人工智能领域取得进展的关键所在。他们开发的工具仍然是人工智能热潮的核心支柱,并促成了重大进步,吸引了大批年轻研究人员,并带来了数十亿美元的投资。强化学习的影响还将持续到未来很长一段时间。谷歌很荣幸赞助图灵奖,并向那些塑造了改善我们生活的技术的人士致敬。”
发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表