发布于：2026-01-03更新于：2026-01-03

1 强化学习概述

强化学习：(再励学习、评价学习）机器学习方法. 本质：解决决策问题，针对具体问题得到一最优策略，使获得奖励最大.

强化学习概述

强化学习的背景

强化学习方法：起源于动物心理学相关原理，模仿人类和动物学习的试错机制；是一种通过与环境交互，学习状态到行为的映射关系，也即策略，表示在各个状态下，智能体采取的行为或行为概率.

强化学习初探

智能体与环境

强化学习方法包括智能体(学习者或玩家)和环境(与智能体交互的外部)两大对象.

强化学习原理
离散时间序列，智能体在每一时间，从环境接收状态，通过行为继续与环境交互，而环境产生新的状态，并给出一立即回报，并不断交互下去，

区分智能体与环境：

方法一：智能体是存在于环境中，能够与环境进行交互，自主采取行动以完成任务的强化学习系统，系统之外为环境.

扫地机器人的电动机和机械结构及传感器硬件——环境；基于强化学习的路径规划算法——智能体；
AlphaGo算法本身——智能体；当前旗局和回报——外部环境；

方法二：外部环境是不能被智能体随意改变的东西. e.g.回报

智能体主要组成

策略：映射 :状态行为
值函数：
模型：

策略

决定智能体行为的机制，是状态到行为的映射， $\pi(a\mid s)=P(A_t=a\mid S_t=s),$ 表示智能体在各个状态下各种可能的行为及概率.
策略分类
- 确定性策略（）
- 随机性策略：根据状态输出每个动作的概率，输出值为概率分布
策略仅和当前的状态有关, 与历史信息无关.

值函数

代表智能体在给定状态下的表现，或给定状态下某行为好坏程度，用未来的期望回报表示.
回报（收益 or 奖励）：从时刻开始往后所有回报的有衰减的总和 $G_t=R_{t+1}+\gamma R_{t+2}+\ldots =\sum_{k=0}^\infty\gamma^k R_{t+1+k},$ 折扣因子（衰减系数）：未来的回报在当前时刻价值比例. 接近0：趋向于「近视」性评估；接近1：偏重考虑远期利益.
值函数类别

状态值函数：从状态开始，遵循当前策略所获得的期望回报；或表示为在当前策略下，衡量智能体所处状态时的价值大小. （状态的价值大小）

$V_{\pi}(s)=E_{\pi}[G_t\mid S_t=s]=E_{\pi}[R_{t+1}+\gamma R_{t+2}+\ldots\mid S_t=s].$

状态行为值函数：在执行策略时，针对当前状态执行某一具体行为所获得的期望回报.

$\begin{aligned}Q_{\pi}(s,a)&=E_{\pi}[G_t\mid S_t=s,A_t=a]\\&=E_{\pi}[R_{t+1}+\gamma R_{t+2}+\ldots\mid S_t=s,A_t=a].\end{aligned}$

模型

模型是智能体对环境的一个建模，以智能体的视角看待环境的运行机制，期望模型能模拟环境与智能体的交互机制. 通过给定一个状态和行为，使得该环境模型能够预测下一个状态和立即回报.
环境模型需要解决的问题
- 状态转换概率，预测下一可能状态发生概率;
- 预测可能获得的立即回报 .
  表征环境的动态特性，以预测在状态采取行动后，下个状态的概率分布.
  表征在状态上采取行为后得到的回报.

$\begin{align*}& P^a_{ss'}=P(S_{t+1}=s'\mid S_t=s,A_t=a),\\ & R^a_s=E[R_{t+1}\mid S_t=s,A_t=a].\end{align*}$

若与已知, 即表示模型已知. 环境实际运行机制称为 环境动力学.
【注】模型不是必需(如蒙特卡洛, 时序差分)

监督学习、非监督学习、强化学习

监督学习： 需要人工给定标记，通过对具有标记的训练样本进行学习
非监督学习： 无须给定标记，通过对没有标记的训练样本进行学习
强化学习：训练样本(智能体与环境交互产生的数据)没有标记，仅有一个延迟回报信号

强化学习的分类

根据在解决强化学习问题时是否建立环境动力学模型，分为 模型方法 和无模型方法 .

教材参考：《强化学习》－邹伟－清华大学出版社