强化学习:(再励学习、评价学习)机器学习方法. 本质:解决决策问题,针对具体问题得到一最优策略,使获得奖励最大.
强化学习概述
强化学习的背景
强化学习方法:起源于动物心理学相关原理,模仿人类和动物学习的试错机制;是一种通过与环境交互,学习状态到行为的映射关系,也即策略,表示在各个状态下,智能体采取的行为或行为概率.
强化学习初探
智能体与环境
强化学习方法包括智能体(学习者或玩家)和环境(与智能体交互的外部)两大对象.
强化学习原理
离散时间序列
区分智能体与环境:
- 方法一: 智能体是存在于环境中,能够与环境进行交互,自主采取行动以完成任务的强化学习系统,系统之外为环境.
- 扫地机器人的电动机和机械结构及传感器硬件——环境;基于强化学习的路径规划算法——智能体;
- AlphaGo算法本身——智能体;当前旗局和回报——外部环境;
- 方法二: 外部环境是不能被智能体随意改变的东西. e.g.回报
智能体主要组成
- 策略:映射
:状态 行为 - 值函数:
- 模型:
- 策略
- 决定智能体行为的机制,是状态到行为的映射, 表示智能体在各个状态下各种可能的行为及概率.
- 策略分类
- 确定性策略(
) - 随机性策略:根据状态输出每个动作的概率,输出值为概率分布
- 确定性策略(
- 策略仅和当前的状态有关, 与历史信息无关.
- 值函数
- 代表智能体在给定状态下的表现,或给定状态下某行为好坏程度,用未来的期望回报表示.
- 回报(收益 or 奖励)
:从 时刻开始往后所有回报的有衰减的总和 折扣因子(衰减系数) :未来的回报在当前时刻价值比例. 接近0:趋向于「近视」性评估; 接近1:偏重考虑远期利益. - 值函数类别
- 状态值函数
:从状态 开始,遵循当前策略 所获得的期望回报;或表示为在当前策略 下,衡量智能体所处状态 时的价值大小. (状态 的价值大小)
- 状态行为值函数
:在执行策略 时,针对当前状态 执行某一具体行为 所获得的期望回报.
- 模型
- 模型
是智能体对环境的一个建模,以智能体的视角看待环境的运行机制,期望模型能模拟环境与智能体的交互机制. 通过给定一个状态和行为,使得该环境模型能够预测下一个状态和立即回报. - 环境模型需要解决的问题
- 状态转换概率
,预测下一可能状态发生概率; - 预测可能获得的立即回报
. 表征环境的动态特性,以预测在状态 采取行动 后,下个状态 的概率分布. 表征在状态 上采取行为 后得到的回报.
- 状态转换概率
若
【注】模型不是必需(如蒙特卡洛, 时序差分)
监督学习、非监督学习、强化学习
监督学习: 需要人工给定标记,通过对具有标记的训练样本进行学习
非监督学习: 无须给定标记,通过对没有标记的训练样本进行学习
强化学习:训练样本(智能体与环境交互产生的数据)没有标记,仅有一个延迟回报信号
强化学习的分类
根据在解决强化学习问题时是否建立环境动力学模型,分为 模型方法 和无模型方法 .
教材参考:《强化学习》-邹伟-清华大学出版社