强化学习:(再励学习、评价学习)机器学习方法. 本质:解决决策问题,针对具体问题得到一最优策略,使获得奖励最大.

强化学习概述

强化学习的背景

强化学习方法:起源于动物心理学相关原理,模仿人类和动物学习的试错机制;是一种通过与环境交互,学习状态到行为的映射关系,也即策略,表示在各个状态下,智能体采取的行为或行为概率.

强化学习初探

智能体与环境

强化学习方法包括智能体(学习者或玩家)和环境(与智能体交互的外部)两大对象.

强化学习原理
离散时间序列 ,智能体在每一时间 ,从环境接收状态 ,通过行为 继续与环境交互,而环境产生新的状态 ,并给出一立即回报 ,并不断交互下去,

区分智能体与环境:

  • 方法一: 智能体是存在于环境中,能够与环境进行交互,自主采取行动以完成任务的强化学习系统,系统之外为环境.
  1. 扫地机器人的电动机和机械结构及传感器硬件——环境;基于强化学习的路径规划算法——智能体;
  2. AlphaGo算法本身——智能体;当前旗局和回报——外部环境;
  • 方法二: 外部环境是不能被智能体随意改变的东西. e.g.回报

智能体主要组成

  • 策略:映射 :状态 行为
  • 值函数:
  • 模型:
  • 策略
  1. 决定智能体行为的机制,是状态到行为的映射, 表示智能体在各个状态下各种可能的行为及概率.
  2. 策略分类
    • 确定性策略(
    • 随机性策略:根据状态输出每个动作的概率,输出值为概率分布
  3. 策略仅和当前的状态有关, 与历史信息无关.
  • 值函数
  1. 代表智能体在给定状态下的表现,或给定状态下某行为好坏程度,用未来的期望回报表示.
  2. 回报(收益 or 奖励):从 时刻开始往后所有回报的有衰减的总和 折扣因子(衰减系数) :未来的回报在当前时刻价值比例. 接近0:趋向于「近视」性评估; 接近1:偏重考虑远期利益.
  3. 值函数类别
  • 状态值函数 :从状态 开始,遵循当前策略 所获得的期望回报;或表示为在当前策略 下,衡量智能体所处状态 时的价值大小. (状态 的价值大小)
  • 状态行为值函数 :在执行策略 时,针对当前状态 执行某一具体行为 所获得的期望回报.
  • 模型
  1. 模型 是智能体对环境的一个建模,以智能体的视角看待环境的运行机制,期望模型能模拟环境与智能体的交互机制. 通过给定一个状态和行为,使得该环境模型能够预测下一个状态和立即回报.
  2. 环境模型需要解决的问题
    • 状态转换概率 ,预测下一可能状态发生概率;
    • 预测可能获得的立即回报 .
      表征环境的动态特性,以预测在状态 采取行动 后,下个状态 的概率分布.
      表征在状态 上采取行为 后得到的回报.

已知, 即表示模型已知. 环境实际运行机制称为 环境动力学.
【注】模型不是必需(如蒙特卡洛, 时序差分)

监督学习、非监督学习、强化学习

监督学习: 需要人工给定标记,通过对具有标记的训练样本进行学习
非监督学习: 无须给定标记,通过对没有标记的训练样本进行学习
强化学习:训练样本(智能体与环境交互产生的数据)没有标记,仅有一个延迟回报信号

强化学习的分类

根据在解决强化学习问题时是否建立环境动力学模型,分为 模型方法无模型方法 .

教材参考:《强化学习》-邹伟-清华大学出版社


本站由 Xin 使用 Stellar 1.33.1 主题创建。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。

本"页面"访问 次 | 👀总访问 次 | 总访客