能否介绍一下强化学习(Reinforcement Learning),以及与监督学习的不同?

随着 DeepMind 和 AlphaGo 的成功,强化学习(Reinforcement Learning)日益受到关注。然而,在一些机器学习入门课程…
关注者
2,432
被浏览
679,528
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏

#2015-03-28

强化学习(RL)的基本组件:

  • 环境(标准的为静态stationary,对应的non-stationary)
  • agent(与环境交互的对象)
  • 动作(action space,环境下可行的动作集合,离散or连续)
  • 反馈(回报,reward,正是有了反馈,RL才能迭代,才会学习到策略链)

细看下来,分明与监督学习(SL),无监督学习(UL)是不同的类别,RL更像控制系统家族里的。是的,RL里流着控制的血液,披着机器学习的外衣,这是因为它需要data,需要training以此来支持决策。RL可以decision-making,不同于决策树之类的决策(称为预测比较好),是控制角度的决策,意味着就有失误,伴随着收益与惩罚(股票,博弈,游戏得分等等)。细一点来说,RL与SL的区别有:

  1. 喂数据的方式不同:强化学习(RL)的数据是序列的、交互的、并且还是有反馈的(Reward)-【MDP]。这就导致了与监督学习(SL)在优化目标的表现形式的根本差异:RL是一个决策模型,SL更偏向模式挖掘,低阶的函数逼近与泛化。RL是agent自己去学习,SL是跟着programmer的idea在收敛。
  2. RL的target是估计得来的,符合bellman等式,SL的target是fixed label;RL可以融合SL来训练,RL还可以自己博弈来生成样本。[交互特性,也可以放到第一点中]
  3. RL可以进行lifelong形式的学习。RL有“生命”的【你可能也不知道你训练出来的模型到底能干什么】,SL没有。

#2016-04-05补充: 上述提到了RL的基本组件,那么为何不同于SL?首先我认为RL=learning+decision-making,不是有“训练”数据就可以的(确切来讲训练一词不妥当),当action作用于环境,收到的reward是delayed,delayed意味着当前的action会影响long-term gain(RL的优化目标),SL里根本不存在这个概念;有意思的是RL的优化目标与SL或者UL也是截然不同的,SL/UL是尽可能的拟合当前一堆不会思考的数据,而RL考虑到了predictive control,会赋予当前的交互数据以决策权重。既然action会影响long-term gain,那么怎么选择action?这就不得不提exploration(探索)模块,又是一个行为心理学上的概念,可以说没有探索,RL学不到policy。因此在做RL研究的时候,始终要考虑到decision-making。不乏有人会说可以用SL为RL预训练一个base model。对,我觉得这一环节就像用到参数初始化的地方怎么选择初始化方法一样。扯远一点,当前RL的学习大部分是first-order的(从模型的更新方式角度来看),second-order怎么做或者是否可行?因为RL收敛到一个good policy实在很慢!

#2017-02-03:

introtodeeplearning.com