能否介绍一下强化学习（Reinforcement Learning），以及与监督学习的不同？

Question

随着 DeepMind 和 AlphaGo 的成功，强化学习（Reinforcement Learning）日益受到关注。然而，在一些机器学习入门课程…

关注者

2,432

被浏览

679,561

登录后你可以

不限量看优质回答私信答主深度交流精彩内容一键收藏

监督学习(SL)：给很多数据和标签(x,y)，从这些数据中寻找函数 y=f(x) 。
非监督学习(UL)：发现数据中隐藏的结构和规律，也是寻找函数 f(x) ,只不过没有标签。
强化学习(RL)：没有明确的指导信号，reward可以看做是指导信号，类比SL是求解函数 y =f(x,z) ,其中x是Agent的状态，z是Agent在该状态获得的奖励reward，f是要求解的策略policy，y则是输出的动作action，即根据状态和奖励序列求解最优策略， a = \pi(s,r) 。

RL 和SL UL的另外一个重要区别是SL UL需要满足数据是服从独立同分布的，而RL则不满足这个条件，因为Agent和环境交互过程中，它们的状态都是不断变化的，破坏了数据独立同分布的性质。RL系统中是时间往往很重要，这也是D.Sliver大神的观点，RL本质是对连续序列做决策的过程。