能否介绍一下强化学习(Reinforcement Learning),以及与监督学习的不同?

随着 DeepMind 和 AlphaGo 的成功,强化学习(Reinforcement Learning)日益受到关注。然而,在一些机器学习入门课程…
关注者
2,432
被浏览
679,561
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏
  • 监督学习(SL):给很多数据和标签(x,y),从这些数据中寻找函数 y=f(x)
  • 非监督学习(UL):发现数据中隐藏的结构和规律,也是寻找函数 f(x) ,只不过没有标签。
  • 强化学习(RL):没有明确的指导信号,reward可以看做是指导信号,类比SL是求解函数 y =f(x,z) ,其中x是Agent的状态,z是Agent在该状态获得的奖励reward,f是要求解的策略policy,y则是输出的动作action,即根据状态和奖励序列求解最优策略, a = \pi(s,r)

RL 和SL UL的另外一个重要区别是SL UL需要满足数据是服从独立同分布的,而RL则不满足这个条件,因为Agent和环境交互过程中,它们的状态都是不断变化的,破坏了数据独立同分布的性质。RL系统中是时间往往很重要,这也是D.Sliver大神的观点,RL本质是对连续序列做决策的过程。