能否介绍一下强化学习（Reinforcement Learning），以及与监督学习的不同？

Question

随着 DeepMind 和 AlphaGo 的成功，强化学习（Reinforcement Learning）日益受到关注。然而，在一些机器学习入门课程…

关注者

2,432

被浏览

679,561

登录后你可以

不限量看优质回答私信答主深度交流精彩内容一键收藏

给出了很好很不错的答案，特别RL与SL的对比写得好，答案开头附上的图更是醍醐灌顶让老衲热泪盈眶，下面是我的一些想法，当然是基于各答主的答案，如有错误请指正：

1. RL 是是一个序列预测的问题，这个问题与我们经常接触的time series（如stock selection）的区别在于，我们无法得到一个真正的target value来完成我们的loss function，而是用的自定义的反馈函数。

2. 利用反馈来优化RL带来的好处在于能够兼顾其对long term收益，对于一些需要长期策略支持的问题特别有效。举个栗子，下围棋和trading的策略有些是需要放长远的，短期的loss在长远来可能变成gain，而普通的SL对这种需要长短期记忆的问题处理得还相当简单直接。

总的说来，RL是一个需要长短期记忆的序列问题，其算法也有好几类，目前deep learning中炙手可热的lstm就可以用来解决RL的问题。所以我们在学习机器学习的时候，一定要注意如何定义问题，然后再针对不同的问题，不同的条件积累相应的算法。

好就酱，期待

的更新！