能否介绍一下强化学习(Reinforcement Learning),以及与监督学习的不同?

随着 DeepMind 和 AlphaGo 的成功,强化学习(Reinforcement Learning)日益受到关注。然而,在一些机器学习入门课程…
关注者
2,432
被浏览
679,561
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏
awkkk

给出了很好很不错的答案,特别RL与SL的对比写得好,答案开头附上的图更是醍醐灌顶让老衲热泪盈眶,下面是我的一些想法,当然是基于各答主的答案,如有错误请指正:

1. RL 是是一个序列预测的问题,这个问题与我们经常接触的time series(如stock selection)的区别在于,我们无法得到一个真正的target value来完成我们的loss function,而是用的自定义的反馈函数。

2. 利用反馈来优化RL带来的好处在于能够兼顾其对long term收益,对于一些需要长期策略支持的问题特别有效。举个栗子,下围棋和trading的策略有些是需要放长远的,短期的loss在长远来可能变成gain,而普通的SL对这种需要长短期记忆的问题处理得还相当简单直接。

总的说来,RL是一个需要长短期记忆的序列问题,其算法也有好几类,目前deep learning中炙手可热的lstm就可以用来解决RL的问题。所以我们在学习机器学习的时候,一定要注意如何定义问题,然后再针对不同的问题,不同的条件积累相应的算法。

好就酱,期待

awkkk

的更新!