能否介绍一下强化学习(Reinforcement Learning),以及与监督学习的不同?

随着 DeepMind 和 AlphaGo 的成功,强化学习(Reinforcement Learning)日益受到关注。然而,在一些机器学习入门课程…
关注者
2,432
被浏览
679,528
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏

有朋友关注这个问题,我简单答下.

在我的理解中,Reinforcement Learning与普通Supervised Learning最大的区别在于,其训练包含着一个尝试的过程.这里用不用深层神经网络方法其实相对无关紧要.

比如图像或者文本分类,普通的分类算法会用某种方式提取特征,然后进行SVM或logistic regression.但对于博弈类游戏,比如围棋等,会有一个两个Agent互相用已有的模型制订策略,并根据最后的结果修正自己的模型的过程;或者是在寻路,控制算法中,会有一个根据表现的优劣来更新自己权重,尝试向更好的参数逼近的过程.

比如Feifei Li的 "Target Driven Visual Navigation in Indoor Scenes using Deep Reinforcement Learning"这篇文章里,用机器人看虚拟房间的方式并尝试寻路的方式,进行房间内按图像寻找位置和最优路径的任务训练.

之前Andrew Ng有篇文章讲直升机控制,也是这个原理."Autonomous Helicopter Flight Via Reinforcement Learning".

大概就是这样.

这种问题的难点在于非凸性.普通的classification,如果用深层神经网,那么optimizer的选择本身就是个问题.如果再涉及到reinforcement这种含有尝试性质的迭代过程,而不是用固有的数据集,那非凸性很可能就更加明显.目前的深层神经网方法对非凸性还没有一个非常好的,有数学证明的解决方式,一切都是靠摸索出来的经验进行.