强化学习(RL)是否是人工智能的关键之处,能够给人工智能带来质变?

[图片] 强化学习是AI的终极方法,理论极限 - AlphaGo项目的元老Jürgen Schmidhuber教授 http://post.mp.qq…
关注者
1,541
被浏览
226,418

48 个回答

直接回答: RL 就是一种普通的机器学习研究框架,已经有几十年的历史。并不能给AI带来什么质变。 RL可以和监督学习,统计方法等组合套用解决实际的问题。包括围棋。

借用老板的话 “人类观察鸟受到启发而发明飞机,然而飞机的原理和鸟玩完全不一样”

人的学习,是社会推动,社会意识,家庭教育,小中大学教育共同结果,而不是由生理化学主导。否则你我就酗酒吸毒去啦,因为根据Reforcement Learning理论,嗑药才是最优解。


关于遗传得到的不是知识,而是奖励函数(reward function)

RL里有一个奖励函数(reward function) 对应我们人大脑和神经系统其他部分的的反应。比如吃糖,这个是能量物质,通过多巴胺等生理过程给予快乐的感觉,鼓励你多吃糖。另外一个例子是对冷热的感知,如果外接过冷或者过热,人接受到惩罚信号。

例子: 一个小猴子,冷了,它偶钻到地上被子里,发现暖和。这个时候它得到知识,这是reinforcement learning得到的。讨论到人。 如果妈妈说不能用手碰壁炉,你听话,这就是后天知识Taught Knowledge(TK) ,是人类经验的体现。 如果妈妈没教,你自己小时候被壁炉烫伤过,知道远离壁炉,这是Reinforcement Learning知识(RLK)。很显然,除非你是狼人,否则前者(TK)的知识远远比(RLK)多。

Taught Knowledge(TK)是理性的,社会监督导向,更高级的知识。 RL学到的,只是让你身体爽而已,可能让你无节制的吃,懒惰,嗑药

所以人之所以智能,主要得益于我们的文明。人类社会发展是复杂的,不是一两个AI方法就能表达。我自己学习和研究AI,随着时间增加,反而陷入不可知论的思想里。


===============跑题 科普一下 增强学习reinforcement learning===========

图片来源:【2】Sutton Reinforcement learning: An introduction


如上题。 人工智能体Agent 和环境(Environment)发生交互而学习到知识。 以自动打吃豆豆游戏(Pac-man)为例。

1.人工智能体Agent(下文简称 Agent)观察环境,记录特征。 比如到最近豆豆的距离,

到最近鬼的距离。

2.采取行动,前后左右四个行动,选择一个走一格。

3. 得到一个反馈。 比如撞到鬼输了游戏减去100分,或者吃完所有豆豆,赢了游戏加 100分。

4.再次观察环境。 这个时候环境特征变化(和鬼的距离,和最近豆豆的距离)

增强学习目标: 总的反馈分数最大。

RL本质: 环境-行动 树的搜索。

一开始Agent在一个初始状态。比如停在停车每个状态下可以采取多个行动(前,后,左,右)转移到不同的状态(和鬼距离,和豆豆距离)

图片来源 【1】 BerkeleyX's CS188x PPT


S 三角形代表状态, <s,a>圆点代表选着的行动。RL本质和其他决策类AI并无不同,搜索上面这颗树。剩下的就是各种算法啦,可见并没有什么高深玄虚之处。

========================干货===============================

推荐 加州大学伯克利分校的 AI课程 ,免费世界上最好的AI课程。可以学习怎么自己设计RL智能。完成吃豆豆游戏哦

courses.edx.org/courses

=====================笑话==============================

前段时间有公司找我做技术合伙人,CEO安利了一堆情怀,并且组建了一个情怀团队,现在就缺一个码农。


感谢cousera ,edx, Stanford online,MIT open,清华学堂在线 等等资源,因为你们的无私,前言科学的学习曲线已近平缓很多。给了务实的人免费的上升渠道。


参考文献:

[1]BerkeleyX's CS188x PPT

[2]Sutton, R. S., & Barto, A. G. (1998). Reinforcement learning: An introduction. MIT press.

来泼下冷水,只要听见说“xxxx方法是否是人工智能的关键”,最可能的回答就是,不是。请不要媒体说啥就是啥,人工智能是一个大集合,往往是各种方法的融会贯通才能达到最终的效果。

举个例子,伯克利人工智能方向的博士生,入学一年以后资格考试要考这几个内容:

- 强化学习和 Robotics

- 统计和概率图模型

- 计算机视觉和图像处理

- 语音和自然语言处理

- 核方法及其理论

- 人工智能:一种现代方法中的其他方面(包括搜索,CSP,逻辑,planning,等等)

一个小时,两个教授随便出题,要求口试解答通过。挂两次的话,嘿嘿。(虽然真挂两次的不多)

如果真的想做人工智能,建议都了解一下,不是说都要搞懂搞透,但是至少要达到开会的时候和人在poster前面谈笑风生不出错的程度吧。

这些方向都渊源已久了,虽然你可能今天刚从新闻上看到强化学习,但是Sutton&Barto那本讲RL得书,已经是近20年以前的事情了,Q-learning那个时候就有。神经网络的一些基础理论,往前可以追溯到Hubel&Wiesel六七十年代对于视觉神经元的研究甚至更早,他们的研究还获得了1981年的诺贝尔奖。科研上的事情都不是忽然冒一个大新闻,都是无数科研工作者多年来不断推进的结果。

如果就想看个新闻看个热闹。。。那请当我没说。