深入机器学习系列1-序章

深入机器学习系列1-序章

1996年,美国费城举行了一次特别的国际象棋比赛,其中一位参赛者是名为“深蓝”的国际象棋计算机。在决赛中,IBM公司研发的深蓝2:4输给了世界冠军卡斯帕罗夫。这是人类与计算机的第一次交锋。当时的深蓝并没有像人类一样演绎归纳的经验而只能评价海量的计算和人类抗衡,但最终败下阵来。然而1年后,对战双方又进行了一次对决,这次深蓝完成复仇,总比分3.5:2.5战胜了卡斯帕罗夫,拉开了AI的序幕。


(dota2人类冠军Dendi 图片来自liquipedia)

20年过去了,在今年的dota国际邀请赛Ti7上,主办方进行了一次和往常不同的对决:不再是人和人,而是人类VS AI。Valve在淘汰赛第五日第二轮让世界顶级中单玩家Dendi和AI进行了一场中路SOLO对决。然而和20年前双方胶着的战斗不同的是,在10分钟之内AI就轻松击败了人类世界冠军。比赛中AI不管在卡兵或补刀的操作效率都远远高于人类冠军水平,甚至作出了补漏刀的假动作欺骗Dendi上前并反杀。赛后,AI提供公司Open AI的老总Elon Musk也发推表示这次是AI的一大进步,因为电脑游戏的变量远比传统娱乐项目复杂。在AlphaGo在围棋领域取得成功后,这是人工智能技术的又一大飞跃。更惊人的是,Open AI从开始设计到战胜世界冠军只用了不到2周的时间。


2017年中国乌镇围棋峰会上柯洁对阵Alpha Go,第二局比赛以柯洁中盘认输结束。 图片来自新华社

为什么人工智能的发展速度如此超乎人类社会的想象?曾经AI似乎仅仅是利用其庞大和快速的计算量来打败人类。“把下每一步棋的后果都记算一遍”是人类曾经认为的AI的思考方式。然而过去20年中,随着大数据技术的快速发展,AI已不仅仅是简单无脑的暴力计算,AI有了自己的学习方法:深度学习。深度学习的概念源于人类神经网络的研究,通过分析底层数据和现象演绎得出更加高级抽象的结论。深度学习的特征是研究数据的分布式特征。通过研究大量数据并分析其特性,可以得出数据群体的特性并且预测其发展态势。早期的计算机专注于处理人类能力很难完成的事,比如在几秒内计算出2的100次方或者pi小数点后的几千万位。然而今天的人工智能聚焦于那些人类认为“很简单”的任务。比如人脸识别,字符识别或是人类的情感变化。这些任务并没有明确的公式帮助计算机完成,人类通常靠所谓的“直觉”来解决这些事情。然而深度学习通过分析面部表情的细微变化或是字符笔画间固定的间距可以得出异常客观准确的结论。让计算机自己从大量的经验和数据中分析学习可以避免人类下达指令提供计算公式的被动局面。由于人脑在思考时是一层层得出结论,因此深度学习同样要求足够的深度。在计算时,从一个输入到输出的最长路径被称为深度。如果一个深度架构被潜架构表示,那么深度学习归纳出的结论便并不准确。

我们会在接下来陆续发布机器学习有关的教程。Apache Spark是一款处理大规模数据的计算引擎。相比于Hadoop,Spark更适合进行数据挖掘和机器学习。TensorFlow则是谷歌开发的第二代人工智能学习系统,在语音识别和图像识别领域有广泛的运用。我们总结了四个部分:常见机器学习算法,自然语言处理,深度学习以及高级机器学习算法。常见机器学习算法主要是介绍一些spark mllib中已经实现的算法,通常要求对数学原理、mllib中的代码实现,以及如何应用于实际问题的解决等方面都要比较熟练的掌握。深度学习主要是针对一些常见的概念、优化的trick等的介绍,以及在流行深度学习框架上解决实际问题。而高级机器学习算法,通常对数学原理以及如何使用等做介绍。我们会慢慢分享这些成果。

星环科技:机器学习算法2020线上训练营 | 首营即将开班,限额报名!

编辑于 2022-03-08 11:40