人肉计算
[转载请注明出处 @Filestorm ]
今天在知乎上看到一个很有趣的问题:
除了当今炙手可热的深度学习,我认为最有趣的热点,是Human Computation——很形象的中文译名是“人肉计算”
2005年,Amazon推出了一个叫做Mechanical Turk的任务外包平台。关于Mechanical Turk这个名字有这么个故事。在18世纪,有人发明了一种能自动下国际象棋的机械,名曰Mechanical turk (土耳其行棋傀儡)。就像文章开头的那张图一样,上面一个假人能拨弄棋盘,下面是一个柜子,里面封装着机械结构进行着“复杂”的计算。
实际上是下面这个样子:
操纵上面假人的,其实是藏在柜中的一个真人。而且据说棋力很高,能击败不少人类对弈者。
Amazon Mechanical Turk的初衷,是用这个平台做一些CD曲目整理之类的零散工作。但是随着2008年这个平台在计算机视觉领域首次亮相 [1],它的威力逐渐被人们所意识到。并在computer vision, machine learning领域扮演了越来越重要的角色。譬如NIPS 2010 best student paper runner up [2], ICCV 2013 best paper [3] (Marr prize) 都是人肉计算的范畴。
当下computer vision的数据集里,人肉计算思想用的最好的,当属林宗义同学主导设计的 Microsoft COCO [4]。其次则是Stanford李菲菲老师组的ImageNet [5]。之所以我认为MSCOCO比 ImageNet 强,是从人肉计算的角度来说的——估算下来,MSCOCO 每个比特标定数据的获取成本只有 ImageNet 的几十分之一!当然ImageNet是先行者,遇到的各种坑也比MSCOCO更多。在此我也无意衡量两个系统的历史地位孰高孰低。
而CV领域的其他数据集,哪怕是那些非常著名的数据集,也有不少蕴藏了大量的错误数据——包括在2013 [6] 和2014年 [7] 被我先后发文打脸的 Berkeley Segmentation Dataset [8] 和 EPFL FT dataset [9]。所以说人肉计算之于机器学习,可以说是承前启后。因为机器学习本身就是数据推动的科学,而各种数据中,又数各种主观数据应用最广, 但最难建模。所以如何用人肉计算的手段,能够低成本地得到可靠的主观数据,就成了机器学习的根本问题。
我的一位师兄 Peter Welinder,[2] 的一作。在毕业后就开了一家公司叫Anchovi labs,专门做人肉计算平台。不知是可惜还是可喜的是,他们公司成立8个月就被Dropbox收购了。(再后来做出来那个难用屎了的 Carousel 相册管理器那是后话,按下不表)。
话又说回来,Deep learning为什么能火到现在这个程度?引爆点是那篇横空出世的alexnet [10]。这Alex跟之前没火起来的 neural networks(Boltzmann machine, auto-encoder, 甚至1989年的 LeNet)的区别是什么?
是对 海量 带标定的 图片数据的胃口。
最早的LeNet自然不用想海量数据,但是到后来哪怕到了基于Boltzmann machine的第一代Google Brain,也没能如此充分地利用人肉标定数据(因为系统的很大一部分是unsupervised的,也就是说,不好直接引入人肉标定数据)。
最后,我的签名档,Artificial artificial intelligence,以及本专栏的缩略图(那张Escher 的画),其实也在是向人肉计算致敬~
Reference
[1] Utility data annotation with Amazon Mechanical Turk - CVPR Workshop 2008
[2] The Multidimensional Wisdom of Crowds - NIPS 2010
[3] From Large Scale Image Categorization to Entry- Level Categories - ICCV 2013
[4] Microsoft COCO: Common Objects in Context - ECCV 2014
[5] ImageNet: A Large-Scale Hierarchical Image Database - CVPR 2009
[6] Boundary Detection Benchmarking: Beyond F-Measures - CVPR 2013
[7] The secrets of salient object segmentation - CVPR 2014
[8] A Database of Human Segmented Natural Images and its Application to Evaluating Segmentation Algorithms and Measuring Ecological Statistics - ICCV 2001
[9] Frequency-tuned Salient Region Detection - CVPR 2009
[10] ImageNet Classification with Deep Convolutional Neural Networks - NIPS 2012