如何评价《Big Data:大数据时代》这本书?

关注者
3,300
被浏览
410,283

89 个回答

花了三天的零碎时间大致看完了舍恩伯格的《大数据时代:生活、工作、思维的大变革》。我看推荐说这是“迄今为止最好的一本大数据专著”。目前公司在搞Hadoop、大数据应用,外面各类零碎的资料也非常多,那么想我应该去看一下这“最好”的专著吧。

买回来看完的感觉是平平而已。个人看法,在五分制下,大概也就是最多打三分。这本书可以买来看看,写得比较完整全面,案例比较多,有一定的参考意义,写PPT吹牛用得上,但是有什么巨大的意义就谈不上了。很多观点不能同意。

一、主要观点上可以探讨的地方

作者提出了关于大数据的“掷地有声”的三个原则。这三个原则凡讲大数据必被提及,很多人奉为圭臬。但是我觉得每一点都值得探讨。这三点分别是:不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系

看完之后感觉都有点不是那么回事。

1.不是随机样本,而是全体数据

这个说得好像人类从来就不知道使用全体数据可以得到更全面的结论,而非要去煞费苦心发展出一套抽样技术一样。人类早就知道处理全量数据的好处,而之所以要进行抽样分析,原因不外乎两点:一是处理能力跟不上,二是数据收集能力跟不上。作者认为人类之前主要受限于数据的处理能力而不去处理全量数据,但在目前机器处理能力有了巨大的提升的时代,限制绝大多数应用的瓶颈不是计算能力而是数据采集能力(不要去提那些极少数需要超级计算机的场合,那个和多数人无关、和本书的商业主题也无关)。但是即便如此,抽样所要针对的很多应用场景是不太可能收集全量数据的情况。比如人口普查,无论计算机力量如何强大,当前很多数据还是要人工去收集,所以这个普查还是要用抽样的方式。有意思的是,作者用人口普查是抽样分析来说明非“全量”时代我们被迫采用了抽样,而最终也没法说我们是否已经可以用全量数据来做人口普查了。实际上至少在目前,对于人口普查,抽样还是必然的选择(嗯,你可以设想,以后人人都装一块芯片,你可以在你的PPT里讲给你的客户和老板听)。再比如我们统计里的经典问题:怎么估算一批零件的使用寿命?怎么去分析一批奶品里的三聚氰胺?以前我们不可能去做全量测试,因为这意味着这批零件就废了,这批奶也全部用于测试了,这样测出结果也没啥意义了(嗯,你也可以说:我我们去收集历史上所有此类零件的使用情况来进行分析吧.....嗯,加油吧,雄心勃勃的骚年)。现在 ?我们还是必须依赖抽样,是必须。

即便不提这些例子,仅从逻辑而言:收集、处理数据的行为本身也在不断产生着新的数据。我们又怎么证明这些数据不是你需要的“全量”的一部分呢?

作者的行文中,关于什么是“全量”,处于不断的摇摆之中。有时指“我们需要的所有数据”,有时指“我们能收集到的所有数据”。作者举了人口普查的例子,这个全量显然指前者。而在很多商业案例中,又显然指后者。我们有能力处理越来越多的、在以前不敢想象的大量数据,但是至少目前看,我们还没可能说我们处理了“全量”。我们最多可以说我们能处理我们能搜集到的“全量”,但如果据此产生了我们已经没有遗漏数据了的感觉,认为所有数据尽在掌握了,那我认为是一种很可能导致错误的错觉。

2.不是精确性,而是混杂性

这个么,说得好像以前的人类在使用“抽样”数据时竟然都认为取到的数据是“精确”的一样。在使用抽样数据的时候,我们就知道要容忍一定的误差。我们甚至知道在就算取得了“全样”数据的时候,也可能因为有各种原因而导致的不精确,统计实践中对此有相当多的案例。人类从未奢望过我们通过数据分析取得的多数结论是精确的。我们从来都要在信息混杂的情况下做出大多数的决策。

3.不是因果关系,而是相关关系

这是很多人(包括作者)认为最有价值、最重大的发现,而实际上却也是最收到批评的一个观点。连译者周涛教授在序言里都表示看不下去了,他至于认为如果放弃对因果关系的分析,是人类的堕落。我不说这么高的哲学层面,只从逻辑和技术上讨论一下。

计算机能够提供给我们的结论(到目前为止以及在可见的未来),都是相关性。计算机从未提供过明确的因果关系给人类。是否因果关系,是人类在数据基础上,进行的人为判断。一直有相当多的应用,也是只考虑相关性,不考虑因果关系的:确定因果关系,是需要更大的精力、更多的投入的。所以只看相关性而不看因果性也不是什么新的结论(实际上已经是个很旧的结论了)。而这个相关性是不是可以作为决策的基础呢?这个一样离不开人的判断。有一个这样的故事:通过大量的数据分析,慈善组织得出结论:一个国家、地区的电视机的普及率与发达富裕程度很有关系(冰箱、洗衣机、空调、高跟鞋、牛仔裤,etc.,也会和发达程度有这样的相关性),于是他们就向贫困国家赠送了很多电视,认为此举可以促进该国的经济发展。你可以鬼扯电视的普及与经济文化的密切相关,但是实际上最终发现更可能是经济发展导致了电视的普及,而不是反过来。所以,我们真的不需要因果分析吗?说得玩笑一点:这个世界真的不需要脑子了吗?

作者举了一个例子:谷歌分析搜索关键字来确定哪里可能发生了流行病。认为这就是利用了相关性而不是因果性。这是没有利用因果判断吗?现在在投入巨大的机器资源进行分析之前,分析师已经预计了得病的症状可能会导致人们去网上进行相关搜索(影响了搜索行为)。谷歌存储的用户上网信息肯定远远不止一个搜索关键字,分析师为何不开足马力把“全量”数据、各个指标都分析一遍呢?比如用户上网地点?上网时间?上网频率?上网语言?浏览器版本?客户端操作系统?etc...为何会像导弹一样精确地将机器资源投放到了关键字上呢?

总之,对于这些原则,作者为了显出新意,说得过于绝对。而排除掉绝对的成分后,这些观点也就不显得是创新了。作者把三个数据分析人员一直秉持的原则,当做全新的东西讲了出来。时代在变化,我们或许应该经常重新审视这些原则,来确认自己的思想是不是僵化了、是不是过时了。我赞同作者重新审视这些看法,但是我觉得没必要讲得这么极端。

二、细节论据上可以探讨的地方

除了三个大原则不足以令人完全信服,在一些细节上,作者的引证也不是很严谨。

如第51页,对于拼写检查的算法的优化。作者提到,通过输入大量的数据,4种常见语法检查算法的准确率提高了很多,以此说明大数据发挥了作用。这确实是个很有启发性的例子,可以去做更深入的分析和研究,但是.....仅仅4个例子,够得出很有力的结论吗?4个算法,作者没注意到这是一个非常小的样本吗?不能因为这是4个用了大数据的采样,就认为这是一个支持大数据的有力结论了吧。(顺便我很想问问他们:为什么不测试个几十上百的算法呢?是不是面对如此“大量”的计算,也只好折中选择了一个抽样的小样本呢?甚至连样本数量是否合格都顾不上了吗?)

三、这本书有什么用处?

对于这样的一本书,我不明白周涛教授在译序里为什么要建议大家(以后)每个版本都应该买一本。为什么要买?难道作者理清自己脑子的过程很值得我们关注吗?

译序里说:“作者渴求立言立说的野心”,但是我恐怕作者是达不到这个目标的。关于作者的简介为:“《大数据时代》是国外大数据系统研究的先河之作,本书作者维克托·迈尔·舍恩伯格被誉为‘大数据商业应用第一人’,....早在2010年就在《经济学人》上发布了长达14页对大数据应用的前瞻性研究。”

总体感觉是作者有很多想法,见识过很多案例(这些案例都丰富地体现在书中了,也很有参考价值)。但并非是一个曾经和数据真正绞尽脑汁搏斗过的人(这是我瞎猜的,没有考证过他的经历。考据者请不要告诉他做过什么咨询案例,这离真正体会数据的折磨还很远。)。

第183页说道:“...执行官们信任自己的直觉,所以由着它做决定。但是,随着管理决策越来越受预测性分析和大数据分析的影响和控制,依靠直觉做决定的情况将会被彻底改变。..."真的会么?如果你面对某一家企业做咨询,那可以这样讲。一种新技术的采用很有可能大幅提升企业的战斗力,并超越竞争对手。但是作者是期望对行业立言的人,面对整个社会我们这样讲就不严谨了。引用一个例子:中国棋院的一次训练会后,总教头马晓春对隔天要去各自的母队参加围甲的棋手们说:祝大家周末取胜。棋手们笑了:我们只有一半的人能赢啊。同样,如果大家都采用了大数据技术,那么也总有企业要在竞争中落于下风。而既然我们实际上无法真正分析“全量”数据,那CEO们还是会有很大的决策空间,哪怕很多决策实际上“不科学”。最起码,他们需要决定将有限的企业资源投入到对什么样的大数据进行分析,并如何应用分析出来的结果。嗯....我认为,这多少还是要依赖一些直觉的。

那么大家是否应该看一下这本书呢?我的答案是应该看一看。既然大数据是当前的潮流、相关的研究/商务活动层出不穷,那么做IT工作、数据工作的人对于“最好的”专著无论如何都必须看一下。书中集中展示了很多案例,值得作为参考和启发思维。此外,为了作为谈资、为了在写大数据PPT时有所依据,大家也得看看这本书。根据场合不同,可以对里面的内容复制粘贴、理解重写。这些内容,我相信买一版也就够了。需要提醒PPT人员的是,演示前请想清楚如何回答可能被提及的质疑。如果你对这本书的观点都深信不疑,那么你将会遇到很多的质疑。

对于下载网络版本担心没有图的朋友,请不用担心丢失信息:除掉湛庐特别制作的一张本书思维导图的彩页。这本书没有图。是的,一张都没有。大数据,大概太大了,大到作者无法用任何图来阐明了。

一本简单直接的书,可以作为普及类阅读。

今天做了这本书的读书笔记,以下。

前言:最近读完一本关于大数据的书,书描述的内容简单直接,有些点我自己也不是完全理解或认同,不过有趣的细节不少,一一记录下来。:)


书名:

大数据时代:生活、工作与思维的大变革


作者:

Viktor Mayer-Schönberger, Kenneth Cukier


1,如今,数据已经成为一种商业资本,一项重要的经济投入,可以创造新的经济利益。事实上,一旦思维转变过来,数据就能被巧妙地用来激发新产品和新型服务。数据的奥妙只为谦逊、愿意聆听且掌握了聆听手段的人所知。


个人认为创新的两个主要来源,一个是拍脑袋,天才本着自己的热情和天赋来创造,另一个是讲道理,从真实的世界用严谨的方法抽离出一丝丝可能来创造。数据在后者的作用不言而喻。


2,大数据的精髓在于我们分析信息时的三个转变,这些转变将改变我们理解和组建社会的方法。


第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。


第二个改变就是,研究数据如此之多,以至于我们不再热衷于追求精确度。


第三个转变因前两个转变而促成,即我们不再热衷于寻找因果关系。寻找因果关系是人类长久以来的习惯。即使确定因果关系很困难而且用途不大,人类还是习惯性地寻找缘由。相反,在大数据时代,我们无须再紧盯事物之间的因果关系,而应该寻找事物之间的相关关系,这会给我们提供非常新颖且有价值的观点。相关关系也许不能准确地告知我们某件事情为何会发生,但是它会提醒我们这件事情正在发生。


想了很久这个逻辑,深深的恐惧,来自于其实人类被机器控制是有可能的……回到正题,在我们设计师的设计工作中,寻找因果关系已经成为一种习惯。我觉得书里写的挺好,很多因果关系是我们人类强加上去的,不一定准确或者释义。但是完全抽离因果关系只看相关关系,在与用户强相关的用户体验设计领域还是挺困难的。第一,数据要足够海量;第二,分析方法要足够完整有效;第三,用户是会变的,感情和思维很难量化分析。不过现在做互联网设计,因果关系和相关关系都应该看,并互相结合,感性与理性要兼具,才能体现我们设计师的价值。


3,统计学家们证明:采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。虽然听起来很不可思议,但事实上,一个对1100人进行的关于“是否”问题的抽样调查有着很高的精确性,精确度甚至超过了对所有人进行调查时的97%。这是真的,不管是调查10万人还是1亿人,20次调查里有19次都能猜对。为什么会这样?原因很复杂,但是有一个比较简单的解释就是,当样本数量达到了某个值之后,我们从新个体身上得到的信息会越来越少,就如同经济学中的边际效应递减一样。


的确,就像我们用户研究中的用户测试,一般9到12个样本就足够得到信息了。


4,随机采样取得了巨大的成功,成为现代社会、现代测量领域的主心骨。但这只是一条捷径,是在不可收集和分析全部数据的情况下的选择,它本身存在许多固有的缺陷。它的成功依赖于采样的绝对随机性,但是实现采样的随机性非常困难。一旦采样过程中存在任何偏见,分析结果就会相去甚远。


5,有时候,当我们掌握了大量新型数据时,精确性就不那么重要了,我们同样可以掌握事情的发展趋势。大数据不仅让我们不再期待精确性,也让我们无法实现精确性。然而,除了一开始会与我们的直觉相矛盾之外,接受数据的不精确和不完美,我们反而能够更好地进行预测,也能够更好地理解这个世界。


6,社会将两个折中的想法不知不觉地渗入了我们的处事方法中,我们甚至不再把这当成一种折中,而是把它当成了事物的自然状态。第一个折中是,我们默认自己不能使用更多的数据,所以我们就不会去使用更多的数据。但是,数据量的限制正在逐渐消失,而且通过无限接近“样本=总体”的方式来处理数据,我们会获得极大的好处。第二个折中出现在数据的质量上。在小数据时代,追求精确度是合理的。因为当时我们收集的数据很少,所以需要越精确越好。如今这依然适用于一些事情。但是对于其他事情,快速获得一个大概的轮廓和发展脉络,就要比严格的精确性要重要得多。


7,知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”。


这个点总是有点想不透彻,也许在很多领域可行,在用户体验设计领域得好好想想再适配这种思路和方法。


8,除了仅仅依靠相关关系,专家们还会使用一些建立在理论基础上的假想来指导自己选择适当的关联物。这些理论就是一些抽象的观点,关于事物是怎样运作的。然后收集与关联物相关的数据来进行相关关系分析,以证明这个关联物是否真的合适。如果不合适,人们通常会固执地再次尝试,因为担心可能是数据收集的错误,而最终却不得不承认一开始的假想甚至假想建立的基础都是有缺陷和必须修改的。这种对假想的反复试验促进了学科的发展。但是这种发展非常缓慢,因为个人以及团体的偏见会蒙蔽我们的双眼,导致我们在设立假想、应用假想和选择关联物的过程中犯错误。总之,这是一个烦琐的过程,只适用于小数据时代。


大数据时代,也要关注假想,这是很多研究进行的人的基石。


9,大数据的相关关系分析法更准确、更快,而且不易受偏见的影响。建立在相关关系分析法基础上的预测是大数据的核心。


10,一个东西要出故障,不会是瞬间的,而是慢慢地出问题的。通过收集所有的数据,我们可以预先捕捉到事物要出故障的信号,比方说发动机的嗡嗡声、引擎过热都说明它们可能要出故障了。系统把这些异常情况与正常情况进行对比,就会知道什么地方出了毛病。通过尽早地发现异常,系统可以提醒我们在故障之前更换零件或者修复问题。通过找出一个关联物并监控它,我们就能预测未来。


有道理,美国很多犯罪区域监控也是这个逻辑。不过真的到警察抓坏人是按照数据分析预测来,世界会怎么样……(少数派报告就是这样,不过他们不是根据数据分析,是根据超能力)


11,在大数据时代,这些新的分析工具和思路为我们提供了一系列新的视野和有用的预测,我们看到了很多以前不曾注意到的联系,还掌握了以前无法理解的复杂技术和社会动态。但最重要的是,通过去探求“是什么”而不是“为什么”,相关关系帮助我们更好地了解了这个世界。这听起来似乎有点违背常理。毕竟,人们都希望通过因果关系来了解这个世界。我们也相信,只要仔细观察,就会发现万事万物皆有因缘。了解事情的起因难道不是我们最大的愿望吗?


在哲学界,关于因果关系是否存在的争论已经持续了几个世纪。毕竟,如果凡事皆有因果的话,那么我们就没有决定任何事的自由了。如果说我们做的每一个决定或者每一个想法都是其他事情的结果,而这个结果又是由其他原因导致的,以此循环往复,那么就不存在人的自由意志这一说了,所有的生命轨迹都只是受因果关系的控制了。因此,对于因果关系在世间所扮演的角色,哲学家们争论不休,有时他们认为,这是与自由意志相对立的。当然,关于理论的争辩并不是我们要研究的重点。


12,数据创新:数据的再利用


数据创新再利用的一个典型例子是搜索关键词。消费者和搜索引擎之间的瞬时交互形成了一个网站和广告的列表,实现了那一刻的特定功能。乍看起来,这些信息在实现了基本用途之后似乎变得一文不值。但是,以往的查询也可以变得非常有价值。有的公司,如数据代理益百利旗下的网页流量测量公司Hitwise,让客户采集搜索流量来揭示消费者的喜好。通过Hitwise营销人员可以了解到粉红色是否会成为今夏的潮流色,或者黑色是否会回归潮流。谷歌整理了一个版本的搜索词分析,公开供人们查询,并与西班牙第二大银行BBVA合作推出了实时经济指标以及旅游部门的业务预报服务,这些指标都是基于搜索数据得到的。英国央行通过搜索查询房地产的相关信息,更好地了解到了住房价格的升降情况。


随着大数据的出现,数据的总和比部分更有价值。当我们将多个数据集的总和重组在一起时,重组总和本身的价值也比单个总和更大。如今,互联网用户都熟悉基本的混搭式应用,即将两个或多个数据源以一种新颖的方法结合起来。例如,房地产网站Zillow.com将房地产信息和价格添加在美国的社区地图上,同时还聚合了大量的信息,如社区近期的交易和物业规格,以此来预测区域内具体每套住宅的价值。这个结果极具指导意义。


13,数据创新:可扩展数据


促成数据再利用的方法之一是从一开始就设计好它的可扩展性。虽然这不总是可能的,因为人们可能在数据收集后很长时间才意识到这一点,但的确有一些方法可以鼓励相同数据集的多种用途。例如,有些零售商在店内安装了监控摄像头,这样不仅能认出商店扒手,还能跟踪在商店里购物的客户流和他们停留的位置。零售商利用后面的信息可以设计店面的最佳布局并判断营销活动的有效性。在此之前,监控摄像机仅用于安全保卫,是一项纯粹的成本支出,而现在却被视为一项可以增加收入的投资。


收集多个数据流或每个数据流中更多数据点的额外成本往往较低,因此,收集尽可能多的数据并在一开始的时候就考虑到各种潜在的二次用途并使其具有扩展性是非常有意义的。这增加了数据的潜在价值。问题的关键是寻找“一份钱两份货”,即如果以某种方式收集的单一数据集有多种不同的用途,它就具有双重功能。


所以说,互联网的产品设计中,埋点,多埋,总是没错的啦。


14,数据创新:数据的折旧值


比如十年前你在亚马逊买了一本书,而现在你可能已经对它完全不感兴趣。如果亚马逊继续用这个数据来向你推荐其他书籍,你就不太可能购买带有这类标题的书籍,甚至会担心该网站之后的推荐是否合理。这些推荐的依据既有旧的过时的信息又有近期仍然有价值的数据,而旧数据的存在破坏了新数据的价值。


于是,亚马逊决定只使用仍有生产价值的数据,这就需要不断地更新数据库并淘汰无用信息。这时面临的挑战就是如何得知哪些数据不再有价值。仅仅依据时间来判断显然不够,因此,亚马逊等公司建立了复杂的模型来帮助自己分离有用和无用的数据。例如,如果客户浏览或购买了一本基于以往购买记录而推荐的书,电子商务公司就认为这项旧的购买记录仍然代表着客户的喜好。这样,他们就能够评价旧数据的有用性,并使模型的“折旧率”更具体。


15,数据创新,:数据废气


一个用来描述人们在网上留下的数字轨迹的艺术词汇出现了,这就是“数据废气”。它是用户在线交互的副产品,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了什么信息等。许多公司因此对系统进行了设计,使自己能够得到数据废气并循环利用,以改善现有的服务或开发新服务。毋庸置疑,谷歌是这方面的领导者,它将不断地“从数据中学习”这个原则应用到许多服务中。用户执行的每一个动作都被认为是一个“信号”,谷歌对其进行分析并反馈给系统。


埋点!埋点!


16,数据创新:开放数据


国家收集数据时代表的是其公民,因此它也理应提供一个让公民查看的入口,但少数可能会危害到国家安全或他人隐私权的情况除外。这种想法让“开放政府数据”的倡议响彻全球。开放数据的倡导者主张,政府只是他们所收集信息的托管人,私营部门和社会对数据的利用会比政府更具有创新性。他们呼吁建立专门的官方机构来公布民用和商业数据;而且数据必须以标准的可机读形式展现,以方便人们处理。否则,信息的公开只会是徒有虚名。


很多年前我读信息管理的政务信息管理课程时,就写了这个哇,政务透明,政府数据大有可为。


17,大数据价值链的3大构成


根据所提供价值的不同来源,分别出现了三种大数据公司。这三种来源是指:数据本身、技能与思维。


第一种是基于数据本身的公司。这些公司拥有大量数据或者至少可以收集到大量数据,却不一定有从数据中提取价值或者用数据催生创新思想的技能。最好的例子就是Twitter,它拥有海量数据这一点是毫无疑问的,但是它的数据都通过两个独立的公司授权别人使用。


第二种是基于技能的公司。它们通常是咨询公司、技术供应商或者分析公司。它们掌握了专业技能但并不一定拥有数据或提出数据创新性用途的才能。比方说,沃尔玛和Pop-Tarts这两个零售商就是借助天睿公司(Teradata)的分析来获得营销点子,天睿就是一家大数据分析公司。


第三种是基于思维的公司。皮特•华登(PeteWarden),Jetpac的联合创始人,就是通过想法获得价值的一个例子。Jetpac通过用户分享到网上的旅行照片来为人们推荐下次旅行的目的地。对于某些公司来说,数据和技能并不是成功的关键。让这些公司脱颖而出的是其创始人和员工的创新思维,他们有怎样挖掘数据的新价值的独特想法。


例如,MasterCard也可以把数据授权给第三方使用,但是它更倾向于自己分析、挖掘数据的价值。一个称为MasterCardAdvisors的部门收集和分析了来自210个国家的15亿信用卡用户的650亿条交易记录,用来预测商业发展和客户的消费趋势。然后,它把这些分析结果卖给其他公司。它发现,如果一个人在下午四点左右给汽车加油的话,他很可能在接下来的一个小时内要去购物或者去餐馆吃饭,而这一个小时的花费大概在35~50美元之间。商家可能正需要这样的信息,因为这样它们就能在这个时间段的加油小票背面附上加油站附近商店的优惠券。


18,大数据最值钱的部分就是它自身,所以最先考虑数据拥有者才是明智的。他们可能不是第一手收集数据的人,但是他们能接触到数据、有权使用数据或者将数据授权给渴望挖掘数据价值的人。


19,所谓大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。


20,随着数据价值转移到数据拥有者手上,传统的商业模式也被颠覆了。


21,大数据也会撼动国家竞争力。当制造业已经大幅转向发展中国家,而大家都争相发展创新行业的时候,工业化国家因为掌握了数据以及大数据技术,所以仍然在全球竞争中占据优势。


22,卓越的才华并不依赖于数据。史蒂夫•乔布斯多年来持续不断地改善Mac笔记本,依赖的可能是行业分析,但是他发行的iPod、iPhone和iPad靠的就不是数据,而是直觉——他依赖于他的第六感。当记者问及乔布斯苹果推出iPad之前做了多少市场调研时,他那个著名的回答是这样的:“没做!消费者没义务去了解自己想要什么。”


23,更大的数据源于人本身


大数据改造了我们的生活,它能优化、提高、高效化并最终捕捉住利益,那直觉、信仰、不确定性和创意还能扮演什么角色呢?就算大数据无法教会我们所有事情,只要能帮助我们表现更佳、更富效率、取得进步,就算缺乏深入理解也是很有用的了。一贯如是地坚持下去才有效力。即使你不明白为什么付出的努力得不到回报,但相比不努力,你要明白你已经在改善事情的结局了。


24,大数据并不是一个充斥着运算法则和机器的冰冷世界,其中仍需要人类扮演重要角色。人类独有的弱点、错觉、错误都是十分必要的,因为这些特性的另一头牵着的是人类的创造力、直觉和天赋。偶尔也会带来屈辱或固执的同样混乱的大脑运作,也能带来成功,或在偶然间促成我们的伟大。这提示我们应该乐于接受类似的不准确,因为不准确正是我们之所以为人的特征之一。


23和24两点,觉得作者转的好费力……典型的论文式写法,最后得补齐前面的思路缺失。


25,我们能收集和处理的数据只是世界上极其微小的一部分。这些信息不过是现实的投影——柏拉图洞穴上的阴影罢了。因为我们无法获得完美的信息,所以做出的预测本身就不可靠。但这也不代表预测就一定是错的,只是永远不能做到完善。这也并未否定大数据的判断,而只是让大数据发挥出了应有的作用。大数据提供的不是最终答案,只是参考答案,为我们提供暂时的帮助,以便等待更好的方法和答案出现。这也提醒我们在使用这个工具的时候,应当怀有谦恭之心,铭记人性之本。


有道理,和前面描述的不是很一致的感觉……难道是因为两个作者写的?



凡是过去,皆为序曲。


无论你喜欢还是不喜欢,大数据时代已经来了。


我平时喜欢从这里看大数据相关的文章,哈佛商业评论的大数据专栏:


hbr.org/special-collect


谢谢阅读!


thanks,

yoyo