机器学习（machine learning）在经济学领域是否有应用前景？

Question

机器学习（machine learning）在经济学领域是否有应用前景？

本题已收录至知乎圆桌 » 对弈人工智能，更多关于李世石对战人工智能的解读欢迎关注讨论。

关注者

6,589

被浏览

507,063

登录后你可以

不限量看优质回答私信答主深度交流精彩内容一键收藏

查看全部 85 个回答

没有人邀请我，强行来答。

我最近正在一家公司兼职，做一些「大数据」与传统银行业相关的事情，在这个问题上还是有很多想法的。当然，由于签了保密协议，具体的业务内容和技术细节恕不透露。

按照我回答问题的一贯风格，在回答问题之前，先把「定义」这个问题搞清楚。什么是大数据？

我想这个问题不同的人有不同的理解，我理解的大数据有这么几个层次：

1、数据量大。这个「大」也有不同层次的理解，要么观测数非常多，要么干脆直接是「全样本」数据。这一点上，对传统的数据存储、计算等都提出了比较高的要求，比如分布式的存储和计算。这是「大数据」的第一个「大」。

2、变量多，维数高。这是一个「幸福的烦恼」。对于每一个观测，我们有很多很多维度可以描述清楚这个个体。对于每个人，在社会经济生活中的一举一动，都有可能被某台服务器忠实的记录着，这个潜在的变量规模是不可想象的。甚至，随着文本挖掘、图像识别等技术的进步，我们可以从各种自己想要的维度来挖掘出需要的变量。这是「大数据」的第二个「大」。

3、围绕着海量数据、高维数据的数据分析方法。包括但不仅限于传统的统计方法、回归、Logistic、SVM、决策树、聚类、PageRank、神经网络......等各种各样正在飞速发展的数据挖掘方法。

以上的理解是我个人的理解，如果有什么不对的地方，欢迎讨论。

题主的问题是机器学习在经济学中的应用，但是在这个答案里面，我想更多的讨论一下，「大数据」与经济学的相互影响。

先说「大数据」对经济学的影响吧。至少现在来看，虽然越来越多的经济学家开始关注机器学习、大数据，但是对经济学的影响其实有限。但是未来呢？不好说。

首先是，机器学习的很多方法本来就是经济学家获得数据的潜在来源。比如文本挖掘的算法，据我所知，已经有人将其应用在了论文中（文章并未公开，所以保密）。这些海量的数据使得经济学的很多领域，比如对社交网络的研究成为了可能。未来当经济学家对某个问题感兴趣的时候，得益于「大数据」的发展，可能更少的受到数据的制约。

与此同时，从方法论的角度来看，大数据无疑也会对经济学形成冲击。如果未来的经济学不得不与「大数据」打交道，那么相应的，方法论上必须有相应的发展。传统的经济学最为关注的莫过于识别问题，在「大数据」的条件下，如何仍然能得到清晰的识别？可能在理论上还存在着大量的空白。比如，在Chetty等人的这篇文章：

多而无效工具变量下的识别与推断 - EconPaper

中，讨论了当IV随着样本量的增加而增加，且IV都无效的情况下的识别，其实这两个问题，无论是哪一个，都是「大数据」应用在经济学时很可能出现的问题。「大数据」对经济学方法论的影响可能已经开始了。

其实我的这个兼职经历让我更想谈的，是经济学在「大数据」上的应用。

必须要认识到的是，「大数据」中的很大一部分，都是「人」在社会生活中留下的痕迹，而使用数理框架分析「人」的行为，本来就是经济学的专长。

经济学与「大数据」是有本质区别的，比如，经济学更关注「因果推断」以及「识别」问题，而「大数据」似乎对「因果」推断并不感兴趣。比如，《大数据时代》中提出，「更好：不是因果关系，而是相关关系」。

我的经验和看法并没有那么的偏激，在业界的应用中，「因果关系」与「识别」并没有那么的重要，然而也并非「相关关系」那么简单。我更喜欢的说法，是《信号与噪声》中的说法，重要的是如何剔除数据中的噪声。

噪声可能有很多来源，比较轻微的，比如数据质量问题。很多情况下，在「大数据」与经济学传统的「小数据」之间，存在着一个quantitative-qualitative tradeoff，也就是数据数量与数据质量之间的tradeoff。这种tradeoff本身就存在于经济学中，比如工业企业数据库量大，但是质量还是上市公司的数据质量高；人口普查数据量大，但是质量还是专门的调查质量高。在「大数据」中，为了解决某个问题，会碰到虽然手头上数据很多，但是其实关键变量是缺失的，而其他变量都有不小的噪声。

另外一个更严重的问题是，如果缺乏严谨的统计、经济学的培训，可能对数据生成过程（DGP）并不理解，导致结构性的失误。这种噪声带来的就是系统性的误差了。这可能不仅仅是「过拟合」，而是「误拟合」了。

举一个再简单不过的例子。有个公司（并非我供职的公司）帮银行做一个甄别理财产品潜在客户的工作，他们使用历史数据，看哪些人更有可能购买理财产品。很简单的，一个Logistic回归也许就能解决问题。银行明确告诉他们，存款余额5w元以下的不考虑，然而公司做出来的结果是，明明余额在5w以下的也有可能购买产品，为啥就不要存款余额5w以下的呢？

其实这个问题非常简单，做这个分析的人并没有仔细考虑清楚这个问题的数据生成过程（DGP），并没有真正的理解数据，所以无脑的这样做下来，这样的结果并不奇怪。比如在这里，我们真正关心的变量应该是这个人的「真实财富」，虽然这个人在这家银行的存款余额为5w以下，但是可能这个用户之所以在这里开了储蓄卡，仅仅是因为持有这家银行的信用卡。所以5w以下的客户的确非常有可能购买产品。所以这里的存款余额变量，本来应该是一个「状态变量」，但是实际上，如果仔细考虑DGP，应该是一个「结果变量」。如何排除噪声？可能得建模开卡行为、余额行为才可以。

实际上，以上的这些建模思路，都是计量经济学反复培训的，bad control，measurement error, sample selection等等，无一不是在让我们更仔细的思考数据生成过程。在「大数据」中，虽然不重视因果和识别，但是以上问题如果不重视，虽然得到了相关性，但是得到的更多的是被噪声严重污染过的相关性。

因为关注的是如何去噪声，而非严谨的因果和识别，因而很多计量上常用的方法，可能也就没有太大必要了。但是计量经济学的建模思路和机器学习的方法结合起来，反而可能收到奇效。比如上面的问题，一个简单的解决思路也许就是结合聚类方法与Logistic回归，就能将模型做的更好。实际上在我的工作过程中，就有过为了剔除噪声，将传统的机器学习、计量经济学的方法重新加以组合而产生的「新方法」。

其实总结下来，更精炼的说法就是，经济学、计量经济学的方法，可以在原来的模型中加入新的「结构」，结构的加入可以矫正由于人的种种行为而给数据带来的噪声，解决「过拟合」、「误拟合」的问题，提高模型的精度。

所以上海财大经济学院今年新开了一个「大数据经济学」的专业。我并不是非常了解这个专业的具体培养方式，但是我个人觉着是个非常不错的尝试。

以上纯属个人看法。

编辑于 2015-12-27 19:29

查看全部 85 个回答