有哪些渠道可以获取一般人不知道的知识和信息?
用python或者Go写爬虫抓取网络数据,利用正则表达式等技术手段将脏数据清洗并结构化放入到数据库,然后作分析以及长期监控。
所谓爬虫当然不是下图的虫子
而是这样的虫子,其实就是一套自动读取网页和解析网页的程序而已。
网络上的数据越来越多,越来越能代表生活中的真实现象。通过爬虫加正则这种自动化的工具,能够耗很少的人工就可以将数据和信息采集并结构化,后续通过更多的分析工具完成许多有商业价值的分析并获取所谓的insight(将信息转化为知识和洞察)。
我曾经看到一个知名对冲基金的研究员,一页一页得手工翻看搜房的网站,并用Ctrl C+Ctrl V记录搜房所有自有经纪人的信息到Excel,并统计他们当前的成交量。然后每周做一次,查看每个经纪人的成交量增量。通过这样的数据分析来判断搜房转型到自由经纪人业务之后,模式是否成功。因为工作量实在巨大,后来只好请了一票实习生来做。
然而其实这就是一个程序员用Python做好爬虫以及结构化数据最后分析的简单事情,于是出手相助有了如下的分析。轻松将搜房在各个城市的经纪人数量及单产搞清楚并按时监督,计算搜房在自有经纪人业务线的产出不是问题。
http://xueqiu.com/3917381252/45640644另外,还有基金在投资挂号网之前,让着帮忙做些数据统计和调研,于是有了下面的回答:
如何评价挂号网? - 何明科的回答。下面的图表结合了从挂号网抓取的数据以及宏观数据。
当然,给基金干活,数据的可视化很重要,于是用了一下这个服务
文图,将图表画得很炫,逼格顿时提高。一些炫目图标的效果如下,原文在世界各国的智商分布(
http://wentu.io/publish#fd5da46583e2c60f),
重庆小面如何风靡全国的 - 数据冰山 - 知乎专栏以及
RIO是如何席卷大江南北的? - 数据冰山 - 知乎专栏:
还可做许多比较酷的事情,获取许多人不知道的知识(其实别人离得到这些知识也就差一层窗户纸),帮助自己观察生活及背后的现象
- 看看咖啡的推广到底如何:为什么麦当劳和肯德基都开始注重现磨咖啡的推广,其优势与星巴克等传统咖啡行业相比在哪里? - 何明科的回答
- 帮助自己买车:一年当中买车的最佳时间为何时? - 何明科的回答
- 看看最近是否适合换工作:互联网行业哪个职位比较有前途? - 数据冰山 - 知乎专栏
- 看看最近的房价和走势:下半年深圳房价将如何发展 - 数据冰山 - 知乎专栏,深圳的房价是在三个月内暴涨起来的吗? - 数据冰山 - 知乎专栏, 学区房到底闹哪样? - 数据冰山 - 知乎专栏
- 满足吃货的好奇心:重庆小面如何风靡全国的 - 数据冰山 - 知乎专栏
- 最后的大杂烩:能利用爬虫技术做到哪些很酷很有趣很有用的事情? - 何明科的回答
技术方面,Python写爬虫非常方便,调试正则这个网站很不错
Online regex tester and debugger: JavaScript, Python, PHP, and PCRE。
最后补充一个额外的获取信息和知识的方式,不过这个比较个案,就不多说。
有哪些「神奇」的数据获取方式? - 何明科的回答—————————————————————————————————————
更多文章及分享请关注我的专栏,数据冰山:
http://zhuanlan.zhihu.com/hemingke