有哪些渠道可以获取一般人不知道的知识和信息?

关注者
181,918
被浏览
7,317,253
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏

用python或者Go写爬虫抓取网络数据,利用正则表达式等技术手段将脏数据清洗并结构化放入到数据库,然后作分析以及长期监控。

所谓爬虫当然不是下图的虫子

而是这样的虫子,其实就是一套自动读取网页和解析网页的程序而已。


网络上的数据越来越多,越来越能代表生活中的真实现象。通过爬虫加正则这种自动化的工具,能够耗很少的人工就可以将数据和信息采集并结构化,后续通过更多的分析工具完成许多有商业价值的分析并获取所谓的insight(将信息转化为知识和洞察)。

我曾经看到一个知名对冲基金的研究员,一页一页得手工翻看搜房的网站,并用Ctrl C+Ctrl V记录搜房所有自有经纪人的信息到Excel,并统计他们当前的成交量。然后每周做一次,查看每个经纪人的成交量增量。通过这样的数据分析来判断搜房转型到自由经纪人业务之后,模式是否成功。因为工作量实在巨大,后来只好请了一票实习生来做。

然而其实这就是一个程序员用Python做好爬虫以及结构化数据最后分析的简单事情,于是出手相助有了如下的分析。轻松将搜房在各个城市的经纪人数量及单产搞清楚并按时监督,计算搜房在自有经纪人业务线的产出不是问题。

xueqiu.com/3917381252/4


另外,还有基金在投资挂号网之前,让着帮忙做些数据统计和调研,于是有了下面的回答:

如何评价挂号网? - 何明科的回答

。下面的图表结合了从挂号网抓取的数据以及宏观数据。


当然,给基金干活,数据的可视化很重要,于是用了一下这个服务

文图

,将图表画得很炫,逼格顿时提高。一些炫目图标的效果如下,原文在世界各国的智商分布(

wentu.io/publish#

),

重庆小面如何风靡全国的 - 数据冰山 - 知乎专栏

以及

RIO是如何席卷大江南北的? - 数据冰山 - 知乎专栏



还可做许多比较酷的事情,获取许多人不知道的知识(其实别人离得到这些知识也就差一层窗户纸),帮助自己观察生活及背后的现象

技术方面,Python写爬虫非常方便,调试正则这个网站很不错

Online regex tester and debugger: JavaScript, Python, PHP, and PCRE

最后补充一个额外的获取信息和知识的方式,不过这个比较个案,就不多说。

有哪些「神奇」的数据获取方式? - 何明科的回答

—————————————————————————————————————

更多文章及分享请关注我的专栏,数据冰山:

zhuanlan.zhihu.com/hemi