PHP, Python, Node.js 哪个比较适合写爬虫？

Question

PHP, Python, Node.js 哪个比较适合写爬虫？

1.对页面的解析能力 2.对数据库的操作能力（mysql） 3.爬取效率 4.代码量推荐语言时说明所需类库或者框架，谢谢。比如：python+My…

关注者

1,572

被浏览

413,783

63 个回答

稍微谈谈我的使用感受，PHP不会，用过Python和Node.js。

简单的定向爬取：

Python + urlib2 + RegExp + bs4

或者

Node.js + co，任一一款dom框架或者html parser + Request + RegExp 撸起来也是很顺手。

对我来说上面两个选择差不多是等价的，但主要我JS比较熟，现在选择Node平台会多一些。

上规模的整站爬取：

Python + Scrapy

如果说上面两个方案里DIY 的 spider是小米加步枪，那Scrapy简直就是重工加农炮，好用到不行，自定义爬取规则，http错误处理，XPath，RPC，Pipeline机制等等等。而且，由于Scrapy是基于Twisted实现的，所以同时兼顾有非常好的效率，相对来说唯一的缺点就是安装比较麻烦，依赖也比较多，我还算是比较新的osx，一样没办法直接pip install scrapy

另外如果在spider中引入xpath的话，再在chrome上安装xpath的插件，那么解析路径一目了然，开发效率奇高。

编辑于 2015-01-06 16:02

梁川 互联网金融话题下的优秀答主 · Accepted Answer

主要看你定义的“爬虫”干什么用。

1、如果是定向爬取几个页面，做一些简单的页面解析，爬取效率不是核心要求，那么用什么语言差异不大。

当然要是页面结构复杂，正则表达式写得巨复杂，尤其是用过那些支持xpath的类库/爬虫库后，就会发现此种方式虽然入门门槛低，但扩展性、可维护性等都奇差。因此此种情况下还是推荐采用一些现成的爬虫库，诸如xpath、多线程支持还是必须考虑的因素。

2、如果是定向爬取，且主要目标是解析js动态生成的内容

此时候，页面内容是有js/ajax动态生成的，用普通的请求页面->解析的方法就不管用了，需要借助一个类似firefox、chrome浏览器的js引擎来对页面的js代码做动态解析。

此种情况下，推荐考虑casperJS+phantomjs或slimerJS+phantomjs ，当然诸如selenium之类的也可以考虑。

3、如果爬虫是涉及大规模网站爬取，效率、扩展性、可维护性等是必须考虑的因素时候

大规模爬虫爬取涉及诸多问题：多线程并发、I/O机制、分布式爬取、消息通讯、判重机制、任务调度等等，此时候语言和所用框架的选取就具有极大意义了。

PHP对多线程、异步支持较差，不建议采用。

NodeJS：对一些垂直网站爬取倒可以，但由于分布式爬取、消息通讯等支持较弱，根据自己情况判断。

Python：强烈建议，对以上问题都有较好支持。尤其是Scrapy框架值得作为第一选择。优点诸多：支持xpath；基于twisted，性能不错；有较好的调试工具；

此种情况下，如果还需要做js动态内容的解析，casperjs就不适合了，只有基于诸如chrome V8引擎之类自己做js引擎。

至于C、C++虽然性能不错，但不推荐，尤其是考虑到成本等诸多因素；对于大部分公司还是建议基于一些开源的框架来做，不要自己发明轮子，做一个简单的爬虫容易，但要做一个完备的爬虫挺难的。

像我搭建的微信公众号内容聚合的网站http://lewuxian.com就是基于Scrapy做的，当然还涉及消息队列等。可以参考下图：

具体内容可以参考

一个任务调度分发服务的架构

发布于 2014-06-02 10:19