数据采集技术指南 技术栈总览
十四君
前腾讯高工,web3/合约/安全,Git7K星 技术博主
从事爬虫虽然时间不长,但是经历的项目都具有特例性,从亿级数据采集到各种伪造隐藏技术,从极验验证码破解到淘宝百度等反爬虫破解,从分布式架构部署到多种ip跟换技术,从普通请求到js破解和自动化模拟,这些主流技术都有亲身经历。因此不才去尝试写这份技术指南。
因在公司有需求培养新人从爬虫技术入手,因此特地制作本系列教程,学技术重在广而精,因此先综述爬虫技术的技术栈,之后对需要分析以及灵活的技术进行样例演示解说。
技能树总图:
红色为常用 ,爬虫技能树-总览图.graffle(可以拿到链接)我是由mac中omnigraffle软件创建的
总结而言,常用的一系列工具为:
分析工具:
- xpath测试chrome插件xpath helper
- 请求头伪造chrome插件 Modify Headers for Google Chrome
- post和参数调节工具 postman
- scrapy 的shell
- 开发者工具
请求工具:
- requests 网络包
- urllib2 网络包
分布式工具:
- redis 基于内存的数据库
- mysql 数据库
- docker 部署工具,
数据抽取工具
- re 正则表达式
- lxml xpath抽取
模拟浏览器
- phantomjs
- selenium
- ghost
异步
- threading
- Twisted
ip更换技术
- 代理,adsl,tor,vpn,加速器
因为ppt主要是列举,然后口头现场表达和演示,没有详细的说明,以后的分享文会专心于技术内容,而不是今天的技术栈概述。
附录:
ppt和思维汇总图下载 采集技术分享第一期
博客网址:数据采集技术指南 第一篇 技术栈总览-附总图和演讲ppt
github代码干货:luyishisi/Anti-Anti-Spider
编辑于 2021-07-04 11:05