Skip to content

zjfGit/Scrapy-Spider-based-on-Python3

Folders and files

NameName
Last commit message
Last commit date

Latest commit

d14ea6b · May 3, 2017

History

8 Commits
May 3, 2017
May 3, 2017
May 3, 2017
May 3, 2017
May 3, 2017
May 3, 2017
May 3, 2017
May 3, 2017
May 3, 2017
May 3, 2017
May 3, 2017
May 3, 2017
May 3, 2017
May 3, 2017
May 3, 2017
May 3, 2017

Repository files navigation

网页爬虫设计

创建项目

  • 进入指定文件夹,右击空白处>在此处打开命令行窗口
  • 创建项目
Scrapy startproject DgSpider

主要代码文件说明

  • 爬虫主类 :UrlSpider.py、ContentSpider.py 项目包含2个爬虫主类,分别用于爬取文章列表页所有文章的URL、文章详情页具体内容
  • 内容处理类 :pipelines.py 处理内容
  • 传输字段类 :items.py 暂存爬取的数据
  • 设置文件 :settings.py 用于主要的参数配置
  • 数据库操作:mysqlUtils.py 链接操作数据库
  • 文本处理、上传文本:PostHandle.py 处理文本

About

基于Python3的Scrapy网页爬虫框架

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages