python3.6爬虫之豆瓣电影Top200详解（三）

人生至乐莫过于读书，

目标：抓取豆瓣电影的导演、评分、电影名、url，并保存于本地excel。

我们采用：requests（获取）——json——pandas（储存）

废话不多说，先上结果与代码：

# -*- coding: utf-8 -*-
import requests
import json
import pandas as pd

#1:把所有url放入urls这个列表里。2：用for循环实现翻页
urls = ['https://movie.douban.com/j/new_search_subjects?sort=S&range=0,' \
        '10&tags=%E7%94%B5%E5%BD%B1&start={}'.format(i*20) for i in range(0,10)]
comments = []   #创建一容器来放爬去的内容
for url in urls:
    r = requests.get(url).json()   #获取json文件
    jsons = r['data']              #获取data键中的数据
    for it in jsons:
        author = it['directors']   #获取导演
        # if['directors']中值为空，则author = it['casts']
        if author ==None:          
            print('none')
        else:
            author = it['casts']
            
        rate = it['rate']
        title = it['title']
        url = it['url']
        comments.append({'authors':author,'rates':rate,'titles':title,'urls':url})

df = pd.DataFrame.from_dict(comments)   #定义DataFrame对象并赋给df
df.to_excel('D://db_dy.xlsx')          #把结果输出为excel，存在D盘

前言：

①：了解网页的两种加载方法

同步加载：改变网址上的某些参数会导致网页发生改变，例如：http://www.itjuzi.com/company?page=1（改变page=后面的数字，网页会发生改变）
异步加载：改变网址上的参数不会使网页发生改变，例如https://movie.douban.com/tag/#/（翻页后网址不会发生变化）

②：判断是何种加载方法