你都用 Python 来做什么?

发现很多人都在学习 Python ,但是没有明确的说明可以做什么,主流的功能是什么?想知道目前利用 Python 开发的都在干什么?
关注者
40,000
被浏览
16,371,885

1,141 个回答

多图,请确保在Wi-Fi环境下点开!

主要是爬取数据,并把爬回来的数据进行分析和挖掘,做过的小项目主要有:

  1. 扒了扒蔡徐坤100万+微博转发中,假流量占了多少的比例

随机抓取蔡徐坤100万+转发的微博《再见,“任性的”千千…》的10万条转发数据,并且分析蔡徐坤真假转发流量的比例以及真假粉丝的用户画像。

发现102313条转发数据中,有95397条是由假粉丝转发的,占了总转发的93.24%,只有6916条是由真粉丝转发的,占6.76%。6916条数据中,除去重复转发的粉丝,真实粉丝数量只剩下3926个。也就是说,真实转发的粉丝数量,占总转发量的3.84%。



与之相比,吴青峰10006条转发数据中,只有很少比例的假粉丝量,绝大部分都是真粉丝转发的。在9658条真粉丝转发数据中,真粉丝量也高达9318,说明不存在粉丝打榜的情况。



另外还有一些有趣的发现:假粉丝的平均关注是3.44,平均粉丝数是1.04,没有简介,昵称基本上都是“中文+英文和数字”这个格式,很多假粉丝的昵称都带有“坤”、“蔡”、“葵”、“kun”等字,头像都是蔡徐坤(说明很多都是定制粉啊)。

爬虫和数据分析代码戳:CaiXuKun,具体的数据分析文章戳:《用大数据扒一扒蔡徐坤的真假流量粉》


2. 爬取了西瓜直播(今日头条旗下APP)各类型游戏的主播直播数据107.5万条,并分析直播平台和游戏主播行业是否真如我们想象般的暴利

使用多线程爬虫爬取了西瓜直播(今日头条旗下APP)各类型游戏的主播直播数据107.5万条(时间:2019年4月30日0时至5月7日0时7天,平均每隔5分钟获取一次各类型游戏所有主播直播数据),并分析直播平台和游戏主播行业是否真如我们想象般的暴利,以及游戏主播的回报跟付出的努力是否成正比

全平台7天内出现的主播有4601人,其中有3266位主播具有打赏收入,有1335位主播是没有打赏收入的。在3266位有打赏收入的主播中,历史总打赏小于100元的有1143人,占总数的35%。历史总打赏小于1万元的有2491人,占总数的76%。历史总打赏大于10万元的有177人,占总数的5%。


那么努力和收获是成正比的吗?图表中的趋势告诉我们:是的。总收入一百元以内的直播,平均每日直播2.2小时,而总收入一百万到一千万的主播,平均每日直播5.7小时!

可能大家觉得这个时间不长,但是要知道玩游戏是一项需要全神贯注的游戏,主播要是走神了没玩好,人气就不在了,礼物也刷不上来。试想一下每日要全神贯注玩6个半小时的游戏,还要解说和互动,就知道辛苦程度如何了。

可以看到,节假日的观看人数要比非节假日高。每日观看人数从7点开始攀升,到12点达到小峰值(500万左右),再从下午的4点开始急剧攀升,下午6点的观众人数,是12点的3-4倍。说明观众习惯下午下班后打开APP观看直播。下午6点一直到晚上12点,都是直播的黄金时间。


爬虫和数据分析代码戳:LiveStreaming,具体的数据分析文章戳:《用大数据扒一扒蔡徐坤的真假流量粉》


3. 爬取英语外籍老师与本土老师招聘数据,分析洋外教是否真的是一群没学历、没教学经验的外国人拿着高工资在我们国家逍遥快活

爬取外籍人员招聘网站JobLEADChina上的外籍英语老师招聘数据945条,万行教师人才网上的英语老师招聘数据5780条,以及微信群成员信息498条,并分析外教教师的招聘状况。


大部分中教的工资都在10K以内,而大部分的外教工资都在10K以上。中教的月平均工资是8.3K(按照城市为单位平均后是7.9K),而外教的月平均工资是15.7K,大概是中教的2倍。


在国内实习的外教月薪可以轻松破万,入门级的外教更是可以拿到15.8K的高薪。而我们的教师,即使工作了五到十年,还是拿不到入门级外教的工资。



Any education(也就是不管你的学历)的外教,来到中国可以拿的月平均工资是13.9K人民币,比我们硕士毕业的英语老师还要高出不少。有本科学历的外教平均工资是16.3K,硕士毕业的轻松上2万。



我们把外教群里的外教来源省份画了出来,可以看到,有来自美国纽约的、有来自加拿大多伦多的,有来自英格兰的,当然,也有来自法国巴黎的(法语)、有来自土耳其伊斯坦布尔的(土耳其语)、有来自荷兰阿姆斯特丹的(荷兰语),有来自西班牙拉科鲁尼亚的(西班牙语),还有来自其它各种各样地方的,你们自己感受一下。


爬虫和数据分析代码戳:ESL,具体的数据分析文章戳:《没经验没学历的外教为啥能拿1.4W+的高薪?》


4. 爬取最近大火的程序员集体抵制996的项目996.ICU中,Issues页面讨论数据和点了star的程序员Github个人信息数据,并且分析这群抵制996的程序员都是何方神圣

爬取了Github热门项目996.ICU中Issues页面的10037条讨论数据和39987条点了star的程序员Github个人信息数据。

可见,抵制996的程序员,最多的是来自阿里系的公司,有148人,其次是腾讯、百度、京东等,以加班文化著称的华为,排名才第9。当然,还有很多来自小米、微软、谷歌、中兴、联想、ThoughtWorks等各个公司的程序员。

可以看到,浙大以59人star了该repos排名榜首,其次是上海交大、清华、电子科大、北邮、武大、哈工大、中科大、复旦大学。这些大学,都是非常有名的大学啊,也是出产程序员的大学。当然,还有很多人来自于华中科大、卡耐基梅隆大学、北航、北理工、中山大学等学校的学生。


北京以2094人位居榜首!其次是上海、杭州、深圳等等。这些城市,恰恰是国内互联网行业发展得最好的城市。看来这个repos确实在全国程序员界都引起了巨大的反响,乃至新加坡、日本、美国等地的程序员都前来支持。


这群程序员的平均粉丝数为10.9,关注数为14.6,repos数为19.1。从数据可以看出,大部分都是默默无闻又兢兢业业的苦逼基层程序员。


关注996工作制的程序员中,有程序员大牛。排名第一的是一个熟悉的面孔,轮子哥!另外有来自腾讯的Coco,来自滴滴的singwhatiwanna,技术博主颜海镜等,这些人都在关注996。在39987个star了该repos的程序员中,粉丝数大于1000的有47人,大于500的有110,大于100的有598人。说明还是有很多有影响力的程序员在关注996工作制。


爬虫和数据分析代码戳:ICU996,具体的数据分析文章戳:《大胆,都是哪些程序员在反对996?!》


5. 爬取丁香人才网的医生招聘数据,分析儿科医生的生存处境

看了《人间世》第二季第8集《儿科医生:坚守,还是逃离?》之后,爬取了丁香人才网10950条涵盖儿科、内科、外科、妇产科、眼科的招聘数据,并且分析儿科医生的真实处境。

相比于公立医院招聘中更看重高学历人才,民营医院招聘时更加看重医生的工作经验。所以公立医院中由于学历导致发展受限的有经验的医生,很多都跳槽去民营医院了。

儿科岗位平均招聘持续时间是73天,将近2个半月的时间,位居榜首!看来儿科招人难,确实是千真万确的,而外科是最好招人的。

儿科医生在所有类型的单位里,公立医院开出的工资是最低的。连诊所和药房的工资都比公立医院高。

相同工资水平下,民营医院对学历不限和大专的要求比公立医院多,而公立医院对本科、硕士、博士的要求比民营医院多。也就是说,在民营医院,不需要那么高的学历,就可以拿到跟公立医院同价位的待遇。

爬虫和数据分析代码戳:Paediatrician,具体的数据分析文章戳:《儿科医生的眼泪,全被数据看见了》


6. 爬取北上广深链家网全部租房数据,并给出租房建议

爬取北上广深链家网全部租房房源数据,并且得出租金分布、租房考虑因素等建议。

把北上广深四个城市的房源都以小点的形式投射在地图上,先来看看北京的:


上海的:


广州的:


深圳的:


租房房源分布透露出来的信息其实不多,我们更关心的是各区域的价格。为此我计算了各房源每平米每月的租金,并绘制了热力地图,先来看北京的。

热力地图还有互动版本,可以随意放大缩小定位到自己感兴趣的区域:北京市每平米租金热力图


上海市

互动地图点击:上海市每平米租金热力图


广州市

互动地图点击:广州市每平米租金热力图


深圳市

互动地图点击:深圳市每平米租金热力图

爬虫和数据分析代码戳:BSGS_Rent,具体的数据分析文章戳:《北上广深租房图鉴》


7. 全国367个城市春节期间的空气质量指数数据爬取和分析

爬了全国367个城市从除夕到初七的空气质量数据,数据有68155条,并分析烟花爆竹对空气质量的影响,以及城市禁放烟花爆竹是否有效。


可以看到,PM2.5和PM10在除夕晚上六点之后开始飙升


全国大部分城市空气质量指数飙升为原来的1-5倍,有城市甚至飙升到20-25倍!



有些管控严格的城市,虽然除夕当晚管控地很好,可是时间一过就开始反弹飙升。

爬虫和数据分析代码戳:Fireworks_and_Pm2.5,具体的数据分析文章戳:《六万条数据全面解析,城市春节禁放烟花爆竹真的有用吗?》


8. 爬取电影《流浪地球》的猫眼评论和评分,并分析该电影出现低分的原因

爬了102580条《流浪地球》的猫眼评论,分析观众打分的时间规律,并对观众的评论做了词云图,分析大家打高分和低分的原因。



晚上21点、22点的时候(也就是观影高峰期)最容易出现低评分。


对高分的评论画了词云图,高分的观众觉得:

1. 这部电影很不错、很好看、很震撼、很感人,会大力推荐;

2. 观众乐于把这部片跟好莱坞的科幻片进行比较,并且认为其特效完美、场面宏大,是中国里程碑式的科幻大片,相比以前有很大进步;

3. 吴京、刘慈欣、导演多次被提及,说明观众对演员、剧本和导演都有很大的认可度,认为演员演技优秀、剧本扎实、导演良心。


对低分的评论也画了词云图,打低分的观众觉得:

1. 这部影片虽然特效很好,但是剧情东拉西扯、强行煽情、年轻演员演技捉急、没有逻辑,是烂片;

2. 吴京的英雄主义和强行的爱国情怀让这部片看起来像太空版的《战狼》,很尴尬;

3. 女主的演讲是本片最大的败笔,年轻演员撑不起这样的巨作。


爬虫和数据分析代码戳:TheWanderingEarth,具体的数据分析文章戳:《十万条评论告诉你,给《流浪地球》评1星的都是什么心态?》


9. 模拟登录微博手机端爬取海量表情包(其实代码同样也可以爬小姐姐的图片)

爬了一千多张点赞量最高、目前最火的表情包,让自己的表情包库再也不捉襟见肘。


另外还用这个爬虫爬了很多女装大佬的美图,哈哈哈。

以及很多小姐姐的美图。

爬虫代码戳:Weibo_Comment_Pics,具体的爬虫步骤分析文章戳:《开年表情包局部富有指南,盘它!》


10. 分析美国从1920年以来,每个年代的人的流行英文名

总数据有1924665条,通过分析每个年代的流行英文名,为需要取英文名的童鞋提供一些建议。


2010年以来最受欢迎的男生英文名
2010年以来最受欢迎的女生英文名


注:横轴是该名字人数在每个年代所占总数的百分比


几乎发音相同的名字的书写变体


数据分析代码戳:English_names,具体的数据分析文章戳:《看完这片分析,楼下的Tony和Kevin都改名了!》


11. 分析了70多万场绝地求生的比赛数据,总结出独家吃鸡攻略

分析了总共20多G、70多万场的绝地求生比赛数据,总结出各种地图哪里跳的人最多、近战最佳武器、狙击最佳武器等,程序员嘛,靠技术吃鸡也很重要。

海岛地图中,跳机场跟学校是死得最快的。

沙漠地图中,跳Pecado、San Martin、Power Grid是死得最快的。


开车对吃鸡很重要!!!

满配的M416是海岛和沙漠地图中最好用的枪。


每场比赛场均有1.47个人自己被自己蠢倒(也就是自毙),自毙的方式中,手榴弹高居榜首!哈哈哈。


数据分析代码戳:PUBG-juediqiusheng-data_analysis,具体的数据分析文章戳:《【20G】Kaggle数据集强势分析“绝地求生”,攻略吃鸡!》


12. 为新媒体运营的女票写了一个公众号文章采集器,一键采集各个行业内公众号发表的文章

整个项目只有50行代码,每天早上9点的时候都把昨天一天以来各个行业内公众号发表的文章的标题、摘要和链接等相关信息爬下来,形成一个文档发给女票,这样可以大大方便阅读。

这是爬回来的文档。

爬虫代码戳:Wechat_article_collector,具体的爬虫步骤分析文章戳:《50行代码教你打造一个公众号文章采集器》


13. 爬取雪球网投资组合的历史调仓记录,以及每日根据模型输出自动化调仓

模拟登录雪球网,爬取特定投资组合的历史调仓记录,实时计算收益率。并且每日根据数据模型的预测输出,进行自动化调仓。


需要爬取的投资组合历史调仓记录



爬回来的数据


自动化调仓


持续更新中,欢迎大家关注我的公众号,更多的项目都会在这里第一时间更新:Alfred数据室。

所有项目的代码和数据在Github:interesting-python

如果你也想用Python获取数据,进行有趣的数据分析,Alfred数据室应众多读者要求出品的《实战玩转python爬虫》课程将会是你的好帮手。

课程以目标为导向,设计十大原创案例由浅入深覆盖Python爬虫所需知识点,让你在实战练习中查漏补缺,掌握基础知识,让你告别漫无目的的独自摸索,跟着老师清晰课程框架进行系统性学习,用项目培养爬虫思维,让学习可以举一反三。

课程咨询请添加微信:AlfredLabAssistant

首先上一首 Python 之禅:

我从 2015 年 3 月第一次接触 Python 这门语言(之前一直写 PHP),就对其简洁的代码超快的开发速度深深着迷了。这些年里,我利用 Python 写过非常多的小脚本,绝大部分都是为了提高效率而写的工具,有不少还打包成了桌面版单文件供广大用户使用。

1. SciHub Desktop

这个软件的最初两个版本是用 Python + TK 写的 GUI 程序,主要是为了方便广大研究生突破权限下载英文文献。内含多个文献下载数据源,只要输入文献的 DOI 号,回车就可以自动下载文献全文,非常方便,目前仅网盘的下载量就超过了 30 万人次

2. HistCite Pro

这个软件是基于 HistCite 内核开发的免安装易用版本,使用 Python 对从 Web of Science 数据库中导出的数据文件进行预处理,然后进行文献引文分析,快速分析出某个研究领域最具有价值的文献和作者,目前也得到了数万用户的使用。

3. 上学吧答案神器

这款软件是最近才写的,主要实现的是无限制获取上学吧网站上的题目答案(绕过 IP 限制),并实现了自动识别验证码,只用输入某个题目的网址,即可一键获取答案,速度非常快。

4. 破解观看中科大网络课堂

由于本科四年都在科大,所以那时候也写了好多关于科大的脚本(正是因为太喜欢科大了才会去折腾这些哈),虽然目前有些已经失效了,但是还是值得放出来纪念一下的。

中国科学技术大学网络课堂汇集了很多知名教授的授课视频,以及最新的大牛讲座视频,内容相当丰富,但是这些视频只面向校内 IP 开放。后来不小心找到了网站上的一个漏洞,用 Python 写了不到 10 行代码就可以获取真实视频地址,这样就可以在校外看视频了。(这个漏洞目前已经被修复了,大家就不要找我要代码了哈~)

另外还简单写了一个 GUI 界面,打包成 exe 单软件给室友用,都说挺好用的哈。

5. 抓取研究生系统内全部学生姓名学号及选课信息

登录中国科学技术大学的研究生综合系统,可以看到每一门课选课的学生姓名和学号,当时就想到做一个这样的系统,输入任何姓名或学号就可以看到他所有的选课信息。

点击每门课的已选人数链接,可以看到所有的选课学生姓名和学号:

下面利用 requests 的模拟登录功能,先获取全部课程的链接,然后逐个抓取所有课程的选课信息。(为了保护学生信息,对程序的关键部分进行了模糊处理。)

这样就获取了一个巨大的 json 文件,里面全都是学生的姓名、学号以及选课信息:

有了这个 json 文件,我们可以写入数据库,也可以直接利用 json 文件来查询:

为了方便其他人使用,基于上面的数据我开发了一个在线查询网站(目前已下线):

输入姓名或者学号都可以直接查询别人的选课信息:

6. 扫描研究生系统上的弱密码用户

基于上面获得的研究生学号,很容易利用 Python 批量尝试登录研究生系统,密码就用 123456 这样的弱密码,然后可以获得身份证号码等重要信息。

这样就得到了使用 123456 作为密码的用户信息,所以在此提醒大家一定不要使用弱密码,希望下面的同学早日修改密码。

7. 模拟登录图书馆系统并自动续借

以前收到借阅图书到期通知短信,就会运行一下这个程序,然后就自动续借了,这样就可以再看一个月了。不过后来科大图书馆系统升级了,因此这个方法也就失效了。

运行就是这样的,自动续借成功,看到的链接就是每本书的续借链接。

8. 云短信网站上的验证码短信来源分析

这个网站提供了很多免费的临时手机号,用这些公用的手机号你可以注册一些好玩的(或者你懂的)网站和APP,而不用担心个人信息的泄露。于是我用 Python 写了一个爬虫脚本,自动翻页抓取了部分短信内容,然后解析出其中的信息来源并分析一下频次,就发现好几个看名字就挺有意思的 APP 压根没有听过呀,看来是时候用短信验证码的方式登录看看去啦~

9. 给钓鱼网站批量提交垃圾信息

经常会收到含有钓鱼网站链接的短信的,一般都是盗取 QQ 密码的偏多,其实可以使用 Python 来批量给对方的服务器提交垃圾数据(需要先抓包),这样骗子看到信息之后就不知道哪些是真的哪些是假的了,说不定可以解救一部分填了密码的同学。


10. 网易云音乐批量下载

可以批量下载网易云音乐热歌榜的歌曲,可以自己设定数量,速度非常快。

# 网易云音乐批量下载
# Tsing 2019.03.28

# 首先,找到你要下载的歌曲,用网页版打开,复制链接中的歌曲ID,如:http://music.163.com/#/song?id=476592630 这个链接ID就是 476592630
# 然后将ID替换到链接 http://music.163.com/song/media/outer/url?id=ID.mp3 中的ID位置即可获得歌曲的外链:http://music.163.com/song/media/outer/url?id=476592630.mp3

import requests						# 用于获取网页内容的模块
from bs4 import BeautifulSoup		# 用于解析网页源代码的模块

header={	# 伪造浏览器头部,不然获取不到网易云音乐的页面源代码。
	'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.80 Safari/537.36',
	'Referer':'http://93.174.95.27',
}
link = "http://music.163.com/discover/toplist?id=3778678"	# 这是网易云音乐热歌榜的链接(其实是嵌套在网页里面含有歌曲数据的页面框架的真实链接)
r = requests.get(link, headers=header)	# 通过 requests 模块的 get 方法获取网页数据
html = r.content	# 获取网页内容
soup = BeautifulSoup(html, "html.parser")	# 通过 BeautifulSoup 模块解析网页,具体请参考官方文档。
songs = soup.find("ul", class_="f-hide").select("a", limit=10) 	# 通过分析网页源代码发现排行榜中的歌曲信息全部放在类名称为 f-hide 的 ul 中,于是根据特殊的类名称查找相应 ul,然后找到里面的全部 a 标签,限制数量为10,即排行榜的前 10 首歌。

i = 1 # 设置一个自增参数,表示歌曲的数目

for s in songs:  	# 遍历输出数组 songs 中的内容
	song_id = s['href'][9:] 	# 只截取歌曲链接中的 ID 部分,因为网页中链接的形式为 “/song?id=496870798”,从 = 号之后的就是歌曲的 ID 号。
	song_name = s.text 	# 获取 a 标签的文本内容,即歌曲的名称。
	song_down_link = "http://music.163.com/song/media/outer/url?id=" + song_id + ".mp3"		# 根据歌曲的 ID 号拼接出下载的链接。歌曲直链获取的方法参考文前的注释部分。
	print("第 " + str(i) + " 首歌曲:" + song_down_link)
	print("正在下载...")

	response = requests.get(song_down_link, headers=header).content # 亲测必须要加 headers 信息,不然获取不了。
	f = open(song_name + ".mp3", 'wb') # 以二进制的形式写入文件中
	f.write(response)
	f.close()
	print("下载完成.\n\r")
	i = i + 1

于是就可以愉快的听歌了。


以下是很早之前用 Python2 写的一些小作品,当时的代码可能比较幼稚哈,就不删除了吧~


1. 批量下载读者杂志某一期的全部文章

上次无意中发现读者杂志还有一个在线的版本,然后兴趣一来就用 Python 批量下载了上面的大量文章,保存为 txt 格式。

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# 保存读者杂志某一期的全部文章为TXT
# By Tsing
# Python 2.7.9

import urllib2
import os
from bs4 import BeautifulSoup

def urlBS(url):
    response = urllib2.urlopen(url)
    html = response.read()
    soup = BeautifulSoup(html)
    return soup

def main(url):
    soup = urlBS(url)
    link = soup.select('.booklist a')
    path = os.getcwd()+u'/读者文章保存/'
    if not os.path.isdir(path):
        os.mkdir(path)
    for item in link:
        newurl = baseurl + item['href']
        result = urlBS(newurl)
        title = result.find("h1").string
        writer = result.find(id="pub_date").string.strip()
        filename = path + title + '.txt'
        print filename.encode("gbk")
        new=open(filename,"w")
        new.write("<<" + title.encode("gbk") + ">>\n\n")
        new.write(writer.encode("gbk")+"\n\n")
        text = result.select('.blkContainerSblkCon p')
        for p in text:
            context = p.text
            new.write(context.encode("gbk"))
        new.close()

if __name__ == '__main__':
    time = '2015_03'
    baseurl = 'http://www.52duzhe.com/' + time +'/'
    firsturl = baseurl + 'index.html'
    main(firsturl)


2. 获取城市PM2.5浓度和排名

最近环境问题很受关注,就用 Python 写了一个抓取 PM2.5 的程序玩玩,程序支持多线程,方便扩展。

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# 获取城市PM2.5浓度和排名
# By Tsing
# Python 2.7.9

import urllib2
import threading
from time import ctime
from bs4 import BeautifulSoup

def getPM25(cityname):
    site = 'http://www.pm25.com/' + cityname + '.html'
    html = urllib2.urlopen(site)
    soup = BeautifulSoup(html)

    city = soup.find(class_ = 'bi_loaction_city')   # 城市名称
    aqi = soup.find("a",{"class","bi_aqiarea_num"})  # AQI指数
    quality = soup.select(".bi_aqiarea_right span")  # 空气质量等级
    result = soup.find("div",class_ ='bi_aqiarea_bottom')   # 空气质量描述

    print city.text + u'AQI指数:' + aqi.text + u'\n空气质量:' + quality[0].text + result.text
    print '*'*20 + ctime() + '*'*20

def one_thread():   # 单线程
    print 'One_thread Start: ' + ctime() + '\n'
    getPM25('hefei')
    getPM25('shanghai')

def two_thread():   # 多线程
    print 'Two_thread Start: ' + ctime() + '\n'
    threads = []
    t1 = threading.Thread(target=getPM25,args=('hefei',))
    threads.append(t1)
    t2 = threading.Thread(target=getPM25,args=('shanghai',))
    threads.append(t2)

    for t in threads:
        # t.setDaemon(True)
        t.start()

if __name__ == '__main__':

    one_thread()
    print '\n' * 2
    two_thread()


3. 爬取易迅网商品价格信息

当时准备抓取淘宝价格的,发现有点难,后来就没有尝试,就把目标选在了易迅网。

#!/usr/bin/env python
#coding:utf-8
# 根据易迅网的商品ID,爬取商品价格信息。
# By Tsing
# Python 2.7.9

import urllib2
from bs4 import BeautifulSoup
def get_yixun(id):
    price_origin,price_sale = '0','0'
    url = 'http://item.yixun.com/item-' + id + '.html'
    html = urllib2.urlopen(url).read().decode('utf-8')
    soup = BeautifulSoup(html)
    title = unicode(soup.title.text.strip().strip(u'【价格_报价_图片_行情】-易迅网').replace(u'】','')).encode('utf-8').decode('utf-8')
    print title
    try:
        soup_origin = soup.find("dl", { "class" : "xbase_item xprice xprice_origin" })
        price_origin = soup_origin.find("span", { "class" : "mod_price xprice_val" }).contents[1].text 
        print  u'原价:' + price_origin
    except:
        pass
    try:
        soup_sale= soup.find('dl',{'class':'xbase_item xprice'})
        price_sale = soup_sale.find("span", { "class" : "mod_price xprice_val" }).contents[1] 
        print  u'现价:'+ price_sale
    except:
        pass
    print url
    return None

if __name__ == '__main__':
    get_yixun('2189654')


4. 音悦台MV免积分下载

音悦台上有好多高质量的 MV,想要下载却没有积分,于是就想到破解下载。当时受一个大神的代码的启发,就写出了下面的代码,虽然写的有点乱,但还是可以成功破解的哈。

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# 音悦台MV免积分下载
# By Tsing
# Python 2.7.9

import urllib2
import urllib
import re

mv_id = '2278607'   # 这里输入mv的id,即http://v.yinyuetai.com/video/2275893最后的数字

url = "http://www.yinyuetai.com/insite/get-video-info?flex=true&videoId=" + mv_id 
timeout = 30
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36',
    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8'
}

req = urllib2.Request(url, None, headers)
res = urllib2.urlopen(req,None, timeout)
html = res.read()

reg = r"http://\w*?\.yinyuetai\.com/uploads/videos/common/.*?(?=&br)"
pattern=re.compile(reg)
findList = re.findall(pattern,html)     # 找到mv所有版本的下载链接

if len(findList) >= 3:  
    mvurl = findList[2]     # 含有流畅、高清、超清三个版本时下载超清
else:
    mvurl = findList[0]     # 版本少时下载流畅视频

local = 'MV.flv'

try:
    print 'downloading...please wait...'
    urllib.urlretrieve(mvurl,local)
    print "[:)] Great! The mv has been downloaded.\n"
except:
    print "[:(] Sorry! The action is failed.\n"


以后再慢慢更新一些进来吧,大家可以收藏以下本回答哈~

结语:Python 真的是一个利器,而我用到的肯定也只是皮毛,写过的程序多多少少也有点相似,但是我对 Python 的爱却是越来越浓的。

补充:看到评论中有好多知友问哪里可以快速而全面地学习Python编程,我只给大家推荐一个博客,大家认真看就够了:Python教程 - 廖雪峰的官方网站