Python爬虫实战之豆瓣音乐、微打赏、阳光电影（附代码）

发布时间：2025-11-05 15:48:34 作者：玩站小弟

我要评论

一、豆瓣音乐今天爬的是豆瓣音乐top250，比较简单，主要是练练手。1、加了请求头，本来没加，调试几次突然没数据了，加了请求头开始也没好，后来又好了，可能是网络原因；2、这次是进入信息页爬的数据，上次。

一、爬虫豆瓣音乐

今天爬的实战是豆瓣音乐top250，比较简单，瓣音主要是乐微练练手。

1、打赏电影加了请求头，阳光本来没加，附代调试几次突然没数据了，爬虫加了请求头开始也没好，实战后来又好了，瓣音可能是乐微网络原因；

2、这次是打赏电影进入信息页爬的数据，上次爬电影没采用这种方法，阳光缺少了部分数据；

3、附代数据的爬虫预处理用了很多if函数

数据分析

1、部分数据可以见上图

2、中国音乐作者还是很多的。

3、随着音乐设备和网络的普及，流行音乐的发展，可以看出2000年后作品越来越多，到2010年又积极下滑（经典就是网站模板经典，无法吐槽现在的音乐）

4、风格大家可以看出流行，摇滚，民谣占了一大半。

5、最后弄了一首周董的《不能说的秘密》做词云，想想小时候都是回忆啊。

代码片段

import requests import re from bs4 import BeautifulSoup import time import pymongo client = pymongo.MongoClient(localhost, 27017) douban = client[douban] musictop = douban[musictop] headers = { User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36 } urls = [https://music.douban.com/top250?start={}.format(str(i)) for i in range ( 0 , 250 , 25 )] def get_url_music ( url ): wb_data = requests . get ( url , headers = headers ) soup = BeautifulSoup ( wb_data . text , lxml ) music_hrefs = soup . select ( a.nbg ) for music_href in music_hrefs : get_music_info ( music_href [ href ]) time . sleep ( 2 )

二、微打赏

网站分析

打开网站，翻页网页不变，看看是post的请求，很好办，直接把参数怼进去，这里只要切换page就能进行翻页。

json格式，这里post返回的是json数据，解析json数据就行，小技巧：看preview，解析起来嗖嗖哒。这里需要提取活动的名称，id和参与打赏的人数。高防服务器这个后面详细页用的到。

详细页，依旧是post，依旧是json数据，这里的参数pro_id为之前的爬取的id，这一页20个信息，通过前面的参与打赏人数构造出有多少页，继续怼参数。

代码片段

import requests import json import math def get_sup_info ( url , page ): params = { ajaxtype : 1 , page : page , category : 1 , pageSize : 8 } cookies = { User-Agent : Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36 , Cookie: acw_tc=AQAAAKLQ3U/WTAYAggq7PZ24WOlm9vQW; PHPSESSID=r0nbvk7hppjftegk4fpt9cu535; _uab_collina=150094753858198811653567; mdswv=v1.0; mdsa=MD-STICS-5976a44746eca; mdss=6-o; mdsf=md; mdsff=www_so_com; } html = requests.post(url, data=params, headers=cookies) json_data = json.loads(html.text) des = json_data[ des ] for data in des: name = data[ name ] id = data[ id ] pay_count = data[ pay_count ] all_page = math.ceil(int(pay_count)/20) for i in range(1,int(all_page)+1): get_app_info(i,id,name)

三、阳光电影

爬虫分析

这里涉及跨页的爬取，需要理清爬虫的思路。首先打开网站，需爬取前11个分类的电影数据,经典影片格式不一样，爬虫时过滤掉了。

进入电影列表页后，正则爬取页数和电影的分类标签，以此构造分页url，然后爬取电影的名字和url。

最后在详细页爬取电影的下载地址，b2b信息网爬取结果如下：

代码片段

import requests import re from lxml import etree import csv def get_resource(url,cate_name,cate_url,movie_name): res = requests.get(url) res.encoding = gb2312 html = etree.HTML(res.text) movie_resource = html.xpath(//tbody//tr/td/a/text())[0] writer.writerow((cate_name,cate_url,movie_name,url,movie_resource)) print(movie_resource)

Tag：

让电扇吹凉风的技巧（如何调节电扇使其吹出凉风）
摘要：夏天的炎热让人们渴望能够享受到一阵清凉的凉风。而电扇作为常见的散热设备，我们可以通过一些技巧来调节电扇，使其吹出凉风。接下来，将会介绍一些实用的方法和技巧，帮助您在炎热的夏天享受到...
2025-11-05
深入理解select count(*)底层究竟做了什么
复制PS:这里的JOIN结构，不仅仅是纯语法结构，而是已经进行了语义处理，粗略地说，汇总了表的列表(table_list)、目标列的列表(target_list)、WHERE条件、子查询等语法结构。在
2025-11-05
实现主动威胁搜索的优秀实践与热门工具
随着攻击技术的演进，网络安全防御者也需要不断升级企业的防御方案，将网络安全建设从被动防御转换到主动防御、积极反制的方向上来，主动威胁搜索技术应运而生，并逐渐成为现代企业网络安全防护计划的重要组成部分。
2025-11-05
Kinsing Crypto恶意软件通过错误配置的PostgreSQL攻击Kubernetes集群
Kinsing加密劫持操作背后的威胁行为者被发现利用配置错误和暴露的 PostgreSQL 服务器来获取对 Kubernetes 环境的初始访问权限。Microsoft Defender for Cl
2025-11-05
电脑系统错误的修复与解决方法（探究电脑系统错误的成因，解析有效的修复方案）
摘要：电脑作为现代人生活和工作中必不可少的工具，经常会遇到各种系统错误导致的问题。本文旨在探究电脑系统错误产生的原因，并提供一些有效的修复方案，帮助用户解决电脑系统错误带来的困扰。...
2025-11-05
研究：消费者安全意识远远落后于物联网威胁形势
随着互联网连接设备包括消费者和工业设备的快速扩张，网络威胁形势的增长速度超过了个人跟上的能力。消费者发现威胁的能力落后，更不用说防御威胁了。由于消费者对保护其网络接触点的安全漠不关心，因此商业以及公共
2025-11-05

IT科技

系统运维

人工智能

应用开发

数据库

域名

Python爬虫实战之豆瓣音乐、微打赏、阳光电影（附代码）

相关文章

最新评论

文章分类

大家感兴趣的内容

最近更新的内容

友情链接