目的:使用python 爬虫实现对 douyu网站的部分文字的提取 包括但不限于(分类、主播、标题内容)
具体功能实现:
1、导入HTTP的请求模块----requests
2、导入正则表达式模块 ----re
3、导入gzip
打开douyu首页发现,其对content 内容进行了一系列的压缩:gzip,这里我们也调用python中的gzip库进行一个解压的过程
代码实现:具体功能有注释,需要理解
'''
使用python爬虫爬取斗鱼网页上面的部分文字
'''
import re
import gzip
from io import BytesIO
import urllib.request
url ="https://www.douyu.com/"
#使用模块的uropen方法,打开url的页面
r = urllib.request.urlopen(url)
content = r.read() #读取压缩的数据
#将content转换为文件对象
buff =BytesIO(content)
#解压缩
f = gzip.GzipFile(fileobj=buff)
#使用read方式读取并转码
res = f.read().decode('utf-8')
#正则表达式匹配所有页面中alt =“ ”中的内容
a = re.findall(r'alt="(.*?)"',res)
for i in range(0,len(a)):
print(a[i])
结果如下:
关注我,让我们一起进步
留言与评论(共有 0 条评论) “” |