利用python库提取douyu网页上面的部分信息（分类，主播，标题）--粉丝服务平台-粉丝头条-fensifuwu.com

利用python库提取douyu网页上面的部分信息（分类，主播，标题）

科技 08-31 来源： ohmywish

目的：使用python 爬虫实现对 douyu网站的部分文字的提取包括但不限于（分类、主播、标题内容）

具体功能实现：

1、导入HTTP的请求模块----requests

2、导入正则表达式模块 ----re

3、导入gzip

打开douyu首页发现，其对content 内容进行了一系列的压缩:gzip，这里我们也调用python中的gzip库进行一个解压的过程

代码实现：具体功能有注释，需要理解

'''
使用python爬虫爬取斗鱼网页上面的部分文字
'''

import re
import gzip
from io import BytesIO

import urllib.request

url ="https://www.douyu.com/"
#使用模块的uropen方法，打开url的页面
r = urllib.request.urlopen(url)
content = r.read() #读取压缩的数据

#将content转换为文件对象
buff =BytesIO(content)
#解压缩
f = gzip.GzipFile(fileobj=buff)
#使用read方式读取并转码
res = f.read().decode('utf-8')
#正则表达式匹配所有页面中alt =“ ”中的内容
a = re.findall(r'alt="(.*?)"',res)

for i in range(0,len(a)):
    print(a[i])

结果如下：