博导推荐给我一本基于Python实现爬虫的书，最适合程序猿们看的！--粉丝服务平台-粉丝头条-fensifuwu.com

博导推荐给我一本基于Python实现爬虫的书，最适合程序猿们看的！

科技 07-15 来源：人生苦短我用派森

互联网囊括了至今为止最有用的数据集，而且大部分能公开免费访问。但这些数据基本上不能复用。它们被嵌入在网站的结构、样式中，得抽取出来才能使用。我们从网页中抽取数据的过程就是我们熟知的网络爬虫，互联网时代每天都有大量的信息被发布到网络上，网络爬虫也愈来愈有用。大家需要学习资料的小伙伴可以在后台私信回复我01，坚持到系统自动发送资料！

互联网包含了迄今为止最有用的数据集，并且大部分可以免费公开访问。

爬虫何时有用

假设我有一个服装店，并且想要及时了解竞争对手的价格。

总之，我们不能仅仅依赖于API去访问我们所需的在线数据，而是应该学习一些网络爬虫技术的相关知识。

本书基于Python 3

在本书中完全使用Python 3进行开发

对于初学者来说，我推荐使用Conda，因为其需要的安装工作更少一些。

编写第一个网络爬虫

抓取网站数据，我们首先得下载包含有感兴趣数据的网页，这个过程称之为爬取（crawling）。

一、抓取与爬取的对比

根据我们所关注的信息和站点内容、结构的不同，可能需要进行网络抓取或是网站爬取。

那么它们有什么区别呢？

例如：是否只用于抓取？是否也适用于爬虫？

二、下载网页

我们要想抓取网页的话，首先需要将其下载下来。示例脚本使用urllib模块下载URL。

传入URL参数时，该函数将会下载网页并返回其HTML。不过，这个代码片段存在一个问题，当我们下载网页时，可能会遇到一些无法控制的错误，比如请求的页面可能不存在。这个时候urllib会抛出异常，然后退出脚本。

安全起见，下面再给出一个更稳建的版本，可以捕获这些异常。

现在，当出现下载或URL错误时，该函数能够捕获到异常，然后返回None。

三、重试下载

我们在下载时遇到的错误一般都是临时性的，例如服务器过载时返回的503 Service Unavailable错误。

下面是支持重试下载功能的新版本代码：

现在，在download函数遇到5xx错误码时，会递归调用函数本身来重试。该函数还增加了一个参数，用于设定重试下载的次数，默认为两次。之所以在这里限制网页下载尝试次数，可能是服务器错误暂时还木有恢复。想要测这个该函数，可以尝试下载http://httpstat.us/500，这个网址会始终返回500错误码。

从返回的结果可以看出，download函数的行为和预期一致，先尝试下载网页，在接收到500错误后，又进行了两次重试才放弃。

四、设置用户代理

在默认情况下urllib使用Python-urllib/``3.x作为用户代理下载网页内容，3.x是正在使用的Python版本号。

即Web Scraping with Python的首字母缩写

现在再次访问meetup.com，就可以看到一个合法的HTML了。下载函数在后续代码中可以得到复用，这个函数能够捕获异常，在可能的情况下重试网站以及设置用户代理。

五、网站地图爬虫

在第一个简单的爬虫中，我们将使用示例网站robots.txt文件中发现的网站地图来下载所有网页。为了解析网站地图，就用一个简单的正则表达式，从标签中提取出URL。需要更新代码以处理编码转换，因为目前的download函数只是简单地返回了字节。

代码：

现在运行网站地图爬虫，从示例网站中下载所有国家或地区页面。

正如上面代码中的download方法所示，我们必须更新字符编码才能利用正则表达式处理网站响应。

下一节中，我们将会介绍另一个简单的爬虫，该爬虫不再依赖于Sitemap文件。

六、ID遍历爬虫

本节中利用网站结构的弱点，更加轻松地访问所有内容。

测试结果如下图所示

从上图可以看出，网页还是可以加载成功，也就是说这个方法是有用的。现在我们就可以忽略页面别名，只利用数据库ID来下载所有国家（或地区）的页面了。

来看看使用了该技巧的代码片段

我们现在可以使用该函数传入基础URL

在这段代码中对ID进行遍历，直到出现下载错误再停止，假设抓取已到达最后一个国家的页面。

但这种实现方式是有缺陷的，那就是某些记录可能已被删除，数据库ID之间并不是连续的。这个时候只要访问到某个间隔点，爬虫就会马上退出。以下是这段代码的改进版本，在这个版本中连续发生多次下载错误后才会退出程序。

以上代码中实现的爬虫得连续5次下载错误才会停止遍历，这样就极大地降低了遇到记录被删除或隐藏时过早停止遍历的风险。

七、链接爬虫

要运行这段代码，只需要调用link_crawler函数，并传入两个参数。

要爬取的网站URL 用于匹配你想跟踪的链接的正则表达式

对于示例网站来说，我们想要爬取的是国家（或地区）列表索引页和国家（或地区）页面。

你会得到如下所示的下载错误：

可以看出，问题出在下载/index/1时，链接只有网页的路径部分没有协议和服务器部分，这是一个相对链接。

我们在运行这段代码时，虽然下载了匹配的网页，但是同样的地点会被不断重复下载到。

我们运行这个脚本的时候它会爬取所有地点，并且能够如期停止。最终得到了一个可用的链接爬虫。

爬虫下载函数

发表评论

留言与评论（共有 0 条评论）

相关文章

别装有线宽带了，5G以后，有线宽带将被淘汰

别装有线宽带了，5G以后，有线宽带将被

第一讲：办公Excel介绍

第一讲：办公Excel介绍

360手机助手上线付费下载业务游戏成为首批试点领域

360手机助手上线付费下载业务游戏

6.时间盲注的原理和注入方法

6.时间盲注的原理和注入方法

苹果的流量上限如何取消掉？有这些小妙招

苹果的流量上限如何取消掉？有这些小

DGET函数的用法及实例

DGET函数的用法及实例

网友投稿普通会员

我还没有学会写个人说明

387204 篇文章

12992553 次浏览

最近文章

'); })();