爬虫怎么解决IP不足的问题？--粉丝服务平台-粉丝头条-fensifuwu.com

爬虫怎么解决IP不足的问题？

科技 08-21 来源：太阳软件站长经验分享

在网络爬虫抓取信息的过程中，经常会被网站禁止访问但是却一直找不到原因，这也是让很多人头疼的原因，这里有几个方面可以帮你初步检测一下到底是哪里出了问题。

如果你发现你抓取到的信息和页面正常显示的信息不一样，或者说你抓取的是空白信息，那么很有可能是因为网站创建页的程序有问题；如果抓取频率高过了网站的设置阀值，将会被禁止访问。通常，网站的反爬虫机制都是依据IP来标识爬虫的，很多时候我们的IP地址会被记录，服务器把你当成是爬虫程序，所以就导致现有IP地址不可用，这样就需要我们想办法修改一下现有爬虫程序或者修改相应的IP地址。

于是在爬虫的开发者通常需要采取两种手段来解决这个问题：

一种是放慢抓取速度，减小对于目标网站造成的压力。但是这样会减少单位时间内的抓取量。

第二种方法是通过设置代理IP等手段，突破反爬虫机制继续高频率抓取，但是这样需要多个稳定的代理IP。

普通的基于ADSL拨号的解决办法。通常，在抓取过程中遇到禁止访问，可以重新进行ADSL拨号，获取新的IP，从而可以继续抓取。但是这样在多网站多线程抓取的时候，如果某一个网站的抓取被禁止了，同时也影响到了其他网站的抓取，整体来说也会降低抓取速度。

另外一种可能的解决办法，同样也是基于ADSL拨号，不同的是，需要两台能够进行ADSL拨号的服务器，抓取过程中使用这两台服务器作为代理。

假设有A、B两台可以进行ADSL拨号的服务器。爬虫程序在C服务器上运行，使用A作为代理访问外网，如果在抓取过程中遇到禁止访问的情况，立即将代理切换为B，然后将A进行重新拨号。如果再遇到禁止访问就切换为A做代理，B再拨号，如此反复。

还有很多问题需要我们在实际抓取过程中，根据问题实际分析实际解决，很大程度上来说，爬虫抓取是一项很麻烦而且很困难的工作，因此现在很多软件被研发出来，旨在解决爬虫程序的各种问题。