爬虫与反爬虫的过程

什么是网络爬虫？批量自动的获取网站上信息的程序。

什么是反爬虫？阻止爬虫程序获取网站信息的方法策略。

为什么要反爬虫？一是不想自己的劳动成果被人窃取，二是有些粗暴的爬虫程序会让网站服务器压力山大或者直接崩溃。于是，爬虫与反爬虫之间一场艰苦卓绝的持久战开始了！

1、爬虫工程师在网络上发现一个比较有趣的网站，对它非常感兴趣，于是分析网络请求，花了点时间写了个爬虫，美滋滋地去爬取数据了；网站管理员通过监控突然发现这个时间段，网站的访问量暴涨，难道是要火了？不看不知道，一看吓一跳，全都是相同的IP，相同的User-Agent，这是被爬虫瞄上了啊，封IP。

2、爬虫工程师突然发现爬不动了，咋回事，难道是被发现了，于是换个IP去爬，有效果，再换个User-Agent，效果倍棒；网站管理员心想封了爬虫IP就可以高枕无忧了吧，不料一会儿又发现大量的访问IP，千篇一律的请求，无疑是爬虫，咋办，要求登陆后才能访问。

3、爬虫工程师爬着爬着突然发现又爬不动了，根据提示，注册账号，每次请求都带上cookie或者token，心想这下你还能怎么办；网站管理员显然不会就这样放弃，健全账号体系，比如只能访问好友信息。

4、爬虫工程师发扬百折不挠的精神，再次注册多个账号，联合爬取；网管也杠上了，限制访问频率，一个IP只能访问10个页面，访问一个页面小于3秒，限制IP访问。

5、爬虫工程师斗志昂扬，模仿用户正常请求，调整请求速度，选择购买使用代理IP，网管增加验证码；爬虫工程师通过各种手段识别验证码、网管增加动态网站、数据通过js动态加载等，爬虫工程师通过selenium和phantomjs完全模拟浏览器操作……

最后，网管觉得成本太高了，不得不放弃了。