爬虫与反爬虫的过程

作者:51IP代理 出处:互联网 时间:2020-07-28
    什么是网络爬虫?批量自动的获取网站上信息的程序。
 
    什么是反爬虫?阻止爬虫程序获取网站信息的方法策略。
 
    为什么要反爬虫?一是不想自己的劳动成果被人窃取,二是有些粗暴的爬虫程序会让网站服务器压力山大或者直接崩溃。于是,爬虫与反爬虫之间一场艰苦卓绝的持久战开始了!
 
    1、爬虫工程师在网络上发现一个比较有趣的网站,对它非常感兴趣,于是分析网络请求,花了点时间写了个爬虫,美滋滋地去爬取数据了;网站管理员通过监控突然发现这个时间段,网站的访问量暴涨,难道是要火了?不看不知道,一看吓一跳,全都是相同的IP,相同的User-Agent,这是被爬虫瞄上了啊,封IP。
 
    2、爬虫工程师突然发现爬不动了,咋回事,难道是被发现了,于是换个IP去爬,有效果,再换个User-Agent,效果倍棒;网站管理员心想封了爬虫IP就可以高枕无忧了吧,不料一会儿又发现大量的访问IP,千篇一律的请求,无疑是爬虫,咋办,要求登陆后才能访问。
 
    3、爬虫工程师爬着爬着突然发现又爬不动了,根据提示,注册账号,每次请求都带上cookie或者token,心想这下你还能怎么办;网站管理员显然不会就这样放弃,健全账号体系,比如只能访问好友信息。
 
    4、爬虫工程师发扬百折不挠的精神,再次注册多个账号,联合爬取;网管也杠上了,限制访问频率,一个IP只能访问10个页面,访问一个页面小于3秒,限制IP访问。
 
    5、爬虫工程师斗志昂扬,模仿用户正常请求,调整请求速度,选择购买使用代理IP,网管增加验证码;爬虫工程师通过各种手段识别验证码、网管增加动态网站、数据通过js动态加载等,爬虫工程师通过selenium和phantomjs完全模拟浏览器操作……
 
    最后,网管觉得成本太高了,不得不放弃了。
0