一、介绍 通过分析网站日志可以统计出百度的真实抓取次数、分析抓取情况。

网站一般都有一定的反爬虫机制,但是为了正常收录会通过UA排除百度的爬虫,也就导致了很多做采集、爬虫的人冒充百度爬虫UA用以越过反爬虫机制。

二、分析、识别原理 逐条分析每一条日志,筛选出百度爬虫的日志,再通过exec函数执行nslookup命令反向解析IP获取解析的域名,域名中包括baiduspider关键词的就是真的百度爬虫。

三、使用 下载PHP脚本(百度网盘)提取码:8888。

该脚本需要使用exec函数,使用前请打开php.ini,搜索disable_function,在它的值内把exec去掉。

Linux、window命令行下输入:php monitor.php,按照提示输入日志文件的文件路径,结果如下

阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。