爬虫-IP屏蔽1 No Attempt
大家说,页面做分页是因为单页内容太多。但分页还有一个不为人知的好处——用来反爬。
当一个爬虫尝试不断翻页爬取所有内容的时候,行为特征会非常容易识别。比如说,对高频率访问的IP进行封禁。
因为这是一个硬核的爬取攻防练习,常规高频封禁太弱了,所以这里的策略是:你的每个IP,只能访问一次,之后就会被封禁。
悄悄地告诉你,你之前用过的IP,已经被悄悄记录了~
这里有一个网站,分了1000页,求所有数字的和。
大家说,页面做分页是因为单页内容太多。但分页还有一个不为人知的好处——用来反爬。
当一个爬虫尝试不断翻页爬取所有内容的时候,行为特征会非常容易识别。比如说,对高频率访问的IP进行封禁。
因为这是一个硬核的爬取攻防练习,常规高频封禁太弱了,所以这里的策略是:你的每个IP,只能访问一次,之后就会被封禁。
悄悄地告诉你,你之前用过的IP,已经被悄悄记录了~
这里有一个网站,分了1000页,求所有数字的和。