1 Introduction

在爬虫开发中, 大部分的网站都是没有很好的反爬机制, 这个就像安全行业, 只要
爬虫的数据抓取工作不要太频繁从而导致目标网站本身的服务受到影响, 中小型的网站
一般都不会提供非常多的反爬机制.
但是, 对于存在反爬机制的网站, 爬虫应该如何绕过这些机制, 成功抓取我们需要的数据
呢? 首先, 让我们先逐一了解现有的反爬机制, 孙子兵法云: 知己知彼, 百战不殆.

2 常见反爬

2.1 UA

有些爬虫使用特殊的UA, 实际上大部分爬虫开发者都会伪造通用的合法User Agent以避免
被目标网站识别. 但是对于一些通用的爬虫框架, 基于reboot协议, 他们会在UA中写
入一些有特殊标识的字段, 以表明自身, 这时目标网站就可以根据这些特殊字段直接拒绝
非法请求了.

例如, 使用selenium + headless 无头浏览器, 此时使用charles