nihao

lucy

2026-04-06

第一章

1-0

反爬必须具备的知识点

爬虫基础
有过一点逆向经验（一点点就可以） web爬虫为例至少做过一个 js逆向的网站 aes md5 加盐先去其他网站入个门
web js逆向基础
前端开发基础
后端开发基础
linux基础

alt text

反爬的核心

鉴权
高频拦截
反爬的目的：所有的反爬虫手段都是过程，最终的目的一定是这两个鉴权阻止侵入（反爬开发）高频阻止数据大面积泄露 / 防止服务器崩溃（风控）

1-1

爬虫的本质

狭义来讲，爬虫只是做数据采集的。广义上来讲，所有的接口模拟，请求模拟都是爬虫，如抢票

爬虫最开始的是用来批量采集数据的。

一个网页上面的数据太多，我想批量获取，但是人力成本（也就是复制粘贴）有限，所以需要利用一个简单的爬虫脚本去采集内容

数据价值：涉及到了数据的整合加工，二次获利，等等

反爬：公司关注的是自己的公司数据，自己的用户可以看，但是不可以用于盈利，自己公司的数据加工赚钱，只能自己赚或者交保护费，当然还考虑的是：维护自己的平台的公平公正，使自己的平台更有市场竞争力（打击刷票，刷赞，刷评论，刷私信等）。随着时代的发展，数据越来越值钱，增量时代 —-> 存量时代，招投标、工商、短视频、电商、外卖、商超、本地生活等等的信息越来越多
【这个时期，就变成了流量风控时期】

爬虫的方式

协议采集

（硬件成本低，开发成本低，逆向成本高，采集性能极好，资源占用低）又叫纯算，模拟后端协议，直发请求获取数据或做一些其他的事情。

反爬第一优先级鉴权，其次是高频拦截

真机采集

硬件成本高，性能较差，资源占用高，开发成本高，逆向成本相对较低

web 自动化，指纹浏览器，RPC，RPA，分布式
app 真机，改机，沙箱，群控 RPC

反爬第二优先级高频拦截，鉴权作用不大

1-6 密码学

…..

第一章提到的几个检测协议头骚操作

header 头顺序
ssl指纹，支持的加密协议
算法用实验室的加密算法

js生成cookie，请求接口带上cookie 后端做校验

2-2

不用get、post请求方法，用link等http method （不适合鉴权用，但可以异步心跳埋点）

在不影响业务稳定的前提下，有些要抛弃规则，去违背开发规则。让攻击者一头雾水

nihao

第一章

1-0

反爬必须具备的知识点

反爬的核心

1-1

爬虫的本质

爬虫的方式

协议采集

真机采集

1-6 密码学

2-2

2-3 grpc

2-3 ja3

第一章

1-0

反爬必须具备的知识点

反爬的核心

1-1

爬虫的本质

爬虫的方式

协议采集

真机采集

1-6 密码学

2-0、1 cookie

2-2

2-3 grpc

2-3 ja3