nihao

第一章

1-0

反爬必须具备的知识点

  • 爬虫基础
  • 有过一点逆向经验(一点点就可以) web爬虫为例 至少做过一个 js逆向的网站 aes md5 加盐 先去其他网站入个门
  • web js逆向基础
  • 前端开发基础
  • 后端开发基础
  • linux基础

alt text

反爬的核心

  • 鉴权
  • 高频拦截
    反爬的目的:所有的反爬虫手段都是过程,最终的目的一定是这两个 鉴权阻止侵入 (反爬开发) 高频阻止数据大面积泄露 / 防止服务器崩溃 (风控)

1-1

爬虫的本质

狭义来讲,爬虫只是做数据采集的。广义上来讲,所有的接口模拟,请求模拟都是爬虫,如抢票

爬虫最开始的是用来批量采集数据的。

一个网页上面的数据太多,我想批量获取,但是人力成本(也就是复制粘贴)有限,所以需要利用一个简单的爬虫脚本去采集内容

数据价值:涉及到了数据的整合加工,二次获利,等等

反爬:公司关注的是自己的公司数据,自己的用户可以看,但是不可以用于盈利,自己公司的数据加工赚钱,只能自己赚或者交保护费当然还考虑的是:维护自己的平台的公平公正,使自己的平台更有市场竞争力(打击刷票,刷赞,刷评论,刷私信等)。随着时代的发展,数据越来越值钱,增量时代 —-> 存量时代,招投标、工商、短视频、电商、外卖、商超、本地生活等等的信息越来越多
【这个时期,就变成了 流量风控时期】

爬虫的方式

协议采集

(硬件成本低,开发成本低,逆向成本高,采集性能极好,资源占用低) 又叫纯算,模拟后端协议,直发请求获取数据或做一些其他的事情。

反爬第一优先级鉴权,其次是高频拦截

真机采集

硬件成本高,性能较差,资源占用高,开发成本高,逆向成本相对较低

  • web 自动化,指纹浏览器,RPC,RPA,分布式
  • app 真机,改机,沙箱,群控 RPC

反爬第二优先级 高频拦截,鉴权作用不大

1-6 密码学

…..

第一章提到的几个检测协议头骚操作

  • header 头顺序
  • ssl指纹,支持的加密协议
  • 算法用实验室的加密算法

js生成cookie,请求接口带上cookie 后端做校验

2-2

不用get、post请求方法,用link等http method (不适合鉴权用,但可以异步心跳埋点)

在不影响业务稳定的前提下,有些要抛弃规则,去违背开发规则。让攻击者一头雾水

2-3 grpc

2-3 ja3