作为爬虫我们都知道很多网站的反爬不仅很严而且花样还很多,特别是验证码是很多网站的常用的一种反爬机制,而验证码的花样也很多。一开始只是简单的几个数字的图形验证码,慢慢的就有了英文字母,再后来就更严格的算术题验证码、滑动验证码、点触验证码、手机验证码、扫二维码等。 - 对于普通图形验证码,如果非常规整且没有变形或干扰,可以使用 OCR 识别,也可以使用机器学习、深度学习来进行模型训练,当然打码平台是最方便的方式。
- 对于算术题验证码,推荐直接使用打码平台。
- 对于滑动验证码,可以使用破解算法,也可以模拟滑动。后者的关键在于缺口的找寻,可以使用图片比对,也可以写基本的图形识别算法,也可以对接打码平台,也可以使用深度学习训练识别接口。
- 对于点触验证码,推荐使用打码平台。
- 对于手机验证码,可以使用验证码分发平台,也可以购买专门的收码设备,也可以人工验证。
- 对于扫二维码,可以人工扫码,也可以对接打码平台。
不管是什么样的验证码我们都可以通过学习来掌握破解的技巧,有些时候并不是只有验证码,网站还封ip,对于这点我们也可以通过购买优质代理来解决。
|