0%

爬虫架构

爬虫架构

技术的本质就是结构与组合。今天在谈技术架构,有时候我们也会谈产品架构,再往前走,我们会谈商业架构,它中间都是一个结构的问题。

爬虫开发流程

在聊爬虫架构的时候,非常有必要将爬虫的流程梳理清楚。毕竟万变不离其宗,对于爬虫流程的掌握可以更好的理解、设计、组合爬虫,
爬虫基本步骤如下

  1. 网络包捕获,确定URL
  2. 模拟发送网络请求,获取响应
  3. 解析响应, 获取数据
  4. 解析数据,数据持久化

分布式爬虫架构

均衡分布式

对等分布式

注意

不要过度优化、不要过度预留扩展点、不要过度设计