爬虫的核心流程

如前面所说,爬虫的最核心的流程,其实就是2个阶段:

  • 先要抓包分析
    • 搞清楚,网站中有哪些url网址的网页需要去抓取,app中有哪些页面背后对应着哪些api接口需要去抓取
    • 以及每个url或api中,Request中都需要传递哪些参数,比如GET请求有哪些query parameter,POST有哪些Body的Json参数
    • 才能返回正确的,期望的Response,才能获取到自己要的数据
    • 如此,搞懂要抓取哪些数据,用什么逻辑才能获取到这些数据,是写代码真正实现这些逻辑,获取到真正的数据的前提和基础
  • 再去写爬虫代码
    • 然后才能根据前面已经搞懂的从无到有如何抓取到你要的数据的逻辑
    • 选择合适的方式,是裸写代码,还是用库实现,还是用爬虫框架
    • 去根据对应情况,写代码去下载页面或数据,再去裸写代码找合适的库实现规则去提取要的数据,最终保存数据

下面接着去详细解释,如何抓包分析,以及如何写爬虫代码。

results matching ""

    No results matching ""