背景

使用Node已经挺长时间了,一直想使用Node来写一个爬虫,完成一些爬取网页的自动化工作。虽然写爬虫Node并不一定合适,python也许更为方便。因为Node的天生异步机制,导致用来爬取页面编写起代码来并不那么顺畅。

爬取一个页面通常的步骤是:

  1. 访问入口页面
  2. 分析网页获取希望获取的内容
  3. 继续访问第2步获取的链接,通常有很多链接,需要遍历访问,分析网页获取希望获取的内容
  4. 假设第3步结束即获取到了想要的最终内容,那么再访问上述链接,该下载的下载该存储的存储

上述步骤是个环环相扣的进程,每一步进行下去的前提是前一个步骤要完成了。亦即是个标准的同步过程。而Node的天生异步机制导致编码起来就困难的多,流程上不那么好控制。

通过这个项目,对Node的流程控制Promise的使用基本算是掌握了。这里就不分析技术了,我想怎么使用才是大家关心的点吧。

项目地址

https://github.com/zhangjh/islandBeauty

概述

  • 岛国丽人是一个Node.js爬虫项目,顾名思义,可以用来获取不可描述电影的种子文件。
  • 当然,我的本意只是用Node做一个爬虫,Adult torrent只是一个比较火爆的题材。
  • 我曾在网上搜索过很多相关的爬虫项目,无一例外的不好用!要么是硬编码的厉害,要么是可用性很差。跟他们号称的爬虫基本相差很远。
  • 岛国丽人项目也并不想号称爬虫,充其量算是一个种子下载器。但支持配置化以及页面解析的可插拔,杜绝硬编码问题,保留适当地可扩展性。
  • AV种子下载只是一个题材,我的真实用途是下载电影种子,岛国丽人项目亦可支持下载海盗湾中文网的电影种子。

忠告

小撸怡情大撸伤身 强撸灰飞烟灭

少年强则国强

学习是坠吼滴,蛤蛤

1 收藏


直接登录