接触爬虫也有一段时间了,下面我就来简单介绍一种我认为较为直观有效的方式。基本搭配:python2.7+selenium+scrapy,selenium用来模拟真实用户操作浏览器的过程,scrapy用来提取网页内容。

关于安装方式我就暂且提一下我接触过的两种:

1.安装python2.7,使用pip install+包名的形式安装selenium和scrapy。一般这种情况下装scrapy都比较痛苦。

2.安装Anaconda,使用pip install+包名或者conda install+包名的形式安装selenium和scrapy。

爬取的过程概括一下就是首先定义一个浏览器对象,然后使用这个对象实现诸如鼠标点击,键盘发送等一系列的操作。对于想要提取内容的页面,就使用scrapy中的Selector构造xpath去解析网页源码。

这么讲可能太抽象,所以我把一个比较简单的爬取指定企业招聘信息的程序贴出来具体讲解。实现基本操作的代码上方均有注释。

如果发现什么bug,欢迎交流。(づ ̄ 3 ̄)づ

1 收藏


直接登录
最新评论