学会使用网络爬虫批量采集数据,让你的工作效率飙升

 2024-02-25 01:06:23  阅读 0

在工作中,几乎每个岗位都涉及到数据收集任务。 收集当地所有装修公司名单、收集某APP所有评论、收集网上所有**相关文章、批量下载某网站指定文件……

本人不擅长编程,不懂爬虫技术。 遇到这种工作,要么必须用CTRL+C、CTRL+V苦苦挣扎,要么乞求技术人员帮忙爬取数据。 直到我遇到了Web这个不需要编程经验的神奇工具。 经过几个简单的步骤设置后,我可以在几分钟内快速收集数千条数据,效率是如此之高。

web是一款谷歌爬虫插件,使用非常简单,30分钟即可完全掌握。 Web插件会爬取数据并生成Excel表格供我们使用。

那么如何使用这个插件呢?

爬取数据的基本流程

步骤1:下载并安装Web插件。

下载地址: 链接: 密码:t7bm

安装方法:参考百度经验文章

step2:新建一个数据抓取站点。

首先按F12(或右键-勾选)调出控制台,点击“Web”切换到爬虫插件功能,点击新建进入新的数据爬取站点创建页面

名称可以自定义,但必须是英文。 起始url就是我们要抓取的网站URL。 这里我们在豆瓣上抓取近一周来上海本地的活动,将以下链接复制到开始网址输入框中,然后点击“ ”确认创建。

step3:选择需要提取的页面元素

上一步创建成功后,页面会跳转到如下界面。 这时我们点击“add new”来创建一个新的选择器。

以提取本页的活动标题为例,设置ID为“标题”(这个可以自定义,会成为excel中的表头),类型为“文本”。

指页面中需要提取的数据区域。 在网页上点击并滑动鼠标,会出现绿色区域,表示我们可以选择这些区域中的数据。

选择一个活动标题,该区域将被红色边框包围,然后继续选择下一个活动标题。 当选择两个相同的区域时,插件会自动选择页面上其他相似的元素。 点击“完成!” 确认选择。

我们可以点击“ ”查看页面中所有选中的区域,点击“数据”可以预览爬虫将获取到的数据。

注意:由于我们要选择此页面上的所有活动标题,因此需要选中“”复选框。 其余内容保持默认即可,点击“保存”保存此选择器。

此时,我们已经选定了需要提取的页面元素,如下图所示。

step4:开始爬取数据

点击进入数据爬取启动页面。

设置页面加载延迟时间,点击“开始”开始爬取数据。 这里的时间间隔主要是为了避免爬虫因为操作过于频繁而被阻塞,无法正常爬行。 一般网站默认的时间间隔就足够了,但有些网站可能需要设置更大的时间间隔。

启动后,将打开目标 URL 的窗口。 爬虫会根据提取设定的规则进行一项一项的爬行。 抓取完成后,窗口会自动关闭。

第五步:下载数据

点击“data as CSV”跳转至excel数据下载页面,点击“立即”进行下载。

以上五个步骤就是利用网络爬取数据的整个过程和操作。 无论数据多么复杂,按照这样的流程和操作,都可以爬取相应的数据。

高级操作

1、如何一次性爬取一组数据?

刚才我们只爬取了活动主题。 如果我们想同时抓取活动主题和活动时间,应该如何处理呢?

从上图可以看出,数据的结构是活动主题和活动时间都包含在最外面的框中。 因此,在设置选择器时,首先创建一个大的选择器,让活动主题和活动内容同时包含在内。

注意这里的Type一定要设置为“”。 保存后,点击刚刚创建的内容(下图红框位置)即可进入子页面。

然后在此页面上分别创建一个标题选择器和一个时间选择器。 它们的类型都是文本。 现在页面的可选择区域仅限于列表区域,因此您只需点击一次活动标题即可确认选择。 无需检查“”。

只有创建一个包含活动主题和活动时间的选择器,爬取的数据才会一一对应地呈现出来。

2、如何一次抓取多页内容?

这里根据分页形式有不同的解决方案。

1)固定寻呼的情况

可以看到,豆瓣同城活动页面是分页的,每页显示10条数据。 那么如果我们要爬取前10页的数据,该怎么办呢?

如果你仔细看的话,你会发现第一页的URL和第二页的URL是不一样的。

第一页:

第二页:

start=后面的数字是相差10的等差数列。

那么我们在设置数据爬取站点的时候,就用[0-100:10]代替具体的数字来表示数据爬取的页面范围。 即:[0-100:10]

如果URL的算术差为1,例如知乎问题的URL:

第一页:

第二页:

然后省略冒号和后面的算术,只写页码范围。 如[1-10]

知乎主题的第一页到第十页。

处理这类数据的关键是观察不同页面的URL的变化,然后将页码范围写入URL中。

2)鼠标滚动时自动加载

目前很多网站都是采用滚动到底部后自动加载数据的方式,其URL根本不发生变化。 比如知道如何在直播首页加载数据。

这时我们需要在创建选择器时将Type设置为“down”。 这样,爬虫在工作的时候就会自动进行滚动操作,不断地爬行,直到没有数据可以加载为止。

标签: 页面 选中 操作

如本站内容信息有侵犯到您的权益请联系我们删除,谢谢!!


Copyright © 2020 All Rights Reserved 京ICP5741267-1号 统计代码