学会使用网络爬虫批量采集数据，让你的工作效率飙升

2024-02-25 01:06:23 阅读 0

在工作中，几乎每个岗位都涉及到数据收集任务。收集当地所有装修公司名单、收集某APP所有评论、收集网上所有**相关文章、批量下载某网站指定文件……

本人不擅长编程，不懂爬虫技术。遇到这种工作，要么必须用CTRL+C、CTRL+V苦苦挣扎，要么乞求技术人员帮忙爬取数据。直到我遇到了Web这个不需要编程经验的神奇工具。经过几个简单的步骤设置后，我可以在几分钟内快速收集数千条数据，效率是如此之高。

web是一款谷歌爬虫插件，使用非常简单，30分钟即可完全掌握。 Web插件会爬取数据并生成Excel表格供我们使用。

那么如何使用这个插件呢？

爬取数据的基本流程

步骤1：下载并安装Web插件。

下载地址：链接：密码：t7bm

安装方法：参考百度经验文章

step2：新建一个数据抓取站点。

首先按F12（或右键-勾选）调出控制台，点击“Web”切换到爬虫插件功能，点击新建进入新的数据爬取站点创建页面。

名称可以自定义，但必须是英文。起始url就是我们要抓取的网站URL。这里我们在豆瓣上抓取近一周来上海本地的活动，将以下链接复制到开始网址输入框中，然后点击“ ”确认创建。

step3：选择需要提取的页面元素

上一步创建成功后，页面会跳转到如下界面。这时我们点击“add new”来创建一个新的选择器。

以提取本页的活动标题为例，设置ID为“标题”（这个可以自定义，会成为excel中的表头），类型为“文本”。

指页面中需要提取的数据区域。在网页上点击并滑动鼠标，会出现绿色区域，表示我们可以选择这些区域中的数据。

选择一个活动标题，该区域将被红色边框包围，然后继续选择下一个活动标题。当选择两个相同的区域时，插件会自动选择页面上其他相似的元素。点击“完成！” 确认选择。

我们可以点击“ ”查看页面中所有选中的区域，点击“数据”可以预览爬虫将获取到的数据。

注意：由于我们要选择此页面上的所有活动标题，因此需要选中“”复选框。其余内容保持默认即可，点击“保存”保存此选择器。

此时，我们已经选定了需要提取的页面元素，如下图所示。

step4：开始爬取数据

点击进入数据爬取启动页面。

设置页面加载延迟时间，点击“开始”开始爬取数据。这里的时间间隔主要是为了避免爬虫因为操作过于频繁而被阻塞，无法正常爬行。一般网站默认的时间间隔就足够了，但有些网站可能需要设置更大的时间间隔。

启动后，将打开目标 URL 的窗口。爬虫会根据提取设定的规则进行一项一项的爬行。抓取完成后，窗口会自动关闭。

第五步：下载数据

点击“data as CSV”跳转至excel数据下载页面，点击“立即”进行下载。

以上五个步骤就是利用网络爬取数据的整个过程和操作。无论数据多么复杂，按照这样的流程和操作，都可以爬取相应的数据。

高级操作

1、如何一次性爬取一组数据？

刚才我们只爬取了活动主题。如果我们想同时抓取活动主题和活动时间，应该如何处理呢？

从上图可以看出，数据的结构是活动主题和活动时间都包含在最外面的框中。因此，在设置选择器时，首先创建一个大的选择器，让活动主题和活动内容同时包含在内。

注意这里的Type一定要设置为“”。保存后，点击刚刚创建的内容（下图红框位置）即可进入子页面。

然后在此页面上分别创建一个标题选择器和一个时间选择器。它们的类型都是文本。现在页面的可选择区域仅限于列表区域，因此您只需点击一次活动标题即可确认选择。无需检查“”。

只有创建一个包含活动主题和活动时间的选择器，爬取的数据才会一一对应地呈现出来。

2、如何一次抓取多页内容？

这里根据分页形式有不同的解决方案。

1）固定寻呼的情况

可以看到，豆瓣同城活动页面是分页的，每页显示10条数据。那么如果我们要爬取前10页的数据，该怎么办呢？

如果你仔细看的话，你会发现第一页的URL和第二页的URL是不一样的。

第一页：

第二页：

start=后面的数字是相差10的等差数列。

那么我们在设置数据爬取站点的时候，就用[0-100:10]代替具体的数字来表示数据爬取的页面范围。即：[0-100:10]

如果URL的算术差为1，例如知乎问题的URL：

第一页：

第二页：

然后省略冒号和后面的算术，只写页码范围。如[1-10]

知乎主题的第一页到第十页。

处理这类数据的关键是观察不同页面的URL的变化，然后将页码范围写入URL中。

2）鼠标滚动时自动加载

目前很多网站都是采用滚动到底部后自动加载数据的方式，其URL根本不发生变化。比如知道如何在直播首页加载数据。

这时我们需要在创建选择器时将Type设置为“down”。这样，爬虫在工作的时候就会自动进行滚动操作，不断地爬行，直到没有数据可以加载为止。

上一篇： C语言字符串连接详解（从基础到实践，尽在一篇文章） – 网络 |

下一篇： SPI、I2C、UART、I2S、GPIO、SDIO、CAN，你能区分它们吗？

标签：页面选中操作

排行榜

259℃1hustoj比赛作业里面的时间是什么含义，OI排名跟普通排名有何区别？
214℃2Ubuntu18.04搭建LAMP环境完成帝国CMS安装
212℃3LAMP环境如何搭建多站点
210℃4 linux 下基本文件操作
197℃5hustoj脚本把OJ装在哪里了？可以卸载么？
187℃6hustoj如何限制未登录用户访问？
170℃7hustoj比赛后题目看不见了怎么弄？
160℃8Apache如何做301重定向

图文教程

技术标签