Papers With Code新增数据集检索功能：3000+经典数据集

2024-02-09 04:00:37 阅读 0

在机器学习中，数据集占据着重要的组成部分。除了需要研究人员开发先进的算法之外，数据集的建立其实是最基本也是最重要的部分。在过去的研究中，机器学习实践者也建立了许多可用的数据集。

在哪里可以找到更好的数据集？

近日，查找论文对应开源代码的神器With Code官网发布。实现了3044个机器学习数据集的汇总，并按照不同类型进行分类。它还具有过滤功能，值得一看。

我们现在正在为 3000 多个机器学习数据集建立索引。用户可以根据任务分类和模式搜索数据集，也可以根据数据集使用时间对比、浏览基准等因素进行搜索。

网站地址： /

覆盖广泛的数据集

在这3044个机器学习数据集中，有很多常用的经典数据集，比如COCO、CIFAR-10、MNIST等。

论文获取代码中的数据_如何获取论文中的代码_找论文代码

快速搜索

如果你想搜索指定的数据集，网站也有搜索功能。例如，从事计算机视觉的研究人员更关心人脸数据集。这时，您可以在搜索框中输入您要搜索的内容。如果数据集不记得完整的拼写也不用担心，只需输入几个字母，相应的数据集就会出现在搜索栏中。

论文获取代码中的数据_如何获取论文中的代码_找论文代码

输入cele，相关数据集就会出现在搜索区域。

总结和组织数据集

数据集经过汇总整理，包括图像、文本、视频等类别。以文本数据集为例，点击“文本”选项，右侧页面会显示与文本相关的数据集。从搜索结果中我们可以看到符合要求的数据集有828个。

论文获取代码中的数据_找论文代码_如何获取论文中的代码

按任务过滤数据集

机器学习研究分为不同的任务。我们都知道，用于自然语言推理任务的数据集不能用于机器翻译。我们怎样才能找到合适的数据集呢？利用Code的功能，该研究根据任务对3044个数据集进行了分类。包括问答、语言模型、视觉问答等。

以左栏红框中标注的“Named”为例。单击“已命名”。右侧页面检索到了28个相关数据集，但其检索条件为“Named”和“Texts”，如绿色框所示。展示。如果您不需要该搜索条件，可以在“文本”条件设置功能区取消该条件。要取消，请单击“清除”。

论文获取代码中的数据_如何获取论文中的代码_找论文代码

按语言过滤

此外，用户还可以根据语言类型过滤数据集，包括中文、英文等，根据自己的需求选择合适的数据集。以中文为例，检索到88个数据集。在搜索结果中，除了显示符合条件的数据集外，还显示搜索条件，如图“”红框所示。如果有多个搜索条件，该条目将显示多个搜索条件。

找论文代码_论文获取代码中的数据_如何获取论文中的代码

上一篇： C语言编程基础

下一篇： java数组的创建和初始化

标签：数据检索过滤

排行榜

图文教程

技术标签