在机器学习中,数据集占据着重要的组成部分。 除了需要研究人员开发先进的算法之外,数据集的建立其实是最基本也是最重要的部分。 在过去的研究中,机器学习实践者也建立了许多可用的数据集。
在哪里可以找到更好的数据集?
近日,查找论文对应开源代码的神器With Code官网发布。 实现了3044个机器学习数据集的汇总,并按照不同类型进行分类。 它还具有过滤功能,值得一看。
我们现在正在为 3000 多个机器学习数据集建立索引。 用户可以根据任务分类和模式搜索数据集,也可以根据数据集使用时间对比、浏览基准等因素进行搜索。
网站地址: /
覆盖广泛的数据集
在这3044个机器学习数据集中,有很多常用的经典数据集,比如COCO、CIFAR-10、MNIST等。
快速搜索
如果你想搜索指定的数据集,网站也有搜索功能。 例如,从事计算机视觉的研究人员更关心人脸数据集。 这时,您可以在搜索框中输入您要搜索的内容。 如果数据集不记得完整的拼写也不用担心,只需输入几个字母,相应的数据集就会出现在搜索栏中。
输入cele,相关数据集就会出现在搜索区域。
总结和组织数据集
数据集经过汇总整理,包括图像、文本、视频等类别。 以文本数据集为例,点击“文本”选项,右侧页面会显示与文本相关的数据集。 从搜索结果中我们可以看到符合要求的数据集有828个。
按任务过滤数据集
机器学习研究分为不同的任务。 我们都知道,用于自然语言推理任务的数据集不能用于机器翻译。 我们怎样才能找到合适的数据集呢? 利用Code的功能,该研究根据任务对3044个数据集进行了分类。 包括问答、语言模型、视觉问答等。
以左栏红框中标注的“Named”为例。 单击“已命名”。 右侧页面检索到了28个相关数据集,但其检索条件为“Named”和“Texts”,如绿色框所示。 展示。 如果您不需要该搜索条件,可以在“文本”条件设置功能区取消该条件。 要取消,请单击“清除”。
按语言过滤
此外,用户还可以根据语言类型过滤数据集,包括中文、英文等,根据自己的需求选择合适的数据集。 以中文为例,检索到88个数据集。 在搜索结果中,除了显示符合条件的数据集外,还显示搜索条件,如图“”红框所示。 如果有多个搜索条件,该条目将显示多个搜索条件。