机器学习数据集哪里找:最佳数据集来源盘点

简介: 很难找到一个特定的数据集来解决对应的机器学习问题是痛苦的。下面的网址列表不仅包含用于实验的大型数据集,还包含描述、使用示例等,在某些情况下还包含用于解决与该数据集相关的机器学习问题的算法代码。

摘要:很难找到一个特定的数据集来解决对应的机器学习问题,这是非常痛苦的。下面的网址列表不仅包含用于实验的大型数据集,还包含描述、使用示例,在某些情况下还包含用于解决与该数据集相关的机器学习问题的算法代码。

1 -Kaggle数据集

网址:https//www.kaggle.com/datasets 

这是我最喜欢的数据集网站之一。每个数据集都有对应的一个小型社区,可以在其中讨论数据、查找公共代码或在内核中创建自己的项目。该网站包含大量形状大小、格式各异的真实数据集。还可以看到与每个数据集相关的“内核”,其中许多不同的数据科学家提供了笔记来分析数据集。有时在某些特定的数据集可以笔记找到相应的算法,解决预测问题。

2 -亚马逊数据集

网址:https//registry.opendata.aws 

该数据源包含多个不同领域的数据集,如公共交通、生态资源、卫星图像等。它也有一个搜索框来帮助你找到你正在寻找的数据集,另外有数据集描述和使用示例,这是非常简单、实用

3- UCI机器学习库

网址:https//archive.ics.uci.edu/ml/datasets.html 

372faf43233ef5bc7c135b9bc884399a1d81916c 

 

这是加州大学信息与计算机科学学院的一个数据库,包含了100多个数据集。它根据机器学习问题的类型对数据集进行分类。可以找到单变量多变量分类、回归或者是推荐系统数据集。UCI的些数据集已经更新完毕并准备使用。

4-谷歌的数据集搜索引擎

网址:https://toolbox.google.com/datasetsearch 

d8b9bdc758d8e4c8dba812199cb9b0b54ada2315 

 

2018年末,谷歌做了他们最擅长的事情,推出了另一项伟大的服务。它是一个可以按名称搜索数据集的工具箱。谷歌的目标是统一成千上万个不同的数据集存储库,使这些数据能够被发现。

5 -微软数据集

网址:https//msropendata.com 

2018年7月,微软与外部研究社区共同宣布推出“微软研究开放数据”

它在公共云中包含一个数据存储库,用于促进全球研究社区之间的协作。另外提供了一组在已发表的研究中使用的经过整理的数据集。

6-Awesome公共数据集

网址:https//github.com/awesomedata/awesome-public-datasets 

这是一个按照主题分类,由社区公开维护的一系列数据集清单,比如生物学、经济学、教育学等。这里列出的大多数数据集都是免费的,但是在使用任何数据集之前,应该检查相应的许可要求。

7 -政府数据集

政府相关数据集也很容易找到。许多国家为了提高知名度,向公众分享了各种数据集。例如:

欧盟开放数据门户欧洲政府数据集

新西兰政府数据集

印度政府数据集

8-计算机视觉数据集

网址:https//www.visualdata.io 

如果你从事图像处理、计算机视觉或者是深度学习,那么这应该是你实验获取数据的重要来源之一

数据包含一些可以用来构建计算机视觉(CV)模型的大型数据集。可以通过特定的CV主题查找特定的数据集,如语义分割、图像标题、图像生成,甚至可以通过解决方案(自动驾驶汽车数据集)查找特定的数据集。

综上所述,从我所观察到的情况来看,越来越多的用于研究机器学习的各种数据集变得更容易获取,维护这些新数据集的社区,也不断地发展,使计算机科学社区能够继续快速创新,为生活带来更多创造性的解决方案。


本文由阿里云云栖社区组织翻译。
文章原标题《Top Sources For Machine Learning Datasets》,译者:黄小凡,审校:袁虎。
文章简译,更为详细的内容,请查看原文

相关文章
|
4月前
|
机器学习/深度学习 算法 数据挖掘
【Python机器学习】Mean Shift、Kmeans聚类算法在图像分割中实战(附源码和数据集)
【Python机器学习】Mean Shift、Kmeans聚类算法在图像分割中实战(附源码和数据集)
42 0
【Python机器学习】Mean Shift、Kmeans聚类算法在图像分割中实战(附源码和数据集)
|
4月前
|
机器学习/深度学习 算法 数据挖掘
【Python机器学习】K-Means对文本聚类和半环形数据聚类实战(附源码和数据集)
【Python机器学习】K-Means对文本聚类和半环形数据聚类实战(附源码和数据集)
59 0
|
5月前
|
机器学习/深度学习 人工智能 数据库
Python 机器学习入门:数据集、数据类型和统计学
机器学习是通过研究数据和统计信息使计算机学习的过程。机器学习是迈向人工智能(AI)的一步。机器学习是一个分析数据并学会预测结果的程序。
159 2
Python 机器学习入门:数据集、数据类型和统计学
|
3月前
|
机器学习/深度学习 JavaScript 前端开发
机器学习 - [源码实现决策树小专题]决策树中子数据集的划分(不允许调用sklearn等库的源代码实现)
机器学习 - [源码实现决策树小专题]决策树中子数据集的划分(不允许调用sklearn等库的源代码实现)
39 0
|
4月前
|
机器学习/深度学习 Python
Python机器学习一维/多维数据集顺序打乱
Python机器学习一维/多维数据集顺序打乱
|
4月前
|
机器学习/深度学习 数据采集 自然语言处理
24 LLM错误代码补全:机器学习顶会NeurIPS‘23 智能体评估:自行构建数据集Buggy-HumanEval、Buggy-FixEval+错误代码补全+修复模型【网安AIGC专题11.22】
24 LLM错误代码补全:机器学习顶会NeurIPS‘23 智能体评估:自行构建数据集Buggy-HumanEval、Buggy-FixEval+错误代码补全+修复模型【网安AIGC专题11.22】
110 0
|
4月前
|
机器学习/深度学习 算法 Python
【Python机器学习】KNN进行水果分类和分类器实战(附源码和数据集)
【Python机器学习】KNN进行水果分类和分类器实战(附源码和数据集)
203 1
|
4月前
|
机器学习/深度学习 算法 数据挖掘
【Python机器学习】K-Means算法对人脸图像进行聚类实战(附源码和数据集)
【Python机器学习】K-Means算法对人脸图像进行聚类实战(附源码和数据集)
93 0
|
4月前
|
机器学习/深度学习 算法 Python
【Python机器学习】感知器进行信用分类和使用KNN进行图书推荐实战(附源码和数据集)
【Python机器学习】感知器进行信用分类和使用KNN进行图书推荐实战(附源码和数据集)
102 0
|
4月前
|
机器学习/深度学习 算法 数据可视化
【Python机器学习】SVM解决非线性问题和信用卡欺诈检测实战(附源码和数据集)
【Python机器学习】SVM解决非线性问题和信用卡欺诈检测实战(附源码和数据集)
47 0

热门文章

最新文章