干货 | 从菜鸟到老司机，数据科学的 17 个必用数据集推荐

2017-05-31 4485

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

◆ ◆ ◆

菜鸟入门

1. Iris 数据集

在模式识别文献中，Iris 数据集恐怕是最通用也是最简单的数据集了。要学习分类技术，Iris 数据集绝对是最方便的途径。如果你之前从未接触过数据科学这一概念，从这里开始一定没错，因为该数据集只有 4 列 150 行。

典型问题：在可用属性基础上预测花的类型。

2. 泰坦尼克数据集

泰坦尼克数据集也是全球数据科学殿堂中出镜率最高的数据集之一。借助一些教程和指导，泰坦尼克数据集可以让你深入了解数据科学。通过对类别、数字、文本等数据的结合，你能从该数据集中总结出最疯狂的想法。该数据集更重视分类问题，共有 12 列 891 行。

典型问题：预测泰坦尼克号上生还的幸存者人数。

3. 贷款预测数据集

在所有行业中，最为倚重数据分析技术的就是保险业。贷款预测数据集可以让保险公司对即将面对的挑战、选择的应对方式和影响有一个清晰的认识。与泰坦尼克数据集相同，它也是一个分类问题，该数据集共有 13 列 615 行。

典型问题：预测贷款申请能否得到批准。

4. 大市场销售数据集

零售业也是数据分析技术的重度使用者之一，它们可以利用分析数据来优化整个商业流程。利用数据科学技术，管理人员可以准确的完成产品分配、库存管理、供货和打包等复杂流程。这一数据集的名字已经透露出了它的属性，它就是商店的交易记录，主要解决回归问题。该数据集共有 12 列 8523 行。

典型问题：预测销售情况。

5. 波士顿数据集

该数据集也是模式识别文献中的典型数据集，该数据集得名是因为波士顿的房地产行业，同时它也是一个回归问题。该数据集共有 14 列 8506 行。因此，即使你手上的笔记本电脑性能较弱也能 Hold 住该数据集。

典型问题：预测房屋售价的中间值。

◆ ◆ ◆

进阶级别

1. 人类活动识别

该数据集是由 30 个受试人智能手机内置的传感器收集的。许多机器学习课程中该数据集是学生联手的重要助手。该数据集属于多标记分类问题，共有 561 列 10299 行。

典型问题：预测人类活动的类别。

2. “黑五”数据集

该数据集主要是由零售店的交易记录组成的，它在数据集界资格很老，可以帮助商家了解自己商店每天的购物体验。“黑五”数据集也是个回归问题，它共有 12 列 550069 行。

典型问题：预测消费者购物量。

3. 文本挖掘数据集

该数据集包含航空公司飞行数据中关于航空安全问题的报告，属于多标记分类的高维问题，雷锋网(公众号：雷锋网)了解到它共有 30438 列 21519 行。

典型问题：根据标签为文档分类。

4. 访问历史数据集

该数据即来源于美国的一个单车分享服务，想掌握它，你必须拥有专业的数据整理技巧。该数据集 2010 年第四季度开始每季度都会总结出一个新文档，每个文档则拥有 7 列。它属于典型的分类问题。

典型问题：预测用户的类型。

5. 百万歌曲数据集

是不是觉得很新奇，原来这项技术还能用在娱乐业啊。该数据集能帮你完成回归问题，它包括 515345 个观察值和 90 个变量。不过，这还只是百万首歌曲数据库中的一个小子集。

典型问题：预测发行歌曲的最佳年份。

6. 人口收入数据集

该数据集属于非平衡数据分类和机器学习问题。众多周知，机器学习在解决非平衡问题上效果显著，它可以执行癌症和欺诈检测等任务。该数据集共有 14 列 48842 行。

典型问题：预测美国人的收入阶层。

7. 电影镜头数据集

利用该数据集，你能搭建一个推荐引擎。同时，该数据集也是数据科学行业的老兵之一，它可运用在许多领域。它数据相当庞大，共有 4000 部电影和 6000 多位用户发出的超过 100 万个评分。

典型问题：为用户推荐新电影。

◆ ◆ ◆

老司机级别

1. 数字定义数据集

该数据集能让你学习、分析并认识图片中的各种元素，它就是相机中图片和面部识别的技术基础。该数据技术与数字识别问题，共有 28x28 大小的图片 7 千张，大小为 31MB。

典型问题：在图片中定义数字。

2. Yelp 数据集

该数据集诞生于著名的 Yelp 数据集挑战赛第 8 轮。它由 20 万张图片组称，3 个 json 文档的大小都达到了 2 GB。这些图片包含了 4 个不同国家 10 大城市本地企业的信息，你需要通过文化、季节、数据挖掘、社交图挖掘和类别推断等方式来洞察复杂的数据。

典型问题：从图片中找亮点。

3. ImageNet 数据集

ImageNet数据集可以运用在多种问题中，包括目标检测、定位、分类和屏幕解析。眼下，其图片引擎中共有 1419 万多张图片，容量达到了 140GB ，你可以任选图片并围绕其打造自己的项目。

典型问题：问题的解决要围绕下载的图片展开。

4. KDD 1999 数据集

说到数据集，KDD Cup 这一大名可不能不提，它是世界上首个国际知识发现和数据挖掘竞赛。KDD 1999 数据集属于分类问题，它共包含 48 列和 400 万行，文档体积约为 1.2GB。

典型问题：判断网络入侵探测器是否完成了任务。

5. 芝加哥犯罪数据集

如今，能否 Hold 住大型的数据集已经是检验数据专家是否合格的试金石了。许多数据分析公司不再依靠简单的模型，它们开始使用完整的数据。通过该数据集，你能掌握大量在自己电脑上分析大型数据集的经验。想解决这一问题不难，但学会数据管理并不容易。芝加哥犯罪数据集中共有 600 万个观察值，属于典型的多标记分类问题。

典型问题：预测犯罪的类型。

原文发布时间为：2016-11-14

本文来自云栖社区合作伙伴“大数据文摘”，了解相关信息可以关注“BigDataDigest”微信公众号

干货 | 从菜鸟到老司机，数据科学的 17 个必用数据集推荐

◆ ◆ ◆

1. Iris 数据集

2. 泰坦尼克数据集

3. 贷款预测数据集

4. 大市场销售数据集

5. 波士顿数据集

◆ ◆ ◆

1. 人类活动识别

2. “黑五”数据集

3. 文本挖掘数据集

4. 访问历史数据集

5. 百万歌曲数据集

6. 人口收入数据集

7. 电影镜头数据集

◆ ◆ ◆

1. 数字定义数据集

2. Yelp 数据集

3. ImageNet 数据集

4. KDD 1999 数据集

5. 芝加哥犯罪数据集

大数据文摘

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

干货 | 从菜鸟到老司机，数据科学的 17 个必用数据集推荐

◆ ◆ ◆

1. Iris 数据集

2. 泰坦尼克数据集

3. 贷款预测数据集

4. 大市场销售数据集

5. 波士顿数据集

◆ ◆ ◆

1. 人类活动识别

2. “黑五”数据集

3. 文本挖掘数据集

4. 访问历史数据集

5. 百万歌曲数据集

6. 人口收入数据集

7. 电影镜头数据集

◆ ◆ ◆

1. 数字定义数据集

2. Yelp 数据集

3. ImageNet 数据集

4. KDD 1999 数据集

5. 芝加哥犯罪数据集

大数据文摘

热门文章

最新文章

相关课程

相关电子书

相关实验场景