大数据文摘 关注
手机版

Kaggle刚刚上线了机器学习课程,我们帮你做了个测评

  1. 云栖社区>
  2. 大数据文摘>
  3. 博客>
  4. 正文

Kaggle刚刚上线了机器学习课程,我们帮你做了个测评

技术小能手 2018-01-25 15:03:20 浏览804 评论2

摘要: 2017年3月,数据科学和机器学习竞赛领域的老大Kaggle被谷歌收购,点击查看大数据文摘报道《谷歌宣布收购全球最大数据科学社区Kaggle》,当时双方均未透露收购细节和未来计划。接近一年过去了,Kaggle在做什么?

Kaggle由Anthony Goldbloom和Ben Hamner创立于2010年。企业和研究人员在Kaggle上发布数据,让全世界的统计师和数据科学家对数据集进行建模和分析,以竞赛的形式评选出最佳模型。Kaggle众包竞赛模式的价值在于,让人们有可能从无穷无尽的建模方法中,寻找到最优解。

e2f6f9c1e67ac3cc5316b90ed02dde0be2137320

目前在竞赛模式上,除了面向大众的竞赛,Kaggle还推出了免费的InClass模式,方便高校教师和学生在Kaggle平台上完成随堂练习。

最近,大数据文摘也观察到,Kaggle首页新增了一个Learn板块(也免费!),主打动手学数据科学(Hands-On Data Science Education),似乎在向竞赛+学习平台方向转型。

Kaggle Learn版块地址:

https://www.kaggle.com/learn

c55334debce5306fa6e4df9ed807e6633389586b

1月22日,Kaggle联合创始人Anthony Goldbloom发表了一篇博客,宣布2018年将为Kaggle平台添加新的教育资源,致力于将Kaggle社区从主要关注机器学习竞赛扩展到更广泛的数据科学和机器学习平台,希望借由比赛、公开数据集平台和Kaggle Kernels,最终让Kaggle成为可以完成一切数据科学和机器学习活动的地方

1b94a382b9f0c3952ba95421de73f73be70a9f10

2017年Kaggle活跃用户从2016年的471K增加到895K

大数据文摘摘录了博客中透露的部分Kaggle 2018年计划:

比赛:

2018年,我们计划开始支持新的竞赛类型,以确保我们能够支持处于机器学习和人工智能领域前沿的问题。要做到这一点,我们的目标是更好地支持代码竞赛(通过Kaggle上传代码而不是解决方案文件)。这将使我们能够举办新类型的比赛,包括强化学习比赛和有计算限制的比赛。

公共数据集平台:

在2018年,我们希望除了因机器学习比赛而闻名之外,我们也能以公开数据集平台闻名。为此,我们需要继续增加Kaggle上高质量数据集的数量。我们正在计划整合和添加服务,使我们的社区能够通过与像BigQuery这样的数据仓库的集成来处理更大的数据集,并增加允许在实时数据集中流式传输的功能,而不仅仅是上传静态数据集。

Kaggle内核(Kernels):

Kaggle内核目前最主要用于共享模型,以及分析公开数据集平台上的数据。在2018年,我们希望将Kaggle Kernels建设成为一个强大的独立产品,包括让Kagglers能够使用Kaggle内核与他们自己的私有数据集,访问GPU并支持更复杂的通道。

Kaggle学习:

许多用户从Kaggle开始他们的数据科学事业。为了更好地支持我们社区的这一部分,我们在https://www.kaggle.com/learn上推出了机器学习实践课程平台。我们希望它能够辅助用户创建高度精确的机器学习模型,并帮助他们快速get所需技能,以帮助他们找到第一个数据科学工作。

今天,文摘菌就带大家来实地测评一下Kaggle新上线的机器学习实践课程平台。

整个学习版块又分为4个模块:机器学习、R语言、数据可视化、深度学习。

2b414add2295d7fa75a44dd0ecd4376b2dc4b54e

强调实践和动手

Kaggle的课程介绍页显示,这个免费的在线课程适用于那些现在想开始学习数据科学和机器学习的人。 你会花更多的时间来编写代码,而不是阅读它。 你将了解必须的理论背景,以便做出良好的建模决策,但这些课程不会在阅读历史背景方面浪费你的时间——那不会帮助你成为一名能实际工作的数据科学家。

讲师选择

521a95c0dbc11e8132a9ec4eeaabaacafbec5f89

在讲师的选择上,也能看出Kaggle不强调理论背景,而是强调实践。三位课程制作者Dan Becker、Aleksey Bilogur和Rachael Tatman各自的履历中似乎都没有特别强调计算机或统计背景,其中Rachael Tatman更是本科学习英语专业、之后直博语言学专业。简直666666!

FAQ

  • 我们将用到什么语言,为什么选择他们?

除了R语言模块之外,所有东西都用Python。 哪种语言适合你? 互联网充斥着语言选择的辩论。 但是和与你合作的人用同一种语言是很有价值的。 Python是数据科学中最受欢迎的语言,R是第二大流行语言。 所以我们推荐R和Python,且更倾向于Python。

  • 我需要提前了解多少Python?

你应该熟悉变量,列表,字典,函数和循环。 如果你想学习Python入门知识,我们强烈推荐Codecademy上的Learn Python系列。 学完他们的第1-8节课,你将可以学习Kaggle机器学习课程。 他们也有被称为pro的付费课,但是你不需要这些材料就可以在Kaggle上学习机器学习系列。

6efae3f54c6ef47bd78446774bd0bcb51e3b0ad4

机器学习模块

下面,就让文摘菌带大家看看机器学习模块都有哪些内容:

模块分为2个等级,共15门细分课程。

61a9d55adeb24a2d20f094f6e6d16cf71337bc96

等级1

  • 模型是什么
  • 开始你的机器学习项目
  • 用Pandas选择和筛选数据
  • 跑第一个模型
  • 模型验证
  • 欠拟合、过拟合和模型最优化
  • 随机森林
  • 在比赛中做提交

等级2

  • 处理缺失数据
  • 使用分类数据
  • XGBoost梯度提升
  • 部分相关性画图
  • Scikit-Learn流程
  • 交叉验证
  • 数据泄露

让我们先来看看等级1的第一课:模型是什么。

打开课程页面之后,我们发现,课程以内嵌的Notebook方式呈现。第一课并未涉及代码,只是介绍了决策树模型。浏览完整个Notebook,也就完成了该部分课程。简直so easy!

7eb8f4c943da8a7b3bd2948c3fcc3f938b47d359

第二课就涉及代码了。我们需要Fork讲师提供的Notebook,进入自己的编程环境。

2c970965d1b4999e6b04f9833bd33506257b1aa1

点一下Fork,我们就进入到自己的Notebook里啦。Fork的作用是让我们复制了讲师提供的代码到自己的Notebook。

在自己的Notebook里,我们可以看到一个个代码块。代码块有2种模式可以选择:Markdown和Code。例如,在这张图里,你所看到的“Introduction”和下面的文字就是Markdown格式,Markdown方便我们展示文字。而“Write Your Code Below”下面则是Code格式,可以直接运行代码喔。我们也可以选择隐藏该代码块、在上方或下方插入新的代码块、运行代码块。和Jupyter Notebook的操作方式一致哦。

fbae4a27c7be8499f4a08c3025110dbaf041472e

完成代码之后,我们可以下载Notebook到本地,也可以点击Publish提交,提交后的界面是一个HTML页面。

e7b0ba50cd8ccd2c3d63f0d3b8227c8bf96419ff

不过,我们无需担心隐私问题,因为之前选择的是“Private”模式的Notebook,提交之后,也只会显示在个人的Kernel里,只有自己能看到。

所有写过的代码也不会丢失,会在自己的Kernel下面汇总,点开后仍然可以再次编辑该Notebook。这个功能文摘菌觉得很是方便。

5423fed5910d1fc2f106ad6246bd0093e9b409ec

如果你选择公开展示Notebook,其他小伙伴也可以给你评论。

ae78f864b414a635969333c2322e148b6e0edfaa

记者也发现了一个提问的好地方:learn forum论坛。不过目前看来,论坛并不活跃,一个话题下通常只有一个留言。也许是大家觉得这一切都太小case了(O_O)?

6b32d343997e15d41ff84a5c30d22cde7a6a6c34

就目前的课程内容来说,Kaggle推出的Learn版块所教授的内容并不深入,但是其友好的界面和动手环境非常适合数据科学与机器学习初学者。对于有代码恐惧症的童鞋(比如文摘菌)来说,这是个入门数据科学领域的好机会!如果能一步步跟着教程学下来,相信各位童鞋会对机器学习、数据可视化等领域的基本概念和基础模型有所了解,同时也将有机会敲下自己人生中的第一行代码。


原文发布时间为:2018-01-25

本文作者:文摘菌

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“大数据文摘”微信公众号

用云栖社区APP,舒服~

【云栖快讯】新手小白必看!编程语言系列讲座火爆进行中,与行业资深专家一起学习Python、C++、JavaScript、Java!从入门到进阶  详情请点击

网友评论

1F
1412278014409298

谢谢分享

2F
闪念在线

谢谢分享

技术小能手
文章2658篇 | 关注815
关注
阿里云机器学习是基于阿里云分布式计算引擎的一款机器学习算法平台。用户通过拖拉拽的方式可视化的... 查看详情
支持以数据库为核心的结构化存储产品之间的数据传输。 它是一种集数据迁移、数据订阅及数据实时同... 查看详情
MySQL 是全球最受欢迎的开源数据库,阿里云MySQL版 通过深度的内核优化和独享实例提供... 查看详情
为您提供简单高效、处理能力可弹性伸缩的计算服务,帮助您快速构建更稳定、安全的应用,提升运维效... 查看详情
阿里云飞天战略营全新发布

阿里云飞天战略营全新发布