Kaggle刚刚上线了机器学习课程,我们帮你做了个测评

简介: 2017年3月,数据科学和机器学习竞赛领域的老大Kaggle被谷歌收购,点击查看大数据文摘报道《谷歌宣布收购全球最大数据科学社区Kaggle》,当时双方均未透露收购细节和未来计划。接近一年过去了,Kaggle在做什么?

Kaggle由Anthony Goldbloom和Ben Hamner创立于2010年。企业和研究人员在Kaggle上发布数据,让全世界的统计师和数据科学家对数据集进行建模和分析,以竞赛的形式评选出最佳模型。Kaggle众包竞赛模式的价值在于,让人们有可能从无穷无尽的建模方法中,寻找到最优解。

e2f6f9c1e67ac3cc5316b90ed02dde0be2137320

目前在竞赛模式上,除了面向大众的竞赛,Kaggle还推出了免费的InClass模式,方便高校教师和学生在Kaggle平台上完成随堂练习。

最近,大数据文摘也观察到,Kaggle首页新增了一个Learn板块(也免费!),主打动手学数据科学(Hands-On Data Science Education),似乎在向竞赛+学习平台方向转型。

Kaggle Learn版块地址:

https://www.kaggle.com/learn

c55334debce5306fa6e4df9ed807e6633389586b

1月22日,Kaggle联合创始人Anthony Goldbloom发表了一篇博客,宣布2018年将为Kaggle平台添加新的教育资源,致力于将Kaggle社区从主要关注机器学习竞赛扩展到更广泛的数据科学和机器学习平台,希望借由比赛、公开数据集平台和Kaggle Kernels,最终让Kaggle成为可以完成一切数据科学和机器学习活动的地方

1b94a382b9f0c3952ba95421de73f73be70a9f10

2017年Kaggle活跃用户从2016年的471K增加到895K

大数据文摘摘录了博客中透露的部分Kaggle 2018年计划:

比赛:

2018年,我们计划开始支持新的竞赛类型,以确保我们能够支持处于机器学习和人工智能领域前沿的问题。要做到这一点,我们的目标是更好地支持代码竞赛(通过Kaggle上传代码而不是解决方案文件)。这将使我们能够举办新类型的比赛,包括强化学习比赛和有计算限制的比赛。

公共数据集平台:

在2018年,我们希望除了因机器学习比赛而闻名之外,我们也能以公开数据集平台闻名。为此,我们需要继续增加Kaggle上高质量数据集的数量。我们正在计划整合和添加服务,使我们的社区能够通过与像BigQuery这样的数据仓库的集成来处理更大的数据集,并增加允许在实时数据集中流式传输的功能,而不仅仅是上传静态数据集。

Kaggle内核(Kernels):

Kaggle内核目前最主要用于共享模型,以及分析公开数据集平台上的数据。在2018年,我们希望将Kaggle Kernels建设成为一个强大的独立产品,包括让Kagglers能够使用Kaggle内核与他们自己的私有数据集,访问GPU并支持更复杂的通道。

Kaggle学习:

许多用户从Kaggle开始他们的数据科学事业。为了更好地支持我们社区的这一部分,我们在https://www.kaggle.com/learn上推出了机器学习实践课程平台。我们希望它能够辅助用户创建高度精确的机器学习模型,并帮助他们快速get所需技能,以帮助他们找到第一个数据科学工作。

今天,文摘菌就带大家来实地测评一下Kaggle新上线的机器学习实践课程平台。

整个学习版块又分为4个模块:机器学习、R语言、数据可视化、深度学习。

2b414add2295d7fa75a44dd0ecd4376b2dc4b54e

强调实践和动手

Kaggle的课程介绍页显示,这个免费的在线课程适用于那些现在想开始学习数据科学和机器学习的人。 你会花更多的时间来编写代码,而不是阅读它。 你将了解必须的理论背景,以便做出良好的建模决策,但这些课程不会在阅读历史背景方面浪费你的时间——那不会帮助你成为一名能实际工作的数据科学家。

讲师选择

521a95c0dbc11e8132a9ec4eeaabaacafbec5f89

在讲师的选择上,也能看出Kaggle不强调理论背景,而是强调实践。三位课程制作者Dan Becker、Aleksey Bilogur和Rachael Tatman各自的履历中似乎都没有特别强调计算机或统计背景,其中Rachael Tatman更是本科学习英语专业、之后直博语言学专业。简直666666!

FAQ

  • 我们将用到什么语言,为什么选择他们?

除了R语言模块之外,所有东西都用Python。 哪种语言适合你? 互联网充斥着语言选择的辩论。 但是和与你合作的人用同一种语言是很有价值的。 Python是数据科学中最受欢迎的语言,R是第二大流行语言。 所以我们推荐R和Python,且更倾向于Python。

  • 我需要提前了解多少Python?

你应该熟悉变量,列表,字典,函数和循环。 如果你想学习Python入门知识,我们强烈推荐Codecademy上的Learn Python系列。 学完他们的第1-8节课,你将可以学习Kaggle机器学习课程。 他们也有被称为pro的付费课,但是你不需要这些材料就可以在Kaggle上学习机器学习系列。

6efae3f54c6ef47bd78446774bd0bcb51e3b0ad4

机器学习模块

下面,就让文摘菌带大家看看机器学习模块都有哪些内容:

模块分为2个等级,共15门细分课程。

61a9d55adeb24a2d20f094f6e6d16cf71337bc96

等级1

  • 模型是什么
  • 开始你的机器学习项目
  • 用Pandas选择和筛选数据
  • 跑第一个模型
  • 模型验证
  • 欠拟合、过拟合和模型最优化
  • 随机森林
  • 在比赛中做提交

等级2

  • 处理缺失数据
  • 使用分类数据
  • XGBoost梯度提升
  • 部分相关性画图
  • Scikit-Learn流程
  • 交叉验证
  • 数据泄露

让我们先来看看等级1的第一课:模型是什么。

打开课程页面之后,我们发现,课程以内嵌的Notebook方式呈现。第一课并未涉及代码,只是介绍了决策树模型。浏览完整个Notebook,也就完成了该部分课程。简直so easy!

7eb8f4c943da8a7b3bd2948c3fcc3f938b47d359

第二课就涉及代码了。我们需要Fork讲师提供的Notebook,进入自己的编程环境。

2c970965d1b4999e6b04f9833bd33506257b1aa1

点一下Fork,我们就进入到自己的Notebook里啦。Fork的作用是让我们复制了讲师提供的代码到自己的Notebook。

在自己的Notebook里,我们可以看到一个个代码块。代码块有2种模式可以选择:Markdown和Code。例如,在这张图里,你所看到的“Introduction”和下面的文字就是Markdown格式,Markdown方便我们展示文字。而“Write Your Code Below”下面则是Code格式,可以直接运行代码喔。我们也可以选择隐藏该代码块、在上方或下方插入新的代码块、运行代码块。和Jupyter Notebook的操作方式一致哦。

fbae4a27c7be8499f4a08c3025110dbaf041472e

完成代码之后,我们可以下载Notebook到本地,也可以点击Publish提交,提交后的界面是一个HTML页面。

e7b0ba50cd8ccd2c3d63f0d3b8227c8bf96419ff

不过,我们无需担心隐私问题,因为之前选择的是“Private”模式的Notebook,提交之后,也只会显示在个人的Kernel里,只有自己能看到。

所有写过的代码也不会丢失,会在自己的Kernel下面汇总,点开后仍然可以再次编辑该Notebook。这个功能文摘菌觉得很是方便。

5423fed5910d1fc2f106ad6246bd0093e9b409ec

如果你选择公开展示Notebook,其他小伙伴也可以给你评论。

ae78f864b414a635969333c2322e148b6e0edfaa

记者也发现了一个提问的好地方:learn forum论坛。不过目前看来,论坛并不活跃,一个话题下通常只有一个留言。也许是大家觉得这一切都太小case了(O_O)?

6b32d343997e15d41ff84a5c30d22cde7a6a6c34

就目前的课程内容来说,Kaggle推出的Learn版块所教授的内容并不深入,但是其友好的界面和动手环境非常适合数据科学与机器学习初学者。对于有代码恐惧症的童鞋(比如文摘菌)来说,这是个入门数据科学领域的好机会!如果能一步步跟着教程学下来,相信各位童鞋会对机器学习、数据可视化等领域的基本概念和基础模型有所了解,同时也将有机会敲下自己人生中的第一行代码。


原文发布时间为:2018-01-25

本文作者:文摘菌

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“大数据文摘”微信公众号

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
机器学习/深度学习 数据采集 自然语言处理
机器学习模型的部署与上线:从训练到实际应用
在机器学习中,模型训练只是整个过程的一部分。将训练好的模型部署到实际应用中,并使其稳定运行,也是非常重要的。本文将介绍机器学习模型的部署与上线过程,包括数据处理、模型选择、部署环境搭建、模型调优等方面。同时,我们也会介绍一些实际应用场景,并分享一些经验和技巧。
|
4月前
|
机器学习/深度学习 供应链 算法
机器学习课程学习随笔
机器学习课程学习随笔
|
2月前
|
机器学习/深度学习
Coursera 吴恩达Machine Learning(机器学习)课程 |第五周测验答案(仅供参考)
Coursera 吴恩达Machine Learning(机器学习)课程 |第五周测验答案(仅供参考)
|
4月前
|
机器学习/深度学习 算法 数据挖掘
【Python机器学习】决策树、K近邻、神经网络等模型对Kaggle房价预测实战(附源码和数据集)
【Python机器学习】决策树、K近邻、神经网络等模型对Kaggle房价预测实战(附源码和数据集)
75 0
|
9月前
|
机器学习/深度学习
基于分布式平台的机器学习模型训练以及上线部署方案总结
基于分布式平台的机器学习模型训练以及上线部署方案总结
445 0
|
11月前
|
机器学习/深度学习 架构师 算法框架/工具
机器学习天降福音!数据科学家、Kaggle大师发布「ML避坑宝典」
机器学习天降福音!数据科学家、Kaggle大师发布「ML避坑宝典」
|
12月前
|
机器学习/深度学习 人工智能 数据可视化
功能上线 | AI Earth地球科学云平台新增机器学习类函数算子
功能上线 | AI Earth地球科学云平台新增机器学习类函数算子
功能上线 | AI Earth地球科学云平台新增机器学习类函数算子
|
12月前
|
机器学习/深度学习 存储 算法
python机器学习课程——决策树全网最详解超详细笔记附代码
决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。决策树方法最早产生于上世纪60年代,到70年代末。由J Ross Quinlan提出了ID3算法,此算法的目的在于减少树的深度。但是忽略了叶子数目的研究。C4.5算法在ID3算法的基础上进行了改进,对于预测变量的缺值处理、剪枝技术、派生规则等方面作了较大改进,既适合于分类问题,又适合于回归问题。决策树算法构造决策
274 0
|
机器学习/深度学习 数据采集 数据可视化
机器学习实战 | 逻辑回归应用之“Kaggle房价预测”
基于kaggle网站所提供的爱荷华州埃姆斯的住宅数据信息,预测每间房屋的销售价格,数据的标签SalePrice是连续性数据,因此可以判定这是一个回归问题。
机器学习实战 | 逻辑回归应用之“Kaggle房价预测”
|
机器学习/深度学习 分布式计算 关系型数据库
直播预告 | pg4ml 机器学习框架系列课程:实现细节、XOR 模型案例(上)
pg4ml 机器学习框架是基于 PostgreSQL v13 实现的、使用 plpgsql 编写的机器学习框架,本次讲解的实验环境基于PolarDB-PG开源数据库。本次分享主要介绍框架的实现细节,并构建XOR两层网络的模型案例,包括数据集、XOR分类的案例与原理、神经网络节点、训练任务结构与执行等内容。
直播预告 |  pg4ml 机器学习框架系列课程:实现细节、XOR 模型案例(上)

热门文章

最新文章