数据科学入门难?老司机为你盘点 24 门精品课程

简介:

本文盘点了 24 个高品质的在线数据科学入门教程,原作者 David Venturi,他获有化学工程和经济学的双学位,热衷于数学、数据科学和统计学,同时也是一位编程爱好者。更具传奇色彩的是,他本来就读于一所名校的计算机科学专业,但觉得对数据科学更感兴趣——于是果断退学,从 Coursera、edx、Udemy 等慕课平台开始自学,终迈入专家行列。

他的经历说来也并不特别,世界上又多了一个慕课代言人而已。但雷锋网认为,他的经历具有两点价值:首先,最好的教学资源已经在那儿了——很多还是免费的,取不取,只是我们自己的选择。第二点,David Venturi 或许不是权威的数据科学专家,但他是慕课老司机——最好的公开课有哪些?当然还是慕课老司机的推荐最靠谱。

因此,这篇源于 David Venturi 长期的学习经验总结,同时结合了在线慕课社区 Class Central 成千上万的课程评分和评论数据的盘点文章,自然对数据科学的入门学习具有非常重要的参考价值。

下面,我们一起来看看这位老司机的课程推荐。(入选课程的截止日期为 2017 年 1 月,按照优先级降序排列)

数据科学入门难?老司机为你盘点 24 门精品课程

David Venturi

  关于评选标准

首先,所有的入选课程都必须满足三个必要条件:

1. 必须主要教授数据科学,并且越相关越好。

2. 必须有人维护,例如根据用户需求或者按照计划每月更新。

3. 必须是一个互动性的在线教程,因此以下列出的不包括书籍或是其他只读教程。

此后,我们收集了来自 Class Central 和其他评论网站的关于这些课程的评分数据,计算了每个课程的加权平均得分,然后人工阅读了课程的用户评论信息,综合两者,得到了以下列表。这里,我们主要考虑了以下两个关键因素。

1. 教程的覆盖是否合理。例如,教程不能跳过一些科目,也不能在某些科目上纠缠过多的细节。

2. 教程是否采用了通用工具。例如,我们优先选择了那些通过流行的编程语言( Python 或 R 预言)实现的教程。

数据科学入门难?老司机为你盘点 24 门精品课程

最后需要说明的是,这里我们只考虑了评分最高和评论最多的课程,而且由于资源和时间有限,难免会有遗漏,欢迎各位读者在留言区补充。

  关于数据科学

为了更好地选择和梳理课程,首先要简单了解数据科学是什么,以及数据科学家平常都在做哪些研究。这里,我们给出一张数据科学的处理过程概览,原作者是哈佛大学的 Joe Blitzstein 和 Hanspeter Pfister 教授。

数据科学入门难?老司机为你盘点 24 门精品课程

我们认为,一个优秀的数据科学入门教程,应该覆盖上图的每个方面,解释其中的关键概念,介绍研究中常用的工具,而且最好能提供一些简单示例(动手实操的示例)。

另外,由于本文的主题是“入门”教程盘点,因此这里不包括约翰·霍普金斯大学放在 Coursera 上的数据科学专业课程,也不包括 Udacity(优达学城) 提供的数据分析师纳米学位课程,这里我们只为数据科学的每个科目提供最好的个人入门教程盘点。

最后需要指出的是,以下列出的某些课程可能需要统计学和编程基础,读者可以自行学习这些基础科目,也可以参考这两个推荐课程列表。

统计学:https://www.class-central.com/report/best-statistics-probability-courses-data-science/ 

编程:https://www.class-central.com/report/best-programming-courses-data-science/ 

下面是课程推荐部分。

  重点推荐

1. Data Science A-Z:Real-Life Data Science Exercises Included

讲师:Kirill Eremenko

平台:Udemy

花费:15美元

时长:21小时

详情:https://www.udemy.com/datascience/ 

在我们所有入选的二十多个课程中,Data Science A-Z 在知识点覆盖宽度和广度方面是当之无愧的王者。在高达 3071 份课程评论之中,它的加权平均星级达到了4.5星(满分5星),是评价最高和评论数量最多的课程之一。

该课程完整覆盖了数据科学的各项子科目,并贴心地提供了现实生活中的例子作为示例。另外,21小时也是一个非常好的时长,从评价来看,大部分订阅者都认为讲师的课程安排非常合理。价格方面,由于 Udemy 平台经常推出打折促销活动,因此变动比较频繁,目前的售价是15美元。

需要指出的是,该课程并不满足我们上文提及的“采用通用工具”的评选要求(课程中没有采用 Python 或 R 语言的相关工具,而是采用了 gretl,Tableau,Excel 等工具)。关于这一点,讲师 Kirill Eremenko 做了如下说明。

在 gretl 中,用户将可以像在 R 或者 Python 环境中那样进行类似的建模操作,而且不用编写代码。这一点对于 Data Science A-Z 教程至关重要。因为订阅者的编程水平可能参差不齐,而我希望通过这个课程传达一个框架性的东西,一个健壮的模型,用户可以自由选择他们喜欢的工具。gretl 可以帮助我们避免陷入编程相关的难题。

2. Intro to Data Analysis

讲师:Caroline Buckey

平台:Udacity

花费:免费

时长:每周6小时,持续6周,共36小时

详情:https://cn.udacity.com/course/intro-to-data-analysis--ud170/ 

Intro to Data Analysis 是一个相对较新的产品,是 Udacity 旗下数据分析师纳米学位的一个细分课程。该课程的特点是完整并且清晰地覆盖了数据科学的整个处理过程,尽管它在建模方面略有欠缺,但仍不失为一个优秀的数据科学课程,甚至有订阅者对它评价为 5 星级别。

该课程的视频制作精良,讲解清晰明了,并且许多知识点都搭配了实操测验题。另外,由于这些配套测验题都是基于 NumPy 和 Pandas 等框架的,因此订阅者通过该课程的学习,除了能学到完整的大数据知识之外,还能顺便提升自己对各种 Python 库的应用能力。课程的最后一章涉及 Udacity 旗下的纳米学位授予,虽然并不是免费的,但考虑到各大企业对纳米学位的认可度,因此仍不失为一个很好的投资。

3. Data Science Fundamentals

讲师:多人授课

平台:Big Data University

花费:免费

时长:13小时,如果包括课程最后介绍R语言的“R 101”章节,则需要18小时

详情:https://bigdatauniversity.com/learn/data-science/ 

Data Science Fundamentals 由 IBM 旗下 Big Data University 提供的四个子章节组成,这四个子章节分别是:3小时的“Data Science 101”,5个小时的“Data Science Methodology”,5个小时的数据科学开源工具实操,以及最后5个小时的R语言入门“R 101”。

该课程完整覆盖了数据科学的整个处理过程,并介绍了 Python、R 语言和其他几个开源工具。总体上说,课程更贴近实际应用,具有巨大的生产参考价值。但由于它在 Class Central 等评分网站中没有太多数据,因此目前还不清楚订阅者对它的评价如何。

  其他课程

介绍完以上三个重点推荐的高品质课程之外,下面按照加权平均的评分结果降序排列,推荐一些其他的大数据科学入门参考课程。

4. Python for Data Science and Machine Learning Bootcamp

讲师:Jose Portilla

平台:Udemy

详情:https://www.udemy.com/python-for-data-science-and-machine-learning-bootcamp/ 

该课程基于 Python 语言,完整覆盖了数据科学的整个处理过程。其主要特点是更偏重基于大数据处理的 Python 语言实现,与下面将会提到的 Jose 的 R 语言课程一样,本课程同时可以作为 Python 语言以及数据科学的入门教程。课程总时长 21.5 小时,通过计算 1644 名订阅者的加权评分结果,该课程的得分高达 4.7 星级。同样,与 Udemy 旗下其他的课程一样,该课程的售价也变动频繁,目前的售价是 15 美元。

5. Data Science and Machine Learning Bootcamp with R

讲师:Jose Portilla

平台:Udemy

详情:https://www.udemy.com/data-science-and-machine-learning-bootcamp-with-r/ 

该课程基于 R 语言,同样完整覆盖了数据科学的整个处理过程。与上一个课程不同的是,本课程是基于 R 语言的,可同时作为 R 语言以及数据科学的入门教程。课程总时长 18 小时,通过计算 847 名订阅者的加权评分结果,该课程的得分为 4.6 星级。目前该课程在 Udemy 的售价同样是 15 美元。

数据科学入门难?老司机为你盘点 24 门精品课程

6. Data Science and Machine Learning with Python — Hands On!

讲师:Frank Kane

平台:Udemy

详情:https://www.udemy.com/data-science-and-machine-learning-with-python-hands-on/ 

该课程基于 Python 语言,并未全部覆盖数据科学的完整处理过程,而是更专注于统计和机器学习领域。课程总时长 9 小时,通过计算 3104 名订阅者的加权评分结果,该课程的得分为 4.5 星级。目前的售价是 15 美元。

7. Introduction to Data Science

讲师:Data Hawk Tech 数据科学咨询公司

平台:Udemy

详情:https://www.udemy.com/learn-data-science/ 

该课程的时长很短,只有 3 个小时,因此虽然其覆盖的范围很全,但深度却不足,同时也简单覆盖了 R 和 Python 语言。通过计算 62 名订阅者的加权评分结果,该课程的得分为 4.4 星级。目前的售价是 10 美元。

8. Applied Data Science: An Introduction

讲师:Syracuse University

平台:CourseSites by Blackboard

详情:https://www.class-central.com/mooc/1806/open-education-by-blackboard-applied-data-science-an-introduction 

该课程虽然完整覆盖了数据科学的整个处理过程,但其覆盖深度并不平均。它的讲述重点放在基本的统计学原理和 R 语言的应用。整个课程的组织并不系统,通过计算 6 名订阅者的加权评分结果,该课程的得分为 4.33 星级。免费。

9. Introduction To Data Science

讲师:Nina Zumel 和 John Mount

平台:Udemy

详情:https://www.udemy.com/introduction-to-data-science/ 

该课程基于 R 语言,仅覆盖了部分数据科学的处理过程,在数据准备和建模方面有很好的讲述深度。课程总时长 6 小时,通过计算 101 名订阅者的加权评分结果,该课程的得分为 4.3 星级。目前的售价是 50 美元。

10. Applied Data Science with Python

讲师:V2 Maestros 大数据公司

平台:Udemy

详情:https://www.udemy.com/applied-data-science-with-python/ 

该课程基于 Python 语言,完整覆盖了数据科学的整个处理过程,并且对每个细分科目都有很好的覆盖深度。课程总时长为 8.5 小时,通过计算 92 名订阅者的加权评分结果,该课程的得分为 4.3 星级。目前的售价是 15 美元。

数据科学入门难?老司机为你盘点 24 门精品课程

11. Want to be a Data Scientist?

讲师:V2 Maestros 大数据公司

平台:Udemy

详情:https://www.udemy.com/want-to-be-a-data-scientist/ 

该课程的时长很短,只有 3 个小时,因此虽然其覆盖的范围很全,但深度却不足,简单提到了几个开源工具。通过计算 790 名订阅者的加权评分结果,该课程的得分为 4.3 星级。免费。

12. Data to Insight: an Introduction to Data Analysis

讲师:University of Auckland

平台:FutureLearn

详情:https://www.futurelearn.com/courses/data-to-insight?utm_campaign=Courses+feed&utm_medium=courses-feed&utm_source=courses-feed 

该课程的覆盖范围目前并不清楚,根据官方介绍,课程更专注于数据挖掘、发现和可视化。课程时长 24 小时(每周 3 小时,共 8 周),不提供点播。通过计算 2 名订阅者的加权评分结果,该课程的得分为 4 星级。目前该课程可免费试听,进阶内容需要付费 59 英镑,可提供证书。

13. Data Science Orientation

讲师:Microsoft

平台:edX

详情:https://www.edx.org/course/data-science-orientation-microsoft-dat101x-1 

该课程只部分覆盖了数据科学的处理过程,并且缺少建模方面的内容。由于是微软提供的课程,因此大部分的数据处理工具都使用了 Excel。课程的时长为 12-24小时不等(每周 2-4 小时,共 6 周)。通过计算 40 名订阅者的加权评分结果,该课程的得分为 3.95 星级。课程本身免费,但订阅者可以选择支付 25 美元获取一个完课证书。

14. Data Science Essentials

讲师:Microsoft

平台:edX

详情:https://www.edx.org/course/data-science-essentials-microsoft-dat203-1x-2 

该课程基于 R 、Python 和 Azure ML 等工具,完整覆盖了数据科学的整个处理过程,并且对每个细分科目都有很好的覆盖深度。时长为 18-24 小时不等(每周 3-4 小时,共 6 周)。通过计算 67 名订阅者的加权评分结果,该课程的得分为 3.81 星级。课程本身免费,但订阅者可以选择支付 49 美元获取一个完课证书。

数据科学入门难?老司机为你盘点 24 门精品课程

15. Applied Data Science with R

讲师:V2 Maestros 大数据公司

平台:Udemy

详情:https://www.udemy.com/applied-data-science-with-r/ 

该课程是第 10 条推荐的 R 语言版,完整覆盖了数据科学的整个处理过程,并且对每个细分科目都有很好的覆盖深度。课程时长 11小时。通过计算 212 名订阅者的加权评分结果,该课程的得分为 3.8 星级。目前的售价是 15 美元。

16. Intro to Data Science

讲师:Dave Holtz 和 Cheng-Han Lee

平台:Udacity

详情:https://cn.udacity.com/course/intro-to-data-science--ud359/ 

该课程基于 Python,虽然只覆盖了部分数据科学的处理过程,但对于每个课程范围内的知识点都做了详细介绍。虽然 Udacity 具有业内公认的一个非常棒的探索性数据分析(Exploratory Data Analysis,EDA)课程,但总体上本课程缺乏数据探索性方面的介绍。课程时长共 48 小时(每周 6 小时,8 周)。一些评论认为该课程缺乏高阶内容,并且组织混乱。通过计算 18 名订阅者的加权评分结果,该课程的得分为 3.61 星级。免费。

17. Introduction to Data Science in Python

讲师:University of Michigan

平台:Coursera

详情:https://www.coursera.org/learn/python-data-analysis/ 

该课程基于 Python,只覆盖了部分数据科学的处理过程,而且没有数据建模和可视化的相关内容(更深入的内容在密歇根大学开设的另一个名为“Applied Data Science with Python Specialization”的系列课程中,感兴趣的同学可以在详情页面中详细了解)。本课程时长为 4 周。通过计算 15 名订阅者的加权评分结果,该课程的得分为 3.6 星级。可免费试听,高阶内容需要付费。

数据科学入门难?老司机为你盘点 24 门精品课程

18. Data-driven Decision Making

讲师:PwC

平台:Coursera

详情:https://www.coursera.org/learn/decision-making 

该课程基于 R、Python、Excel、SAS 和 Tableau 等工具,只覆盖了部分数据科学的处理过程,缺乏建模的相关内容,更注重业务实现。课程时长为 4 周。通过计算 2 名订阅者的加权评分结果,该课程的得分为 3.5 星级。可免费试听,高阶内容需要付费。

19. A Crash Course in Data Science

讲师:Johns Hopkins University

平台:Coursera

详情:https://www.coursera.org/learn/data-science-course/ 

该课程是关于数据科学整个处理过程的完整概述,覆盖了几乎所有细分科目,但教授深度都不足。时长为 4-6 小时,大约需要 1 周完成。通过计算 19 名订阅者的加权评分结果,该课程的得分为 3.4 星级。可免费试听,高阶内容需要付费。

20. The Data Scientist’s Toolbox

讲师:Johns Hopkins University

平台:Coursera

详情:https://www.coursera.org/learn/data-scientists-tools/  

该课程同样覆盖了数据科学的完整过程,但教授深度不足。更多的是作为霍普金斯大学“Data Science Specialization”课程的一个预热班。官方介绍称课程的时长为每周 1-4 小时,共需要 4 周,但有网友指出只需要两个小时就能全部完成。通过计算 182 名订阅者的加权评分结果,该课程的得分为 3.22 星级。可免费试听,高阶内容需要付费。

21. Data Management and Visualization

讲师:Wesleyan University

平台:Coursera

详情:https://www.coursera.org/learn/data-visualization/ 

该课程基于 Python 和 SAS 工具,只覆盖了部分数据科学的处理过程,缺少建模方面的内容,更注重实际应用。课程时长为 4 周,每周需要 4-5 小时。通过计算 6 名订阅者的加权评分结果,该课程的得分为 2.67 星级。可免费试听,高阶内容需要付费。

以下课程没有评论数据可供参考,但也值得关注。

22. CS109 Data Science

平台:Harvard University

详情:http://cs109.github.io/2015/ 

该课程基于 Python,完整覆盖了数据科学的整个处理过程,并且对每个细分科目都有很好的覆盖深度(而且有些内容对于“入门”这一主题可能会显得太过深入)。该课程是哈佛大学的大数据公开课,完全免费,只是由于并非针对在线消费设计,因此课程导航设计可能不会太友好。整个课程的学习大约需要 12 周,所有视频都是在哈佛大学的课堂上实录的。值得一提的是,上文关于数据科学的概述图表就是来自本课程。

数据科学入门难?老司机为你盘点 24 门精品课程

23. Introduction to Data Analytics for Business

讲师:University of Colorado Boulder

平台:Coursera

详情:https://www.coursera.org/learn/data-analytics-business/ 

该课程只覆盖了部分数据科学的处理过程,缺少数据建模和可视化的相关内容,更注重业务实现。数据科学过程在该课程中被称为“信息-行为的价值链”(Information-Action Value chain)。课程时长为 4 周,较深入的内容都基于 SQL 实现。可免费试听,高阶内容需要付费。

24. Introduction to Data Science

讲师:Barton Poulson

平台:lynda

详情:https://www.lynda.com/Big-Data-tutorials/Introduction-Data-Science/420305-2.html 

该课程基于 R 语言和 Python,时长很短,只有 3 个小时,因此虽然其覆盖的范围很全,但深度却不足。可免费试听,高阶内容需要付费。





本文作者:恒亮
本文转自雷锋网禁止二次转载, 原文链接
相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
ChatGPT最强专业学习资料集锦
本文旨在整理一份可供参考和学习的专业ChatGPT相关资料,包括ChatGPT相关论文、Github项目、以及当前市场上出现的ChatGPT相关产品等。
ChatGPT最强专业学习资料集锦
|
11月前
|
存储 人工智能 NoSQL
案例酷 | 华东师范大学:计算机实训课拍了拍你,说“云上见”
编者按: 教育是国之大计、党之大计。教育信息化是实现教育现代化的必由之路,数字化转型为教育信息化指明了方向。针对如何在疫情期间也能提供给师生线下般的实训体验,华东师范大学和阿里云在战略合作框架下聚合形成了水杉无影桌面实训环境,完成了在教育数字化改革中的一次重要尝试。 全文约2714字,建议阅读时间9分钟。
218 0
|
机器学习/深度学习 SQL 分布式计算
墙裂推荐!小白入门数据科学的几个宝藏学习网站
前方高能,准备开启收藏夹吃灰模式。 本篇东哥分享几个数据科学入门的学习网站,全部免费资源,且内容优质,是小白入门的不二选择。吃灰是常规操作,但也得吃,总比需要用的时候找不到强。 下面开始进入正题。
墙裂推荐!小白入门数据科学的几个宝藏学习网站
|
机器学习/深度学习 人工智能 数据可视化
吴恩达创办Coursera是受他启发!74岁老父亲自述终身学习路,8年学完146门课程
吴恩达创办Coursera是受他启发!74岁老父亲自述终身学习路,8年学完146门课程
251 0
|
机器学习/深度学习 人工智能 自然语言处理
“预习-上课-复习”:达摩院类人学习新范式探索
预习时关注重点,上课时由易到难,复习时举一反三,能否让机器也按照“预习-上课-复习”的学习范式进行学习呢? 达摩院对话智能(Conversational AI)团队对这个问题进行了研究探索,先将其用在了人机对话领域,在国际知名多轮对话数据集MultiWoz上取得了最好结果。
“预习-上课-复习”:达摩院类人学习新范式探索
|
机器学习/深度学习 人工智能 算法
|
机器学习/深度学习 人工智能 TensorFlow
《文科生数据科学上手指南》分享
据说技术门槛在降低。作为文科生的你,该如何从这种趋势中收获更多? 苦恼 你大概经常听别人提起,技术的门槛在降低。 数据科学、机器学习、自然语言处理、神经网络、人工智能……一系列的名词让你眼花缭乱,让你对这个时代充满兴奋的感觉。
2137 0
|
机器学习/深度学习 算法 数据挖掘
数据科学入门三个月的一些随想
回顾了入门Data Science以来的一些所思所想。
2003 0