一个数据科学家的新年计划

简介:

简介

新年并非仅仅是更换日历或是清晨起床后揉开双眼。新年是充满喜悦的一个崭新开始。它给我们一个完美的理由养成一个新习惯,它意味着新“希望”的到来。

如果你正在阅读这篇文章,我确信数据科学会让你兴奋!你要在2016年做出改变,难道不是吗?如果你从今天开始致力于实现这些目标,这是完全可能的。你必须明白,成为一个数据科学家需要一个过程,它不是一朝一夕的成功。因此,你必须耐心地朝着目标而努力。
提示:

  1. 原文中涉及了大量链接,值得收藏!在大数据文摘后台,回复“计划”,可下载doc文件,获取文中提供的所有链接。

2.这些通用的学习计划是为有抱负的/有经验的数据科学家准备的。该文章可能不适合非数据分析领域的人员。

一个数据科学家的新年计划

我已经将这些学习计划根据数据科学家的三个水平阶段进行了分类。你来决定那个阶段最适合你,并进行实践。当你完成本阶段的学习任务后,便可进入下一个阶段。针对不同的学习主题,我列出了可获取的最好的课程。为了达到最佳效果,我建议你逐一学习这些课程。如果你觉得课程学习困难,请与我讨论,我会给你提供一个备选方案。方便起见,我分享了可供下载的连接。

初级水平

谁是初学者?如果数据分析和数据科学对你来说是一个全新的领域,你不了解这个行业是如何运作的,但是,你满怀好奇的在该领域发展你的事业,那么,你就是个初学者。下面就是你的学习目标:

1.从编程语言开始,无论是R或Python。我曾看到有学生同时学习R和Python。最终,他们什么都没学会。这种学习方法很糟糕。你必须保证自己深入学习R或Python。这是两个在公司中广泛应用的开源工具。Python是公认的最简单的编程语言。R仍是人们最为喜爱的统计工具。选择权在你。两者都很好。

学习课程:在Codecademy完成Python的学习。在DataCamp完成R的学习。

2.学习统计学和数学统计学是关于假设和运算的学科。但是,如果你不懂统计和数学,很难在这个行业立足。它是数据科学家的核心竞争力。如果你的数学不好,是时候改变了。习惯使用强大的统计技术、代数和概率学。在可汗学院(Khan Academy)、 Udacity 等平台上有非常棒的统计学课程。装上这些APP,便可马上开始学习。

学习课程:在Udacity上完成 Inferential和Descriptive统计学习。在 Khan Academy完成代数的学习。

3.报名参加一个大型开放式网络课程(MOOC)大型开放式网络课程(简称MOOC)可以自由访问和学习。但是,这是你做出的最难实现的承诺。学生们通常一次性报名参加多个课程,但最终一个也完成不了。因此,你必须专注于一个课程,完成之后,在进入下一个课程的学习。你可以在coursera, edX, Udacity上学习任何课程。

学习课程:在Coursera完成数据科学专业(R)的学习。在Dataquest完成数据科学Python的学习。

4.积极参与行业实践,发现新事物你需要知道这个行业正在发生哪些变化。我们生活在一个充满活力又瞬息万变的世界。今天还十分盛行的技术明天可能就过时了。你必须与经验丰富的专家交流,结识“未来的自己”。现在就开始行动吧,加入讨论、参加聚会、关注博客、参加团体活动,并阅读专业书籍。你可以在Facebook 上跟进这方面的最新消息。

中等水平

谁是中等水平的数据科学家?如果你已经完成了初级水平的学习,并且已经尝使用机器学习的基础知识,熟练掌握了建立预测模型的知识,那么你已经到达了数据科学家的中级水平。达到这个水平需要巨大的决心和大量的练习。准备好迎接这个挑战了吗?

  1. 理解并构建机器学习技能

机器学习是数据科学与技术的未来。所有大公司在雇佣该项技术人才方面投入大量的资金和人力。毫无疑问,当前这种人才的市场需求巨大。对个人而言,也是个不可多得的好机会。今年,你应当在机器学习方面深入拓展。熟练掌握回归分析(Regression)、聚类分析( Clustering)、 CART 算法。打开下面的连接,你可以找到关于机器学习方面的免费学习资源:

学习课程:在Andrew Ng完成机器学习的课程。

  1. 专注于Ensemble和Boosting 算法的学习

一旦你对机器学习充满自信,那么转攻下一个模型吧。使用boosting和ensemble算法,可以使得模型的精度远远高于其他算法。上面分享的免费学习资源已经涵盖了这个主题。但是,要让自己更深入的理解这个主题。

学习课程:阅读 Kaggle的Ensembling 指南(Guide)。在MIT Lecture完成Boosting的学习。

  1. 探索使用Spark, NoSQL以及其他大数据处理工具

本年,你将开启自己的大数据之旅。鉴于大数据人才需求的蓬勃发展,你必须学会Spark软件。最近它非常流行。大数据的未来依赖于Spark,它被广泛应用于大数据的操作和处理。通过学习Spark,你还可以拓展自己的专业知识到NoSQL , Hadoop上。

学习课程:首先学习Spark.

  1. 教育社区同伴

还有什么比知识分享更棒!从今年开始,同那些努力学习数据科学的人分享你的知识。你可以加入活跃的数据科学论坛(forums),帮他们解疑答惑,教会他们有用的技巧和窍门。你也可以举办类似的聚会。

行动指南:追随我们Facebook。

  1. 参加数据科学竞赛

是时候检验你的学习效果了。今年你必须参一些竞赛,它能帮你认清自己的长处和短板。此外,你会对已掌握的知识更加自信。我希望你能荣登Kaggle Top500排名榜。从现在开始,你的目标是成为the Last Man Standing(点击打开连接,这是一个数据科学领域的竞赛)。

行动指南:加入Kaggle 和 Data Hack。

提示:比赛可能有点儿难。你可以通过查看这些实际问题来检查自己的技能和知识。他们一点儿不难,但非常有趣!

高级水平

我无需定义这类人群。大部分人都非常害怕去尝试数据科学,但他们却十分精通。他们已经过上了轻松惬意的生活,但是,他们热爱挑战。他们是经验丰富的专家。下面是一些学习计划:

1.构建一个深度学习模型(deep learning model)

今年,你要为立志于成为数据科学家的人树立榜样。你必须创建深度学习(deeplearning)的模型。在世界各地,已经有人使用这些模型进行预测了。这是机器学习的高级阶段。其准确性已明显优于一般的机器学习模型。

学习课程:完成Tutorial 的深度学习。

  1. 回馈社群

我相信知识是用于分享而不是用于存储的。分享得越多,学到的越多。换种方法解释,“你学到一个新概念,然后解释给你的两个朋友听,你对这个概念的记忆可能会更久。“今年,你制定一个计划,利用你的知识和经验帮助数据分析社区的成员。这会帮助那些在数据分析领域苦苦挣扎的人们找到胜利的彼岸。

行动计划:在Discuss 上分享你的知识。

3.探索强化学习(Reinforcement Learning)

强化学习是(Reinforcement Learning)机器学习中最强大的,然而少有人开发的一个分支。今年,在这一领域做些研究。虽然很有挑战性,但值得一试。无人驾驶、间谍无人机就是强化学习的成果。一旦你开始涉足该领域,你就自动进入人工智能领域。

学习课程:完成Andrew Moore的tutorial。

  1. 进入Kaggle前50名

今年,你必须保持住在Kaggle上的“大师”地位,准确的讲,确保自己在Kaggle排名进入前50。参加适合自己领域的相关竞赛,与其他kagglers组队。参与这个水平的竞赛,你会学习到一些在其他地方学不到的理念。

行动计划:加入Kaggle

追踪你的进程。2016年新年学习计划表 Download

结束语

我理解,这些学习计划对你具有挑战性,但值的一试。根据你当前的情况,自由选择适合自己的学习计划。我只是罗列了有抱负的数据科学家必须要知道的重要知识和技能。

在上周我意识到,人们并没有足够的勇气制定新年计划。这个问题也曾困扰着我。因此,我决定写下这篇文章。我希望,在2016年结束之前,你会完成初级水平的学习(假设你是一个新手)。

这篇文章已经为你制定新年计划扫除了障碍。作为一个有野心的数据科学家,我已经为你提供了“硬骨头”,就等着你去啃下它了。在学习的过程中如果遇到任何困难,请在下面的评论分享你的想法。

本文转自d1net(转载)

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
4月前
大学四年就靠这些东西成为别人眼中的大神(工具用好才是硬道理,兵来将挡,水来土掩)
大学四年就靠这些东西成为别人眼中的大神(工具用好才是硬道理,兵来将挡,水来土掩)
27 0
|
9月前
|
数据采集 JSON 算法
贡献!程序员大学四年珍藏的26个宝藏网站,全部拿出来了
哔哩哔哩 对于程序员来说,B站不可只是一个看番、鬼畜、舞蹈等等的一个网站,B站上所拥有的学习资源是非常非常非常丰富的,基本上你可以在这里找到任何你想要的资源(不是你想的资源,狗头),哈哈。
|
机器学习/深度学习 人工智能 自然语言处理
春节在家不再无聊,这份2019 AI研究进展回顾陪伴你
新春快乐!2019 年刚刚过去,去年有哪些最重要的研究是必须要记住的?本文将带你一并回顾
251 0
春节在家不再无聊,这份2019 AI研究进展回顾陪伴你
|
数据可视化 数据挖掘 程序员
程序员福音?用Python数据分析教你做投资,巴菲特不会的你会
  Pyhton可以用来做金融量化投资分析。   探讨问题与分析思路   本文以Python为量化工具,主要探讨以下三个问题:   (1)指数定投的优势与劣势在哪?   (2)指数定投受哪些因素影响,是不是时间越长越好?   (3)指数定投策略如何优化?   编程软件:基于Python3.7的Jupyter Notebook,使用到的库包括numpy、pandas、matplotlib、pyecharts和tushare等。
187 0
|
达摩院 算法 语音技术
我在达摩院作实习研究僧的那些事儿
经韩老师介绍,2019年7月,有幸进入阿里巴巴达摩院成为一名实习研究僧。如今也已半年有余,期间发生的事情仍然历历在目。从初出茅庐的不安,到积极融入的快乐,再到宠辱不惊的泰然,一路走来收获良多。
1227 0
|
机器学习/深度学习 人工智能 算法
|
Python
《数据科学家访谈录》总结·2
01 - 05:DJ Patil, Hillary Mason, Pete Skomoroch, Mike Dewar, Riley Newman 06 - 10:Clare Corthell, Drew Conway, Kevin Novak, C...
1335 0