2020年,四步突破数据科学

  1. 云栖社区>
  2. 云栖号资讯>
  3. 博客>
  4. 正文

2020年,四步突破数据科学

云栖号资讯小编 2020-02-04 16:05:38 浏览454

云栖号:https://yqh.aliyun.com
第一手的上云资讯,不同行业精选的上云企业案例库,基于众多成功案例萃取而成的最佳实践,助力您上云决策!

image


来源:Pexels

这没什么问题,但你很可能列出一张事无巨细、耗时费力、近乎难以实现的目标清单,让你应接不暇,而且很有可能失去动力,因为实在是有太多任务了。

如果打算今年进入数据科学领域,这是个很棒的决定。该领域广受认可,而且好找工作,工资也不错,就连管理部门也慢慢意识到数据科学是不可或缺的。

不过在开始之前,请允许我说些打击的话(有必要说):用一年的时间去学数据科学的所有内容是不够的。

别误会,一年的时间足够你找到第一份工作,但不可能一步登天,从零成为数据科学团队的领头人(如果做到了,请在评论区分享你的故事)。

说了这么多,来探索必备技能以及满足你上手操作的技能。

1.数据库?

我们分析的数据很可能出自某个数据库,这是不同于书籍或课程的典型情况——不会获得格式正确的CSV文件。通常,你需要具备专业知识(或认识懂这方面知识的人),对SQL也要有一定的了解。

如果用Python或R语言分析,那就不要用太多时间来学SQL分析函数、PLSQL/T-SQL和所有那些高难度东西。在这种情况下,SQL的任务很大程度上依靠的是结合几组表格,在上面进行分析。

这个过程要花的时间取决于使用方式以及先验知识,但新手在这里花的时间不会超过一个月。

2.现在来谈谈数据科学

image


来源:Pexels

如果按照上面的每一步来,还没有先验知识,此时可能是2020年的8月或9月。时间已经过去很多了,但你已经具备寻求第一份工作的所有先决条件。

不是所有都要刚刚好。

要找一份数据科学的工作,目前也只提了先决条件。后面这两个月,建议对一些基础的数据分析和可视化库有所了解,如:

l Numpy

l Pandas

l Matplotlib

l Scipy

l Statsmodels

这是在你不懂的情况下(如果不知道为何需要这些知识的话学起来会感到无聊)。

不要走马观花式看课程,到网站上下载数据集然后完整地分析。再到网上看其他人对于同一数据集是如何处理的,看自己怎么改进。

同样,在这两个月时间内,应该熟悉一些机器学习的算法,如:

l 线性回归(Linear Regression)

l 逻辑回归(Logistic Regression)

l 分类与回归树(Classification and Regression Trees)

l KNN(k-NearestNeighbor,K最近邻分类算法)

l 朴素贝叶斯分类(Naive Bayes)

l SVM(Support Vector Machine,支持向量机)

也许实际操作中不会用到这些,但它们是日后学习更多高级算法XGBoost和神经网络(Neural networks)的基础。有了分析数据库,记得不要只顾着跟教程,而要自己完成高质量的任务。如果你喜欢,尝试用Numpy从零开始运用算法,不过并不强制大家。

  1. 编程呢?

image


来源:Pexels

没错,数据科学离不开编程技能。如果找到一份工作,但不会写代码,你很可能知道自己该做什么却不知从何下手,也有可能会经历SOCPS(一种不知道怎么写代码就从Stack Overfow网站上复制粘贴的综合症),甚至不看问题和答案。

在网上搜索更好的解决方案是可以的,但应该知道怎么自己写出一套基本方案。

之前从没写过的话,可以从小入手,读读有关Python或R的书籍及其在数据科学中的角色,先有个全面的了解,再深入学习语法。不用担心要记所有的内容,能确保在遇到困难时该朝哪个方向看就行。

要是已经读过相关书籍或上过讲编程的课也了解语法,就是不知道怎么解决问题,那就花些时间学学算法和数据结构。同时看一些常规的编码问题采访,这些会让你“文思泉涌”。

对自己的编程技能很满意对吗?那可太棒了!现在腾点时间给分析库——Numpy和Pandas库。

每个人在编码上花的时间也不同。新手小白和仅需了解库的知识的人就不一样。可以说完全不懂的人3-4个月的时间足矣,如果是只需学习库的知识的人,大概1个月的时间就可以。

4.提高数学技能

你一定听说过数据科学首先要求优秀的数学能力。要了解的数学知识因工作岗位而异,至于入门需要掌握多少,笔者给出的回答是:没你想得多。

且听我一一叙述。初学者会试图掌握任何相关领域的知识,比如说计算、线性代数、概率计算或统计学,但必须见好就收。

可别误会了,倘若你有的是时间,那就成为上述领域的专家,否则就不要浪费时间。作为刚步入该领域的初级数据科学家,不仅要了解数学知识,更多是在直观层面。要知道特定的场合进行什么操作,这就是直觉发挥作用的时刻,但无需花太多时间着手解决复杂的数学问题。

只要悟性强,明白怎么编码,就足够了。找到工作后你将有大把的时间钻研数学,所以没必要提前学所有的东西。

如果没有高数基础,不建议花2-3个月的时间提升数学技能。

image


来源:Pexels

接下来呢?

2020年剩下几个月的时间里,创建个GitHub账户(a),放上最好的分析报告或机器学习算法,提供给潜在的雇主看。同时准备一份漂亮的简历和求职信。

倘若真的喜欢,发表一篇有关学习历程的博客。网上的呈现只会在职业发展中对你有帮助,前提是别发无用的信息,但我相信你的判断力。

云栖号:https://yqh.aliyun.com
第一手的上云资讯,不同行业精选的上云企业案例库,基于众多成功案例萃取而成的最佳实践,助力您上云决策!

原文发布时间:2020-02-03
本文作者:读芯术
本文来自:“读芯术”,了解相关信息可以关注“读芯术