《数据科学家修炼之道》一1.3 数据科学的诞生

简介:

本节书摘来异步社区《数据科学家修炼之道》一书中的第1章,第1.3节,作者: 【美】Zacharias Voulgaris(弗格里斯)译者: 吴文磊 , 田原 责编: 陈冀康,更多章节内容可以访问云栖社区“异步社区”公众号查看。

1.3 数据科学的诞生

数据科学领域起源于揭示大数据中潜在的价值,以及克服之前提及的4个V的挑战。这在过去是可以通过组合先进的现代计算设备达到的。特别地,并行计算、复杂数据分析流程(主要是通过机器学习)以及低成本的强劲计算能力使这种需求变成可能。此外,在不远的将来,不断加快的IT基础架构以及技术进步将使我们可以产生、收集以及处理更多的数据。通过这些,数据科学可以凭借智能化应用以及发展和使用这些技术的创新能力在技术层面上处理大数据难题。这也就是说,大数据在一定程度上是可以被管理并至少能够提供一些有价值的信息,而这则是大数据是值得花时间精力投入进去的原因。

认识到数据科学并不是一种时尚是很重要的,而是在未来会得到迅速发展的领域。如果你曾是互联网时代的一个IT专家,你可能会觉得大数据仅仅是一个风潮或是一个奢侈品,但那些真正发现大数据的真实和潜在价值的人是可以从中发现其盈利的可能的。

想象一下成为第一批学习HTML、CSS和JavaScript的人,或者是第一个制作数字图像用于网站设计的人。这就像拿着一张得奖的彩券,尤其是如果你对自己的工作非常在行的话。这就是今天的数据科学。如果没有那么多人分享大数据的收益,它现在也不会这么出名。当然,大多数从业者和众多学生并没有注意到数据科学到底意味着什么。

如果你理解了前文所述及的大数据的各种事实,你就应该能理解数据科学是用来应对日趋严峻的问题的解法。如我早前所说的那样,这个问题反映了大数据的4个V属性,使传统方法陷入困境的属性。由于技术发展,在未来10年,数据科学也必然会变得更加健壮完善、更加多样。已有一些研究项目在全球出现[2],也同时有许多业内知名的研究者发表关于数据科学主题的论文。这并不是巧合,它表明了基础架构知识以及如何操作的发展趋势,而这些也会滋养这个领域的发展。至于数据科学的诞生时间已经不可考了(有一些人在这个领域的研究已经超过好几十年了),但第一次在正式会议中吸引关注是1996年在IFCS发表的《数据科学、分类以及相关方法》(Data Science,Classification and Related Methods)。直到2005年,“数据科学家”这个名称才第一次出现在文章中。特别是,在文章发表的那 年[3],数据科学家被定义为“信息和数据科学家、数据库及软件工程师以及程序员、学科专家、博物馆馆长和专业注解者、图书馆管理员、档案管理员以及其他一些对成功管理数字化数据集的关键人物”。在2009年6月,数据科学家这一职务的重要性变得更加明显,正如Nathan Yau在FlowingData发表的文章《数据科学家的崛起》(Rise of the Data Scientist)一文中说的那样[4]。自此,在数据科学方面的文章和引用得以快速增长。看看现在有多少会议是以这个名义组织的,这不只发生在学术界,同样也发生在工业界。不仅如此,由于许多在各自领域处于领导者的大公司(如亚马逊)都在各自的工作流程中使用了数据科学,这个趋势很可能会持续下去。同样,由于数据科学家这个职位适合于千变万化的数据世界需求,它也正变得包含许多新特征(如前沿数据分析技术的应用),而不再是一些原始需求了。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
11天前
|
数据采集 机器学习/深度学习 数据可视化
数据科学面试准备:解决Python数据分析常见问答和挑战
【4月更文挑战第12天】本文介绍了Python数据分析面试中常见的问题和挑战,涉及Pandas、NumPy、Matplotlib等库的基础知识,以及数据预处理、探索性分析、可视化、回归分析和分类分析的方法。例如,使用Pandas处理缺失值和异常值,利用Matplotlib和Seaborn进行数据可视化,通过Scikit-learn进行回归和分类模型的构建。
|
11月前
|
机器学习/深度学习 人工智能 数据可视化
【数据科学】反思十年数据科学和可视化工具的未来
【数据科学】反思十年数据科学和可视化工具的未来
|
11月前
|
机器学习/深度学习 人工智能 算法
【数据科学】数据科学难题,怎么解释到底什么是数据科学
【数据科学】数据科学难题,怎么解释到底什么是数据科学
|
11月前
|
机器学习/深度学习 人工智能 算法
数据科学难题,怎么解释到底什么是数据科学
数据科学难题,怎么解释到底什么是数据科学
|
机器学习/深度学习 数据可视化 大数据
|
机器学习/深度学习
初入数据科学领域,你需要有七个这样的思维
当数据科学家加入一家公司的时候,做事的思想往往是最重要的!
1737 0
|
数据挖掘
如何打造数据科学团队,你想知道的都在这里
本文的两位作者分别是 Instacart 负责数据科学业务的副总裁 Jeremy Stanley,以及技术顾问、LinkedIn 前数据业务负责人 Daniel Tunkelang。
1506 0
|
人工智能
从事数据科学前必须知道的五件事儿
本文讲解了从事数据科学前应该了解的五件事情,主要是关于学习数据科学时候应该注意的一些事项。
2070 0
|
分布式计算 数据可视化 大数据

热门文章

最新文章