《数据科学家修炼之道》一1.3 数据科学的诞生-阿里云开发者社区

《数据科学家修炼之道》一1.3 数据科学的诞生

2017-05-02 1473

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来异步社区《数据科学家修炼之道》一书中的第1章，第1.3节，作者：【美】Zacharias Voulgaris（弗格里斯）译者：吴文磊 , 田原责编：陈冀康，更多章节内容可以访问云栖社区“异步社区”公众号查看。

1.3 数据科学的诞生

数据科学领域起源于揭示大数据中潜在的价值，以及克服之前提及的4个V的挑战。这在过去是可以通过组合先进的现代计算设备达到的。特别地，并行计算、复杂数据分析流程（主要是通过机器学习）以及低成本的强劲计算能力使这种需求变成可能。此外，在不远的将来，不断加快的IT基础架构以及技术进步将使我们可以产生、收集以及处理更多的数据。通过这些，数据科学可以凭借智能化应用以及发展和使用这些技术的创新能力在技术层面上处理大数据难题。这也就是说，大数据在一定程度上是可以被管理并至少能够提供一些有价值的信息，而这则是大数据是值得花时间精力投入进去的原因。

认识到数据科学并不是一种时尚是很重要的，而是在未来会得到迅速发展的领域。如果你曾是互联网时代的一个IT专家，你可能会觉得大数据仅仅是一个风潮或是一个奢侈品，但那些真正发现大数据的真实和潜在价值的人是可以从中发现其盈利的可能的。

想象一下成为第一批学习HTML、CSS和JavaScript的人，或者是第一个制作数字图像用于网站设计的人。这就像拿着一张得奖的彩券，尤其是如果你对自己的工作非常在行的话。这就是今天的数据科学。如果没有那么多人分享大数据的收益，它现在也不会这么出名。当然，大多数从业者和众多学生并没有注意到数据科学到底意味着什么。

如果你理解了前文所述及的大数据的各种事实，你就应该能理解数据科学是用来应对日趋严峻的问题的解法。如我早前所说的那样，这个问题反映了大数据的4个V属性，使传统方法陷入困境的属性。由于技术发展，在未来10年，数据科学也必然会变得更加健壮完善、更加多样。已有一些研究项目在全球出现[2]，也同时有许多业内知名的研究者发表关于数据科学主题的论文。这并不是巧合，它表明了基础架构知识以及如何操作的发展趋势，而这些也会滋养这个领域的发展。至于数据科学的诞生时间已经不可考了（有一些人在这个领域的研究已经超过好几十年了），但第一次在正式会议中吸引关注是1996年在IFCS发表的《数据科学、分类以及相关方法》（Data Science，Classification and Related Methods）。直到2005年，“数据科学家”这个名称才第一次出现在文章中。特别是，在文章发表的那年[3]，数据科学家被定义为“信息和数据科学家、数据库及软件工程师以及程序员、学科专家、博物馆馆长和专业注解者、图书馆管理员、档案管理员以及其他一些对成功管理数字化数据集的关键人物”。在2009年6月，数据科学家这一职务的重要性变得更加明显，正如Nathan Yau在FlowingData发表的文章《数据科学家的崛起》（Rise of the Data Scientist）一文中说的那样[4]。自此，在数据科学方面的文章和引用得以快速增长。看看现在有多少会议是以这个名义组织的，这不只发生在学术界，同样也发生在工业界。不仅如此，由于许多在各自领域处于领导者的大公司（如亚马逊）都在各自的工作流程中使用了数据科学，这个趋势很可能会持续下去。同样，由于数据科学家这个职位适合于千变万化的数据世界需求，它也正变得包含许多新特征（如前沿数据分析技术的应用），而不再是一些原始需求了。

相关实践学习

简单用户画像分析

本场景主要介绍基于海量日志数据进行简单用户画像分析为背景，如何通过使用DataWorks完成数据采集、加工数据、配置数据质量监控和数据可视化展现等任务。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

《数据科学家修炼之道》一1.3 数据科学的诞生

1.3 数据科学的诞生

热门文章

最新文章

相关课程

相关电子书

相关实验场景