《大数据系统构建：可扩展实时数据系统构建原理与最佳实践》一1.8　技术上的最新趋势-阿里云开发者社区

《大数据系统构建：可扩展实时数据系统构建原理与最佳实践》一1.8　技术上的最新趋势

2017-05-02 1626

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章出版社《大数据系统构建：可扩展实时数据系统构建原理与最佳实践》一书中的第1章，第1.8节，南森·马茨（Nathan Marz） [美]　詹姆斯·沃伦（JamesWarren）　著马延辉　向　磊　魏东琦　译，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.8　技术上的最新趋势

理解本书中所使用的工具的背景是很有帮助的。技术上的众多趋势深深影响着构建大数据系统的方式。

1.8.1　CPU并不是越来越快

人们已经开始意识到单个CPU运行速度的物理限制。这意味着，如果想扩展到更多的数据，你必须能够并行化计算。
这导致了无共享的并行算法及其相应系统的增加，比如MapReduce。不是只通过购买更好的机器进行扩展（这被称为垂直扩展），而是通过添加更多的机器进行扩展（这被称为水平扩展）。

1.8.2　弹性云

技术上的另一个趋势是弹性云在不断崛起，弹性云又称为基础设施即服务（Infrastructure as a Service，IaaS）。Amazon Web Services（AWS）的基础设施就是最著名的弹性云。弹性云允许你根据需求租用硬件，而不是在自己的场地中拥有自己的硬件。弹性云几乎可以瞬间让你增加或减小集群的大小，所以如果要运行一个大的作业，你就可以临时地分配硬件。
弹性云大大简化了系统管理。它们还提供额外的存储和硬件分配选项，可以显著降低基础设施的价格。例如，AWS有一个被称为现买现卖（Spot Instances）的特性，即你对实例进行投标而不是支付固定的价格。如果有人出价比你更高，你就会失去该实例。因为现买现卖特性可以随时消失，所以它们往往是明显低于正常价格的实例。如MapReduce的分布式计算系统，由于在软件层处理容错性，因此它们是很好的选择。

1.8.3　大数据充满活力的开源生态系统

在过去的几年里，开源社区创造了数量庞大的大数据技术。本书中所授的所有技术都是开源且免费使用的。
你将学习五类开源项目。记住，这不是一本调研书—其目的不是只教一堆技术。你将学习基本原则，以便能够评估和选择适合自身需求的工具。
批处理计算系统—批处理计算系统是高吞吐量、高延迟的系统。批处理计算系统几乎可以做任意计算，但是它们可能需要几小时或几天。本书唯一使用的批处理计算系统是Hadoop。Hadoop项目有两个子项目：Hadoop分布式文件系统（Hadoop Distributed File System, HDFS）和Hadoop MapReduce。HDFS是分布式的、容错的存储系统，可以扩展到PB级别的数据。MapReduce是一个集成了HDFS、水平可扩展的计算框架。
序列化框架—序列化框架为不同语言间使用的对象提供了工具和库。它们可以将任何语言的对象序列化为一个字节数组，然后将字节数组反序列化成任何语言的对象。序列化框架提供了一种模式定义语言（Schema Definition Language）来定义对象和对象的字段，它们为安全地版本化对象提供了机制，这样不用使现有对象无效就可以形成模式。三个著名的序列化框架是Thrift、Protocol Buffers和Avro。
随机访问NoSQL数据库—在过去的几年里，已经创建了大量的NoSQL数据库。如Cassandra、HBase、MongoDB、Voldemort、Riak、CouchDB等，完全理解它们是比较困难的。这些数据库都有一个共同点：它们牺牲SQL的完整表达，而专注于某些特定类型的操作。它们都有不同的语义，且用于特定的目的。它们不是作为任意的数据仓库被使用的。在很多方面，选择使用NoSQL数据库，就像在程序中，在散列映射（Hash Map）、排序映射（Sorted Map）、链表（Linked List）或者向量（Vector）之间选择使用数据结构一样。你事先要知道自己想做什么，然后恰当地进行选择。Cassandra将被用作我们构建的示例应用程序的一部分。
消息/队列系统—消息/队列系统提供了一种方法，以容错和异步的方式在进程之间发送和使用消息。消息队列是进行实时处理的一个关键组件。本书将使用的是ApacheKafka。
实时计算系统—实时计算系统是高吞吐量、低延迟、流处理的系统。它们无法进行批处理系统计算范围内的计算，但它们处理消息非常迅速。本书将使用的是Storm。Storm拓扑很容易编写和扩展。
随着这些开源项目的成熟，与之相关的企业已经成形并能提供企业级的支持，例如，Cloudera提供Hadoop支持，DataStax提供Cassandra支持，其他项目都是公司产品，例如，Riak是Basho科技的产品，MongoDB是10gen的产品，RabbitMQ是SpringSource的产品—它是VMWare的一个部门。

相关实践学习

简单用户画像分析

本场景主要介绍基于海量日志数据进行简单用户画像分析为背景，如何通过使用DataWorks完成数据采集、加工数据、配置数据质量监控和数据可视化展现等任务。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

《大数据系统构建：可扩展实时数据系统构建原理与最佳实践》一1.8　技术上的最新趋势

1.8　技术上的最新趋势

1.8.1　CPU并不是越来越快

1.8.2　弹性云

1.8.3　大数据充满活力的开源生态系统

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

《大数据系统构建：可扩展实时数据系统构建原理与最佳实践》一1.8 技术上的最新趋势

1.8 技术上的最新趋势

1.8.1 CPU并不是越来越快

1.8.2 弹性云

1.8.3 大数据充满活力的开源生态系统

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

《大数据系统构建：可扩展实时数据系统构建原理与最佳实践》一1.8　技术上的最新趋势

1.8　技术上的最新趋势

1.8.1　CPU并不是越来越快

1.8.2　弹性云

1.8.3　大数据充满活力的开源生态系统