Fusion Insight大数据平台介绍-阿里云开发者社区

Fusion Insight大数据平台介绍

2018-01-16 4897

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 1. 概述华为Fusion Insight是一个分布式数据处理系统，对外提供大容量的数据存储、查询和分析能力。Fusion Insight在Hadoop集群上又封装了一层，类似于开源的CDH，HDP等大数据平台。

1. 概述

华为Fusion Insight是一个分布式数据处理系统，对外提供大容量的数据存储、查询和分析能力。Fusion Insight在Hadoop集群上又封装了一层，类似于开源的CDH，HDP等大数据平台。

2. Fusion Insight框架介绍

这里写图片描述
Fusion Insight 组成结构图

Fusion Insight解决方案由4个子产品Fusion Insight HD、Fusion Insight MPPDB、Fusion Insight Miner、Fusion Insight Farmer和1个操作运维系统Fusion Insight Manager构成。: Fusion Insight HD：企业级的大数据处理环境，是一个分布式数据处理系统，对外提供大容量的数据存储、分析查询和实时流式数据处理分析能力。
Fusion Insight MPPDB：企业级的大规模并行处理关系型数据库。Fusion Insight MPPDB采用MPP(Massive Parallel Processing)架构，支持行存储和列存储，提供PB(Petabyte，2的50次方字节)级别数据量的处理能力。
Fusion Insight Miner：企业级的数据分析平台，基于华为Fusion Insight HD的分布式存储和并行计算技术，提供从海量数据中挖掘出价值信息的平台。
Fusion Insight Farmer：企业级的大数据应用容器，为企业业务提供统一开发、运行和管理的平台。
Fusion Insight Manager：企业级大数据的操作运维系统，提供高可靠、安全、容错、易用的集群管理能力，支持大规模集群的安装部署、监控、告警、用户管理、权限管理、审计、服务管理、健康检查、问题定位、升级和补丁等功能。
这次华为搭建的平台，可以描述为Fusion Insight HD，其他的子产品后续需要使用的话，需要另外搭建。

3. Fusion Insight HD架构概述

这里写图片描述
Fusion Insight HD系统逻辑架构图

FusionInsight HD对开源组件进行封装和增强，包含Manager和众多组件，分别提供功能如下：

Manager

作为运维系统，为Fusion Insight HD提供高可靠、安全、容错、易用的集群管理能力，支持大规模集群的安装部署、监控、告警、用户管理、权限管理、审计、服务管理、健康检查、问题定位、升级和补丁等。

提供了Fusion Insight HD应用的图形化用户Web界面。Hue支持展示多种组件，目前支持HDFS、YARN、Hive和Solr。
Loader
实现Fusion Insight HD与关系型数据库、文件系统之间交换数据和文件的数据加载工具；同时提供REST API接口，供第三方调度平台调用。

Flume

一个分布式、可靠和高可用的海量日志聚合系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写入各种数据接受方（可定制）的能力。

FTP-Server

通过通用的FTP客户端、传输协议提供对HDFS文件系统进行基本的操作，例如：文件上传、文件下载、目录查看、目录创建、目录删除、文件权限修改等。

Hive

建立在Hadoop基础上的开源的数据仓库，提供类似SQL的Hive Query Language语言操作结构化数据存储服务和基本的数据分析服务。

MapReduce

提供快速并行处理大量数据的能力，是一种分布式数据处理模式和执行环境。

Streaming

提供分布式、高性能、高可靠、容错的实时计算平台，可以为海量数据提供实时处理。CQL（Continuous Query Language）提供的类SQL流处理语言，可以快速进行业务开发，缩短业务上线时间。

Spark

基于内存进行计算的分布式计算框架。

Solr

一个高性能，基于Lucene的全文检索服务器。Solr对Lucene进行了扩展，提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展，并对查询性能进行了优化，并且提供了一个完善的功能管理界面，是一款非常优秀的全文检索引擎。

Oozie

提供了对开源Hadoop组件的任务编排、执行的功能。以Java Web应用程序的形式运行在Java servlet容器（如：Tomcat）中，并使用数据库来存储工作流定义、当前运行的工作流实例（含实例的状态和变量）。

Redis

一个开源的、高性能的key-value分布式存储数据库，支持丰富的数据类型，弥补了memcached这类key-value存储的不足，满足实时的高并发需求。

Kafka

一个分布式的、分区的、多副本的实时消息发布和订阅系统。提供可扩展、高吞吐、低延迟、高可靠的消息分发服务。

YARN

资源管理系统，它是一个通用的资源模块，可以为各类应用程序进行资源管理和调度。

HDFS

Hadoop分布式文件系统（Hadoop Distributed File System），提供高吞吐量的数据访问，适合大规模数据集方面的应用。

SmallFS

提供小文件后台合并功能，能够自动发现系统中的小文件(通过文件大小阈值判断)，在闲时进行合并，并把元数据存储到本地的LevelDB中，来降低NameNode压力，同时提供新的FileSystem接口，让用户能够透明的对这些小文件进行访问。

DBService

一个具备高可靠性的传统关系型数据库，为Hive、Hue、Spark组件提供元数据存储服务。

HBase

提供海量数据存储功能，是一种构建在HDFS之上的分布式、面向列的存储系统。

ZooKeeper

提供分布式、高可用性的协调服务能力。帮助系统避免单点故障，从而建立可靠的应用程序。

相关实践学习

简单用户画像分析

本场景主要介绍基于海量日志数据进行简单用户画像分析为背景，如何通过使用DataWorks完成数据采集、加工数据、配置数据质量监控和数据可视化展现等任务。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

Fusion Insight大数据平台介绍

1. 概述

2. Fusion Insight框架介绍

3. Fusion Insight HD架构概述

热门文章

最新文章

相关电子书