1. 云栖社区>
  2. 全部标签>
  3. #hdfs#
hdfs

#hdfs#

已有4人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

通过Spark SQL实时归档SLS数据

流式计算和SQL 简要介绍Spark SQL流式开发语法 实时归档SLS数据到HDFS

云栖社区 数据存储与数据库 系统研发与运维 网络与数据通信 hdfs SQL SLS 配置 spark 流式计算 离线分析 schema Create

通过Spark SQL实时归档SLS数据

我在前一篇文章介绍过基于Spark SQL实现对HDFS操作的实时监控报警。今天,我再举例说明一下如何使用Spark SQL进行流式应用的开发。

大数据 hdfs SQL SLS 配置 spark 流式计算 分布式计算 离线分析 schema Create 实时数仓

EMR学习笔记(1)HDFS

对比开源HDFS,介绍说明EMR集群的HDFS组件基本架构部署情况。并演示远程登录主、从节点,进行基本运维,服务启停等操作。

hdfs hadoop 集群 SSH 主机 Core EMR

基于Spark SQL实现对HDFS操作的实时监控报警

E-MapReduce计划从EMR-3.18.1版本开始提供Spark Streaming SQL的预览版功能。Spark Streaming SQL是在Spark Structured Streaming的基础上做了进一步封装,方便用户使用SQL语言进行Spark流式分析开发。

大数据 分布式系统与计算 hdfs SQL Apache qps spark IP string schema type 开源计算

Impala——2.架构

标签(空格分隔): Impala Impala Server的组件 Impala服务器是分布式,大规模并行处理(MPP)数据库引擎。它由不同的在群集中的特定主机上运行的守护程序进程组成。 Impala守护进程 核心Impala组件是一个守护进程,它通过impalad进程在集群的每个DataNode上运行。

大数据 架构 hdfs hadoop 函数 SQL 高可用 数据库 数据仓库 集群 主机 负载均衡 JDBC Hive odbc

大数据平台解决方案,Hadoop + HDFS+Hive+Hbase大数据开发整体架构设计

HDFS:分布式、高度容错性文件系统,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用,大规模的波若大数据平台(BR-odp)用户部署上1000台的HDFS集群。

分布式 大数据 架构 hbase hdfs hadoop 数据库 数据仓库 解决方案 Hive 分布式数据采集 湖北Hadoop Hadoop大数据 大数据平台解决方案 分布式文件系统HDFS

Impala——1.概述

标签(空格分隔): Impala Impala是什么 官方论文 Impala对存储在HDFS,HBase的Apache Hadoop数据和存储在Amazon S3上的数据提供快速,交互式的SQL查询。

分布式 大数据 hbase hdfs hadoop SQL Apache 数据库 集群 JDBC Hive odbc 并行查询 Mapreduce 存储

大数据分享:Hbase精解

大数据培训技术分享:Hbase精解,为什么有hbase?hbase是什么?Hbase的架构。   一、 为什么有hbase?   数据量越来越大,传统的关系型数据库不能满足存储和查询的需求。而hive虽然能满足存储的要求,但是hive不能满足非结构化、半结构化数据的存储和查询。

分布式 大数据 hbase hdfs hadoop 高可用 配置 负载均衡 bloomfilter PUT Create zookeeper 存储

大数据入门干货

  首先,提及大数据一词的概念。大数据本质还在于数据,但是它有着新的特征亮点。包括:数据来源广,数据格式多样化(结构化数据、非结构化数据、Excel文件、文本文件等)、数据量大(最少也是TB级别的、甚至可能是PB级别)、数据增长速度快等等。

python 分布式 大数据 架构 storm hdfs 集群 spark 流式计算 数据采集 Mapreduce 存储 数据存储

【从入门到放弃-Hadoop】Hadoop基础学习

前言 目前人工智能和大数据火热,使用的场景也越来越广,日常开发中前端同学也逐渐接触了更多与大数据相关的开发需求。因此对大数据知识也有必要进行一些学习理解 基础概念 大数据的本质 一、数据的存储:分布式文件系统(分布式存储)二、数据的计算:分部署计算 基础知识 学习大数据需要具备Java知识基础及L.

分布式系统与计算 java hbase hdfs hadoop 数据库 配置 reduce Image spark 流式计算 分布式文件系统 Mapreduce

解析-hadoop五大节点

1.NameNode(管理节点)    Namenode 管理着文件系统的命令空间(Namespace)。它维护着文件系统树以及文件树中所有的文件和文件夹的元数据(metadata),元数据包括编辑日志(edits)和镜像文件。

大数据 监控 服务器 hdfs hadoop 日志 镜像 集群 容器 应用管理 数据节点 存储

基于阿里云HBase产品的游戏大数据实践

本文介绍了厦门点触科技股份有限公司使用阿里云HBase建立游戏大数据平台的实践。

数据存储与数据库 大数据 架构 hbase hdfs 日志 高可用 数据流 集群 数据分析 弹性伸缩 spark 高性能 存储 数据存储

开源-开源公司-Apache

Apache开源软件一览: 1.Hadoop Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。

分布式 hdfs hadoop Apache 数据处理 集群 数据分析 spark scala 分布式文件系统 查询优化 Mapreduce github

92
GO