1. 云栖社区>
  2. 全部标签>
  3. #hdfs#
hdfs

#hdfs#

已有4人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

Apache Drill 常用Plugins配置

1.kafka { "type":"kafka", "kafkaConsumerProps":{ "bootstrap.servers":"hostname1:9092,hostname2:9092,hostname3:9092", "group.

云栖社区 mysql hbase hdfs Apache 配置 drill JDBC Driver Hive type kafka OpenTSDB kudu

Apache HBase常用命令

一.简述 Apache HBase是基于Apache Hadoop的面向列的NoSQL数据库,是Google的BigTable的开源实现。HBase是一个针对半结构化数据的开源的、多版本的、可伸缩的、高可靠的、高性能的、分布式的和面向列的动态模式数据库。

hbase hdfs hadoop Apache 分布式文件系统 数据结构 Mapreduce 存储 数据类型 常用命令 Aapache

好程序员大数据学习路线分享分布式文件系统HDFS

好程序员大数据学习路线分享分布式文件系统HDFS,设计目标: 1、存储量大 2、自动快速检测应对硬件错误 3、流式访问数据 4、移动计算比移动数据本身更划算 5、简单一致性模型 6、异构平台可移植 特点 优点: 高可靠性:Hadoop按位存储和处理数据的能力强高扩展性:hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中高效性:hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快高容错性:hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

大数据 hdfs hadoop 程序员 path 镜像 集群 string 数据节点 分布式文件系统 存储

大数据学习路线分享MAPREDUCE

  大数据学习路线分享MAPREDUCE,需求:统计大量的文本文件中的单词出现的次数 1)整个运算需要分阶段 阶段一:并行局部运算 阶段二 :汇总处理,不同的阶段需要开发不同的程序 2)阶段之间的调用 3)业务程序(task程序)如何并发到集群并启动程序 4)如何监控task程序的运行状...

大数据 hdfs 数据处理 reduce Mapreduce 数据类型 Map 好程序员

Spark问答合集及解决方法

Spark问答合集及解决方法,转自阿里云开发者问答,大家有问题可以移步阿里云问答模块:https://developer.aliyun.com/ask/ 如何使用spark将kafka主题中的writeStream数据写入hdfs?https://yq.

大数据 hdfs 函数 Json 模块 集群 问答 控制台 spark aliyun DataFrame ask stream Hive

Flink在大规模状态数据集下的checkpoint调优

5万人关注的大数据成神之路,不来了解一下吗?5万人关注的大数据成神之路,真的不来了解一下吗?5万人关注的大数据成神之路,确定真的不来了解一下吗? 欢迎您关注《大数据成神之路》 今天接到一个同学的反馈问题,大概是: Flink程序运行一段时间就会报这个错误,定位好多天都没有定位到。

大数据 java hdfs hadoop Apache runtime Server 存储 flink

菜鸟的Hadoop快速入门

一、相关概念 1、大数据 大数据是一门概念,也是一门技术,是以Hadoop为代表的大数据平台框架上进行各种数据分析的技术。 大数据包括了以Hadoop和Spark为代表的基础大数据框架,还包括实时数据处理,离线数据处理,数据分析,数据挖掘和用机器算法进行预测分析等技术。

大数据 服务器 hdfs hadoop 高可用 配置 集群 分布式计算 磁盘 Mapreduce 存储

Dremio案例_HDFS文件数据分析

1.上传数据文件 ## put execl to hdfs hdfs dfs -put test.xlxs /home/bigdata/dremio/ 2.配置HDFS数据源 a).选择 b).配置 c).

大数据 hdfs 配置 测试 odbc PUT 可视化 Tableau dremio

Hadoop生态系统

Hadoop生态系统 首先我们先了解一下Hadoop的起源。然后介绍一些关于Hadoop生态系统中的具体工具的使用方法。

分布式 hbase hdfs hadoop 数据库 数据仓库 集群 数据挖掘 分布式计算 google 分布式文件系统 Hive 离线分析 zookeeper Mapreduce

Hadoop生态基础学习总结

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/a724888/article/details/80956973 这位大侠,这是我的公众号:程序员江湖。

分布式 storm hbase hdfs hadoop 高可用 集群 spark supervisor zookeeper Mapreduce 存储

Apache Flink 零基础入门(二):开发环境搭建和应用的配置、部署及运行

本文主要面向于初次接触 Flink、或者对 Flink 有了解但是没有实际操作过的同学。希望帮助大家更顺利地上手使用 Flink,并着手相关开发调试工作。 课程内容包括: - Flink 开发环境的部署和配置 - 运行 Flink 应用(包括:单机 Standalone 模式、多机 S.

hdfs Apache 数据处理 配置 集群 开发环境 zookeeper 流计算 实时计算 apache_flink;

玩转阿里云EMR三部曲-入门篇

优异的自动化创建集群让小伙伴可以专心于业务开发,不再纠结于hadoop版本,spark版本,甚至某些jar版本引发的各种奇怪问题,按需集群按小时计费模式替小伙伴们极大节省了开支,可以50个节点执行1小时,也可以3个节点执行5小时,非常灵活。

nginx 编程语言 系统研发与运维 移动开发与客户端 网络与数据通信 大数据 架构 OSS hdfs hadoop 公共云 配置 spark EMR

HDFS Federation简介

背景 熟悉大数据的人应该都知道,HDFS 是一个分布式文件系统,它是基于谷歌的 GFS 思路实现的开源系统,它的设计目的就是提供一个高度容错性和高吞吐量的海量数据存储解决方案。在经典的 HDFS 架构中有2个 NameNode 和多个 DataNode 的,如下: 从上面可以看出 HDFS 的架构其实大致可以分为两层: Namespace:由目录,文件和数据块组成,支持常见的文件系统操作,例如创建,删除,修改和列出文件和目录。

大数据 架构 hdfs hadoop 高可用 配置 集群 Image 存储 路由器

Hadoop学习(2)-java客户端操作hdfs及secondarynode作用

Hadoop学习(2)-java客户端操作hdfs及secondarynode作用首先要在windows下解压一个windows版本的hadoop 然后在配置他的环境变量,同时要把hadoop的share目录下的hadoop下的相关jar包拷贝到esclipe 然后Build Path 下面上代码 复制代码import java.

java hdfs hadoop 日志 Apache path 配置 string exception class void test file read

浅析HDFS架构和设计

作者 | 大尊 hdfs是hadoop的分布式文件系统,即Hadoop Distributed Filesystem。下面主要讲下HDFS设计中的比较重要的点,使读者能通过简短的文章一窥HDFS的全貌,适合对HDFS有一点了解,但是对HDFS又感到困惑的初学者。

大数据 安全 架构 hdfs 日志 配置 集群 磁盘 存储

通过Spark SQL实时归档SLS数据

流式计算和SQL 简要介绍Spark SQL流式开发语法 实时归档SLS数据到HDFS

云栖社区 数据存储与数据库 系统研发与运维 网络与数据通信 hdfs SQL SLS 配置 spark 流式计算 离线分析 schema Create

通过Spark SQL实时归档SLS数据

我在前一篇文章介绍过基于Spark SQL实现对HDFS操作的实时监控报警。今天,我再举例说明一下如何使用Spark SQL进行流式应用的开发。

大数据 hdfs SQL SLS 配置 spark 流式计算 分布式计算 离线分析 schema Create 实时数仓

93
GO