1. 云栖社区>
  2. 全部标签>
  3. #hdfs#
hdfs

#hdfs#

已有4人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

如何在Hive中创建自定义函数UDF及如何直接通过Impala的同步元数据重用UDF的jar文件

如何在Hive中创建自定义函数UDF及使用 如何在Impala中使用Hive的自定义函数 UDF函数开发 使用Intellij工具开发Hive的UDF函数,进行编译;1.使用Intellij工具通过Maven创建一个Java工程,并添加pom.

hdfs hadoop 函数 Apache shell js 测试 同步 string Hive 数据同步 UDF Create

袋鼠云研发手记 | 数栈DTinsight:详解FlinkX中的断点续传和实时采集

数栈-离线开发平台(BatchWorks) 中的数据离线同步任务、数栈-实时开发平台(StreamWorks)中的数据实时采集任务已经统一基于FlinkX来实现。

服务器 mysql hdfs 日志 数据库 袋鼠云 同步 stream Hive 数据同步 插件 binlog 数据中台

推荐一款数据同步工具:FlinkX

FlinkX是基于flink的分布式离线数据同步框架,实现了多种异构数据源之间高效的数据迁移

hdfs hadoop 根目录 配置 集群 脚本 数据同步 插件 plugin restore 断点续传 flink 实时采集

Flink落HDFS数据按事件时间分区解决方案

0x1 摘要 Hive离线数仓中为了查询分析方便,几乎所有表都会划分分区,最为常见的是按天分区,Flink通过以下配置把数据写入HDFS, BucketingSink<Object> sink = new BucketingSink<>(path); //通过这样的方式来实现数据跨天分区 sink.

java hdfs 源码 path code 解决方案 string 分区 flink 事件时间 跨天

深入浅出:Hadoop的start-balancer.sh与hdfs balancer分布式数据均衡

Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点。当HDFS出现不平衡状况的时候,将引发很多问题,比如:1、MR程序无法很好地利用本地计算的优势2、机器之间无法达到更好的网络带宽使用率,机器磁盘无法利用等等。

分布式 hdfs hadoop 集群 node Server 磁盘 存储

hadoop日常运维白皮书

hadoop日常运维与升级总结 ▲进程管理由于配置文件的更改,需要重启生效,或者是进程自己因某种致命原因终止,或者发现进程工作出现异常等情况下,需要进行手动进程的关闭或启动,或者是增删节点过程中的需要,进程的关闭与启动,使用hadoop-daemon.

hdfs hadoop 日志 配置 集群 同步 磁盘

Hadoop机架感知(rack-aware)配置指南

Hadoop机架感知(rack-aware)配置 副本的存放策略又是HDFS实现高可靠性和搞性能的关键,优化的副本存放策略也正是HDFS区分于其他大部分分布式文件系统的重要特性。HDFS采用一种称为机架感知(rack-aware)的策略来改进数据的可靠性、可用性和网络带宽的利用率。

hdfs hadoop 性能 配置 集群 负载均衡 脚本 分布式文件系统 数据中心 带宽 磁盘

结构化大数据分析平台设计

前言  任何线上系统都离不开数据,有些数据是业务系统自身需要的,例如系统的账号,密码,页面展示的内容等。有些数据是业务系统或者用户实时产生的,例如业务系统的日志,用户浏览访问的记录,系统的购买订单,支付信息,会员的个人资料等。

云栖社区 编程语言 数据存储与数据库 分布式 大数据 Java核心技术 架构 开发框架与中间件 分布式系统与计算 hbase hdfs 数据库 big data 大数据分析

结构化大数据分析平台设计

## 前言  任何线上系统都离不开数据,有些数据是业务系统自身需要的,例如系统的账号,密码,页面展示的内容等。有些数据是业务系统或者用户实时产生的,例如业务系统的日志,用户浏览访问的记录,系统的购买订单,支付信息,会员的个人资料等。

分布式 大数据 Java核心技术 架构 分布式系统与计算 hbase hdfs 阿里技术协会 数据处理 数据库 集群 大数据分析 计算平台 分析平台

阿里巴巴飞天大数据架构体系与Hadoop生态系统

先说Hadoop 什么是Hadoop? Hadoop是一个开源、高可靠、可扩展的分布式大数据计算框架系统,主要用来解决海量数据的存储、分析、分布式资源调度等。Hadoop最大的优点就是能够提供并行计算,充分利用集群的威力进行高速运算和存储。

架构 飞天 hdfs hadoop 数据仓库 集群 google 数据节点 分布式文件系统 并行计算 Mapreduce 存储 海量数据

浅谈分布式计算的开发与实现(一)

介绍 分布式计算简单来说,是把一个大计算任务拆分成多个小计算任务分布到若干台机器上去计算,然后再进行结果汇总。 目的在于分析计算海量的数据,从雷达监测的海量历史信号中分析异常信号(外星文明),淘宝双十一实时计算各地区的消费习惯等。

云栖社区 编程语言 分布式 架构 java 消息队列 hdfs hadoop 程序员 配置 reduce 分布式计算 离线计算 容灾 Mapreduce

Apache Zepplin使用Hive Interpreter查询

1.Hadoop a).配置core-site.xml hadoop文件core-site.xml中配置信息如下,重启HDFS <property> <name>hadoop.proxyuser.

hdfs hadoop Apache 配置 JDBC xml Hive database service Interpreter Zepplin

好程序员大数据学习路线分享HDFS读流程

  1.客户端或者用户通过调用FileSystem对象的Open()方法打开需要读取的文件,这时就是HDSF分布式系统所获取的一个对象  2.FileSystem通过远程协议调用NameNode确定文件的前几个Block的位置,对于每一个block,NameNode返回一个含有Block的元数据信息,接下来DataNode按照上面定义的距离(offSet偏移量)进行排序,如果Client本身即是一个DataNode,那么就会优先从本地DataNode节点读取数据. HDFS完成上面的工作之后返回一个FSDatalnputStream给客户端,让其从FSDatalnputStream中读取。

大数据 hdfs 程序员 排序 分布式系统 存储 好程序员

好程序员大数据学习路线分享Hadoop阶段的高可用配置

  好程序员大数据学习路线分享Hadoop阶段的高可用配置,什么是Hadoop的HA机制  Ha机制即Hadoop的高可用(7*24小时不中断服务)  正式引入HA机制是从hadoop2.0开始,之前的版本中没有HA机制  hadoop-ha严格来说应该分成各个组件的HA机制——HDFS的HA、Y...

大数据 监控 服务器 hdfs hadoop 程序员 高可用 配置 脚本 存储 数据管理 好程序员

好程序员大数据学习路线分享hadoop常用四大模块文件

  好程序员大数据学习路线分享hadoop常用四大模块文件  1.1.1core-site.xml(工具模块)  包括Hadoop常用的工具类,由原来的Hadoopcore部分更名而来。主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件系统FileSystem等。

大数据 监控 服务器 hdfs hadoop 程序员 模块 数据处理 镜像 集群 数据节点 Mapreduce 存储 数据存储 好程序员

好程序员大数据学习路线Hadoop学习干货分享

  好程序员大数据学习路线Hadoop学习干货分享,Apache Hadoop 为可靠的,可扩展的分布式计算开发开源软件。 Apache Hadoop软件库是一个框架,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集(海量的数据)。

分布式 大数据 hdfs hadoop 程序员 模块 数据处理 高可用 集群 主机 容器 分布式计算 单点故障 分布式文件系统

Apache Drill 常用Plugins配置

1.kafka { "type":"kafka", "kafkaConsumerProps":{ "bootstrap.servers":"hostname1:9092,hostname2:9092,hostname3:9092", "group.

云栖社区 mysql hbase hdfs Apache 配置 drill JDBC Driver Hive type kafka OpenTSDB kudu

94
GO