1. 云栖社区>
  2. 全部标签>
  3. #hadoop#
hadoop

#hadoop#

已有14人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

数据来的太凶猛!关于2017年大数据的十大预测

数据如何变现,价值怎么挖掘?2017大数据十大趋势,兴许给你惊艳的解答~ 随着对不同类型、不同体量数据的结构化存储、批量处理以及价值挖掘需求的增多,2016年注定是大数据里程碑式的一年。

大数据 架构 hadoop 数据处理 数据库 运营 云服务 物联网 last

Optimizing Complex Data Distribution in MaxCompute

For a long time, data distribution has been an issue in the field of Big Data processing. Unfortunately, the Big Data processing systems that are popular today do not satisfactorily solve the issue.

Greenplum hadoop require Processing HASH database MaxCompute

C/C++的内存泄漏检测工具Valgrind memcheck的使用经历

Linux下的Valgrind真是利器啊(不知道Valgrind的请自觉查看参考文献(1)(2)),帮我找出了不少C++中的内存管理错误,前一阵子还在纠结为什么VS 2013下运行良好的程序到了Linux下用g++编译运行却崩溃了,给出一堆汇编代码也看不懂。

hadoop 函数 c++ 内存泄漏 malloc BY test 数据类型 数组

ES-hadoop写数据到阿里云Elasticsearch

ES-Hadoop是一个用于Elasticsearch和Hadoop进行交互的开源独立库,在Hadoop和Elasticsearch之间起到桥梁的作用,本文基于阿里云E-MapReduce和阿里云Elasticsearch,演示如何通过ES-Hadoop连通Hadoop生态系统和Elasticsearch。

大数据 hadoop e-mapreduce Elasticsearch ES-Hadoop

Hadoop项目开发笔录

1.概要 我打算分享一下,我开发Hadoop的一些心得,对于即将步入Hadoop行业的童鞋,希望我整理的这些博文对您有帮助,我打算分为以下几部分来描述。 2.步骤   注:点击链接可直接跳到指定位置 Hadoop社区版集群的搭建 hive的安装部署 sqoop的安装部署 hbase和zookeeper的安装和部署 网站日志统计案例分析与实现 hive优化笔记 红色部分已编写完成,并已发布,后面的部分目前正在整理资料中。

hadoop 项目开发 集群 Hive 编程 Twitter zookeeper

生活所迫-1元犒赏

有钱任性   如果觉得笔者的博客对您有所帮助,您可以尽您所能,小额犒赏博主。可以通过微信和支付宝赞助博主。 1.微信 2.支付宝 联系方式: 邮箱:smartloli.org@gmail.

hadoop 编程 Twitter Gmail

Hadoop项目实战-用户行为分析之应用概述(三)

1.概述   本课程的视频教程地址:《项目工程准备》   本节给大家分享的主题如下图所示:   下面我开始为大家分享今天的第三节的内容——《项目工程准备》,接下来开始分享今天的内容。 2.内容   从本节开始,我们将进入到Hadoop项目的工程准备一节学习,本节课程为大家介绍的主要知识点有一下内容,如下图所示:   首先,我给大家介绍开发Hadoop项目的IDE和相关插件的使用,其内容包含的知识点如下图所示:   在开发Hadoop项目时,我们使用的开发语言时Java,编写Java的相关代码,都是在IDE中来完成的。

java hadoop 插件

Hadoop项目实战-用户行为分析之分析与设计

1.概述   本课程的视频教程地址:《用户行为分析之分析与设计》   下面开始本教程的学习,本教程以用户行为分析案例为基础,带着大家对项目的各个指标做详细的分析,对项目的整体设计做合理的规划,让大家能通过本课程掌握Hadoop项目的分析与设计。

hadoop 日志 模块

Kafka实战-Storm Cluster

1.概述   在《Kafka实战-实时日志统计流程》一文中,谈到了Storm的相关问题,在完成实时日志统计时,我们需要用到Storm去消费Kafka Cluster中的数据,所以,这里我单独给大家分享一篇Storm Cluster的搭建部署。

编程语言 storm hadoop 线程 Apache 配置 cluster 集群 supervisor stream

Hadoop2源码分析-YARN RPC 示例介绍

1.概述   之前在《Hadoop2源码分析-RPC探索实战》一文当中介绍了Hadoop的RPC机制,今天给大家分享关于YARN的RPC的机制。下面是今天的分享目录: YARN的RPC介绍 YARN的RPC示例 截图预览   下面开始今天的内容分享。

RPC hadoop 源码 request Server string static exception class void

Hive SQL 监控系统 - Hive Falcon

1.概述   在开发工作当中,提交 Hadoop 任务,任务的运行详情,这是我们所关心的,当业务并不复杂的时候,我们可以使用 Hadoop 提供的命令工具去管理 YARN 中的任务。在编写 Hive SQL 的时候,需要在 Hive 终端,编写 SQL 语句,来观察 MapReduce 的运行情况,长此以往,感觉非常的不便。

监控 hadoop SQL 模块 Hive Mapreduce

Kafka 分区备份实战

1.概述   在 Kafka 集群中,我们可以对每个 Topic 进行一个或是多个分区,并为该 Topic 指定备份数。这部分元数据信息都是存放在 Zookeeper 上,我们可以使用 zkCli 客户端,通过 ls 和 get 命令来查看元数据信息。

java hdfs hadoop 线程 集群 负载均衡 HASH string static 多线程 Consumer class PUT list zookeeper

Apache Arrow 内存数据

1.概述   Apache Arrow 是 Apache 基金会全新孵化的一个顶级项目。它设计的目的在于作为一个跨平台的数据层,来加快大数据分析项目的运行速度。 2.内容   现在大数据处理模型很多,用户在应用大数据分析时,除了将 Hadoop 等大数据平台作为一个存储和批处理平台之外,同样也得关注系统的扩展性和性能。

python 大数据 hadoop 性能 Apache 数据处理 path 数据分析 spark drill 存储 大数据分析

HBase存储剖析与数据迁移

1.概述   HBase的存储结构和关系型数据库不一样,HBase面向半结构化数据进行存储。所以,对于结构化的SQL语言查询,HBase自身并没有接口支持。在大数据应用中,虽然也有SQL查询引擎可以查询HBase,比如Phoenix、Drill这类。

监控 hbase hadoop 线程 高可用 集群 数据迁移 数据节点 分布式存储 磁盘 zookeeper 存储 数据存储

Kylin与CDH兼容性剖析

1. 概述   Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。

java hbase hadoop Apache 配置 脚本 xml Hive 兼容性 source zookeeper kylin

Hadoop 3.x 新特性剖析系列1

1.概述   目前从Hadoop官网的Wiki来看,稳定版本已经发行到Hadoop2.9.0,最新版本为Hadoop3.1.0,查阅JIRA,社区已经着手迭代Hadoop3.2.0。那么,今天笔者就带着大家来剖析一下Hadoop3,看看它给我们带来了哪些新特性。

hdfs hadoop 磁盘 存储

Optimizing Complex Data Distribution in MaxCompute

In this article, we will provide a brief introduction to data distribution and explain some new optimization measures in Alibaba Cloud MaxCompute.

hadoop Big_data Data_storage Database_Optimization

mysql管理工具Maatkit介绍

Maatkit是不错的mysql管理工具,已经成为Percona的一部分。包含以下主要工具: 1、mk-table-checksum 检查主从表是否一致的有效工具 2、mk-table-sync 有效保证表一致的工具,不必重载从表而能够保证一致。

css mysql innodb hbase hadoop 数据库 数据仓库 同步 多线程 权限管理 replication html Blog

Redis for Big Data with Hadoop and Elk

Redis helps enterprises make sense out of data by making database scaling more convenient and cost-effective.

redis hadoop Big_data Distributed_Computing Data_Analytics

231
GO