1. 云栖社区>
  2. 全部标签>
  3. #hadoop#
hadoop

#hadoop#

已有18人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

【云栖号案例 | 游戏&娱乐】混合云模式下 MaxCompute + Hadoop 混搭大数据架构实践

【云栖号案例 | 游戏&娱乐】混合云模式下 MaxCompute + Hadoop 混搭大数据架构实践

大数据 安全 架构 hadoop 集群 数据安全 Image 数据同步 自建机房 数据中心 MaxCompute

Apache Kylin 云原生架构的思考及规划

在 1 月 4 号 ECUG 技术大会的分享中,Kyligence 的 CEO Luke Han 为大家带来了主题为《Apache Kylin 云原生架构的思考及规划》的精彩演讲,分享了 Kylin 如何拥抱云原生这一趋势。以下为演讲实录。

分布式 架构 hbase hadoop Apache Image spark Mapreduce 存储 kylin

浅析Hive/Spark SQL读文件时的输入任务划分

本文最后留个思考题给读者们:如何设置参数彻底关闭Spark SQL data source表的文件合并? 积极回答问题即可获得社区礼物。

大数据 hadoop SQL spark scala 开源大数据 Hive file

浅析Hive/Spark SQL读文件时的输入任务划分

Hive以及Spark SQL等大数据计算引擎为我们操作存储在HDFS上结构化数据提供了易于上手的SQL接口,大大降低了ETL等操作的门槛,也因此在实际生产中有着广泛的应用。SQL是非过程化语言,我们写SQL的时候并不能控制具体的执行过程,它们依赖执行引擎决定。

大数据 hadoop SQL 开源 spark scala EMR Hive file big data sparksql

EMR弹性低成本离线大数据分析

布式计算框架系统分别为Hadoop、Spark和Storm, Hadoop可以运用在很多商业应用系统,可以轻松集成结构化、半结构化以及非结构化数据集,Spark采用了内存计算,允许数据载入内存作反复查询,融合数据仓库、流处理和图形计算等多种计算范式,Spark能够与Hadoop 很好地结合,Storm用于处理高速、大型数据流的分布式实时计算系用,为Hadoop添加可靠的实时数据处理能力。

分布式 storm hadoop 数据处理 数据流 数据仓库 系统环境 电商 Image 弹性伸缩 spark 对象存储 e-mapreduce EMR 大数据分析

自建 Hadoop 数据迁移到阿里云EMR集群

客户在 IDC 或者公有云环境自建 Hadoop 集群,数据集中保存在 HDFS文件系统用于数据分析任务。客户在决定上云之后,会将自建 Hadoop 集群的数据迁移到阿里云自建 Hadoop 集群或者 EMR 集群。本实践方案提供安全和低成本的 HDFS 数据迁移方案。

安全 hdfs hadoop 云服务器 集群 vpn Image 数据迁移 数据分析 对象存储 e-mapreduce EMR 公共云

自建 ElasticSearch 迁移阿里云

以 ElasticSearch 为例,演示搭建模拟业务系统、VPN 网关和 IPSec VPN 隧道,介绍如何通备份到阿里云 OSS 存储空间,以及介绍如果将备份在 OSS 的快照仓库恢复到阿里云 ElasticSearch 实例,进一步达到 ElasticSearch 迁移上云的目的。

安全 hadoop 云服务器 集群 Image 数据迁移 数据分析 对象存储 e-mapreduce EMR Elasticsearch 公共云

大神如何一招完美解决Hadoop集群无法正常关闭的问题!

相信对于大部分的大数据初学者来说,一定遇见过Hadoop集群无法正常关闭的情况。有时候当我们更改了Hadoop内组件的配置文件后,必须要通过重启集群来使配置文件生效。

大数据 hadoop 配置 集群 Image aliyun 脚本

环形缓冲区-Hadoop Shuffle过程中的利器

环形队列广泛用于网络数据收发,和不同程序间数据交换(比如内核与应用程序大量交换数据,从硬件接收大量数据)均使用了环形队列。

hadoop 排序 metadata 磁盘 存储 数组

MaxCompute 搬站的原理、实践以及常见问题

本文主要介绍了Hadoop到MaxCompute数据迁移的多种方式及其原理和适用场景,并着重介绍了使用MaxCompute Migrate Assist (MMA)进行数据迁移时的常见问题及解法。

大数据 java hdfs hadoop SQL Apache 配置 集群 Hive 带宽 Mapreduce MaxCompute

面对业务增长,Uber是如何扩展HDFS文件系统的

Uber将基于Hadoop的批量和流式分析应用在了广泛的场景中,例如反作弊、机器学习和ETA计算等。随着过去几年的业务增长,Uber的数据容量和访问负载也呈现了指数级增长的趋势。同时保证系统扩展能力和高性能并不是一件容易的事情,本文将详细介绍,Uber是如何通过这些改进措施来保证存储系统的持续增长、稳定和可靠的。

hdfs hadoop 性能 基础设施 集群 Image 存储

大数据总纲 | 大数据方向学习面试知识图谱

愿读到这篇文章的技术人早日明白并且脱离技术本身,早登彼岸。一切技术最终只是雕虫小技。 大纲 本系列主题是大数据开发面试指南,旨在为大家提供一个大数据学习的基本路线,完善数据开发的技术栈,以及我们面试一个大数据开发岗位的时候,哪些东西是重点考察的,这些公司更希望面试者具备哪些技能。

云栖社区 分布式 大数据 架构 算法 java hbase hadoop SQL 线程 集群 消息中间件 spark Hive 知识图谱

案例详解|大数据上云助力新零售企业数智化转型,挖掘数据的价值

传统大卖场发展面临全新的挑战,本案例详细介绍在这个时代的拐点,零售企业如何借助大数据上云实现企业运营数智化转型,提升精细化运营能力,最终实现业务创新。

大数据 hadoop 数据处理 集群 数据迁移 数据分析 数加 aliyun 解决方案 Hive MaxCompute 上云 新零售 大数据上云 数智转型

为什么说Java仍将是未来的主导语言?

Java 是一门通用型编程语言,由 Sun 微系统公司(后被甲骨文收购)于 1995 年推出。尽管 Java 已经 25 岁了,但仍然“宝刀未老”。

编程语言 分布式 大数据 java storm hadoop Apache web 测试 Image spark

来!PyFlink 作业的多种部署模式

关于 PyFlink 的博客我们曾介绍过 PyFlink 的功能开发,比如,如何使用各种算子(Join/Window/AGG etc.),如何使用各种 Connector(Kafka, CSV, Socket etc.),还有一些实际的案例。

python 大数据 docker hadoop Apache 数据处理 集群 容器 流计算 flink 实时计算

如何将数据仓库从 AWS Redshift 迁移到阿里云 AnalyticDB for PostgreSQL

阿里云AnalyticDB for PosgreSQL与 AWS Redshift 均为采用PosgreSQL内核的MPP架构数据仓库服务,语法高度兼容一致。本文介绍两者的差异比较,以及如何从AWS Redshift迁移应用和数据到阿里云 ADB for PG。

hadoop 数据仓库 云存储 数据迁移 Redshift 存储过程 adb 存储 AWS MaxCompute AnalyticDB

2020年不可不知的十大大数据技术

数字时代最先进的技术之一就是大数据技术。大数据不是一个流行的术语,而是用来描述规模庞大、随时间急剧变大的数据集合的术语。这意味着该数据很庞大,传统管理工具都无法分析、存储或处理它。

深度学习 大数据 NOSQL hadoop Apache 数据库 人工智能 数据仓库 Image 解决方案 存储 数据存储 大数据分析

秒级启动万个容器,探秘阿里云容器镜像加速黑科技| 1月9号云栖号夜读

阿里云容器与存储团队展开合作,利用DADI加速器支持镜像按需读取和P2P分发,实现3.01秒启动10000个容器,完美杜绝容器冷启动的数分钟漫长等待,以及镜像仓库大规模并行分发场景下的网络拥堵。年关将至,各种年货节、秒杀商品、倒计时直播即将纷至沓来。

云栖社区 编程语言 数据存储与数据库 大数据 安全 算法 开发框架与中间件 java 服务器 hadoop 公共云 镜像 数据仓库 集群 容器

287
GO