1. 阿里云>
  2. 云栖社区>
  3. 主题地图>
  4. S>
  5. spark 数据库 数据分析

当前主题:spark 数据库 数据分析

spark 数据库 数据分析相关的博客

查看更多 写博客

云数据库 ApsaraDB 产品总览

云数据库ApsaraDB是稳定可靠、可弹性伸缩的在线数据库服务产品总称。可轻运维全球90%以上主流开源及商业数据库(MySQL、SQL Server、Redis等),同时提供拥有6倍以上开源数据库性能、开源数据库价格的POLARDB和百TB级数据实时计算能力的HybridDB自研数据库等,更拥有容灾、备份、恢复、监控、迁移等方面的全套解决方案。

立即查看

数据湖 VS 数据仓库之争?阿里提出大数据架构新概念:湖仓一体

随着近几年数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断。有人说数据湖是下一代大数据平台,各大云厂商也在纷纷的提出自己的数据湖解决方案,一些云数仓产品也增加了和数据湖联动的特性。但是数据仓库和数据湖的区别到底是什么,是技术路线之争?是数据

阅读全文

多数据源一站式入湖

背景 数据湖作为一个集中化的数据存储仓库,支持的数据类型具有多样性,包括结构化、半结构化以及非结构化的数据,数据来源上包含数据库数据、binglog增量数据、日志数据以及已有数仓上的存量数据等.数据湖能够将这些不同来源、不同格式的数据集中存储管理在高性价比的

阅读全文

数据湖构建服务搭配Delta Lake玩转CDC实时入湖

什么是CDC Change Data Capture(CDC)用来跟踪捕获数据源的数据变化,并将这些变化同步到目标存储(如数据湖或数据仓库),用于数据备份或后续分析,同步过程可以是分钟/小时/天等粒度,也可以是实时同步。CDC方案分为侵入式(intrusiv

阅读全文

多引擎集成挖掘湖上数据价值

数据湖已经逐步走到了精细化的管理,这意味着原始的计算引擎直接读写存储的方式应当逐步演变为使用标准方式读写数据湖存储。然而“标准方式”实际上并无业界标准,与具体的计算引擎深度绑定,因此,支持计算引擎的丰富程度也就成了衡量数据湖的一个准则。 阿里云数据湖构建服务

阅读全文

数据湖元数据服务的实现和挑战

大数据引擎的现状 在大数据计算和存储领域,因不同业务场景、不同数据规模,诞生了很多适合处理不同需求的各类大数据引擎,比如计算引擎类有数据分析引擎Hive、交互式分析引擎Presto、迭代计算引擎spark以及流处理引擎Flink等,存储类有日志存储系统的SL

阅读全文

基于 Flink + Hive 构建流批一体准实时数仓

基于 Hive 的离线数仓往往是企业大数据生产系统中不可缺少的一环。Hive 数仓有很高的成熟度和稳定性,但由于它是离线的,延时很大。在一些对延时要求比较高的场景,需要另外搭建基于 Flink 的实时数仓,将链路延时降低到秒级。但是一套离线数仓加一套实时数仓

阅读全文

数据湖架构,为什么需要“湖加速”?

![image](https://yqfile.alicdn.com/2ae0e6ce7b6c39bd55ee53fe308bb8a2bbab0dd6.png) 在开源大数据领域,存储/计算分离已经成为共识和标准做法,数据湖架构成为大数据平台的首要选择。基于

阅读全文

王者荣耀背后的实时大数据平台用了什么黑科技?

大家好我是许振文,今天分享的主题是《基于 Flink+ServiceMesh 的腾讯游戏大数据服务应用实践》,内容主要分为以下四个部分: 背景和解决框架介绍 实时大数据计算 OneData 数据接口服务 OneFun 微服务化& ServiceMesh 一、

阅读全文

spark 数据库 数据分析相关问答

查看更多 提问题

云数据库十大经典案例总结和反思【精品问答集锦】

本期请来了阿里云资深DBA专家罗龙九(玄惭)直播分享了云数据库十大经典案例总结和反思 直播简介 《云数据库十大经典案例》以MySQL数据库为例,收集整理了自RDS成立至今,用户在使用RDS过程中最常见的问题,包括:索引,sql优化,锁,延迟,参数优化,

阅读全文

spark +hbase 数据仓库有什么资料可参考么?

3 个方面: 1、业务相关 2、数据同步:调度系统 3、分析:spark 引擎

阅读全文

spark streaming job运行卡住

# 问题 虚拟机中运行sparkStreaming job一段时间后,偶尔会卡住, 过一段时间就恢复, 需要定位原因解决 # 背景 1.sparkStreaming消费kafka数据, 开启反压机制, 将接收每一条kafka消息(json串)

阅读全文

直接用flume采数据到hdfs,跟flume+kafka+hdfs的区别,就是利用kafka做缓存么?没有其他好处么??

放在kafka,用spark streaming做etl或者分析

阅读全文

Graphframes / Graphx连接组件跳过数字

我正在使用Spark Graphframes库来创建身份解析系统。我已经能够使用spark找到匹配。我的计划是使用图表查找人与人之间的瞬时链接,并为他们分配一个id进行进一步分析等。 我使用了以下数据(来自公共febrl数据库): 顶点数据样本:

阅读全文

【精品问答合集】Hbase热门问答

hbase 大量写入很慢 https://yq.aliyun.com/ask/50074 发现hbase文件大规模的丢失了 https://yq.aliyun.com/ask/46584 hbase启动脚本start-hbase的疑问 htt

阅读全文