1. 云栖社区>
  2. 全部标签>
  3. #数据仓库#
数据仓库

#数据仓库#

已有2人关注此标签

内容分类:
博客 | 问答 | 课程 |

【玩转ElasticSearch】降维打击!使用ElasticSearch作为时序数据库

本篇分享最近把ElasticSearch当作时序数据库来用的心得。• 需求需求是这样的:提供一个后台,选用户画像标签(多选),点确认后弹出“选出了xxx个用户”,再继续点就把用户dump出来、推送消息。现在要做这个后台的数据仓库层。详细分析一下需求:1. 我们的用户画像走流式计算,每秒大量更新,所以对插入/更新性能要求很高。2. 查询条件翻译成SQL就是类似 se

数据存储与数据库 算法 分布式系统与计算 性能 阿里技术协会 高可用 数据库 配置 数据仓库 node logstash 流式计算 索引 Elasticsearch

数加平台——阿里大数据OS实践

在云栖计算之旅第5期——大数据与人工智能大会上,阿里云大数据事业部数加平台技术负责人陈廷梁从数加定义、起源、愿景、价值、架构、规划六个方面分享了《数加平台——阿里大数据OS实践》。其中,他主要介绍了数加平台的演进过程和阿里大数据OS的架构。

大数据 人工智能 数据仓库 数加 数加平台

大数据打造你的变美频道——数加平台上小红唇的大数据实践

在2017在线峰会——票选最美云上大数据暨大数据技术峰会上,来自小红唇的王洋分享了数加平台上小红唇的大数据实践。他对数据仓储解决方案和搜索引擎进行了详细介绍。通过算法平台应用的基于视频元信息的回归、近义词、业务总线三个案例具体介绍了数加平台的大数据应用实践。

大数据 算法 阿里云 服务器 数据仓库 电商 数加 运营 流计算 数加平台 MaxCompute 推荐引擎

“NASA”计划背后,阿里巴巴大数据系统架构概述

DT时代,人们比以往任何时候都收集到更多的数据。据IDC报告,预计到2020年,全球数据总量将超过40ZB(相当于40万亿GB),这一数据量是2011年的22倍!正在“爆炸式”增长的数据,其潜在巨大价值有待发掘。

大数据 架构 日志 数据处理 阿里巴巴 数据仓库 流式计算 数据采集 存储 数据存储 数据管理 海量数据 数据应用

详解Hadoop系统:Hadoop架构、各部分功能及对大数据的意义

作者:51CTO。本文重点探讨Hadoop系统的组成部分,如MapReduce、HDFS、Pig、Hive、HBase、Zookeeper等,并解释各个组成部分的功能。

大数据 架构 hbase hdfs hadoop 数据仓库 云市场 Hive

一种对数据仓库友好的数据库设计

系统可以分为两种:一种是 联机交易系统(OLTP),一种是在线分析系统(OLAP)。OLTP用来收集数据,然后把数据同步到OLAP,在OLAP中进行分析数据。 OLAP可以减少OLTP的负载,提高对数据的利用率。

数据仓库 同步 OLAP 数据同步 数据库设计

开源大数据周刊-第44期

阿里云E-MapReduce实践 E-MapReduce的HBase集群间迁移 E-MapReduce提供HBase服务,本文介绍了几种HBase集群间迁移的方法。 E-MapReduce中Spark 2.x读写MaxCompute数据 最新的aliyun-emapreduce-sdk将MaxCompute数据以DataSource的方式接入Spark 2.x,用户可以使用类似Spark 2.x中读写json/parquet/csv的方式来访问MaxCompute。

云栖社区 大数据 分布式系统与计算 性能优化 阿里云 hbase hadoop HTTPS http 数据仓库 集群 spark 开源大数据 e-mapreduce Hive

PgSQL · 特性分析· JIT 在数据仓库中的应用价值

背景 近几年,分析型数据库中有项技术得到了广泛的应用。它就是 JIT(Just-in-time compilation)动态编译。还有一些相关名词 LLVM codegen 和这项技术相关。本文把这项技术做一个简单的分析,和大家分享。 一、JIT 是什么 长久以来数据仓库都是以高效的处理量数据的能力著称。随着硬件的发展,他们使用大量相关技术充分挖掘硬件的能力提高数据的吞吐量和处理效率。例如 SM

llvm 函数 性能 SQL 数据库 数据仓库 数据分析 表达式 CPU 数据类型

满满的技术干货!Hadoop顶级会议Apache Hadoop Summit精华讲义分享

Apache Hadoop Summit是Hadoop技术的顶级会议,这里大咖云集,一同探讨世界上最新的Hadoop发展动态以及产品应用和技术实践。本文整理了Apache Hadoop Summit Tokyo 2016上的精选演讲的讲义,无论是你想要的是Hadoop发展前沿,是Hadoop优化技

深度学习 大数据 架构 storm hdfs hadoop Apache 数据流 数据仓库 集群 云存储 spark 对象存储 Hive 高性能

【Hadoop Summit Tokyo 2016】现代化企业级数据仓库:数据湖泊

本讲义出自CHARLES SEVIOR在Hadoop Summit Tokyo 2016上的演讲,主要分享了面对企业级数据仓库向着数据量剧增、实时处理数据的需求增加以及数据分析的需求不断涌现的情况,如何定制个性化以及增强的现代化企业级数据仓库服务成为了一项巨大的挑战,而面对这样的挑战使用数据湖泊技术成为了一种新的解决方案。

hadoop 数据仓库 数据分析 解决方案 charles

满满的技术干货!Spark顶级会议Apache Spark Summit精华讲义分享

Apache Spark Summit是Spark技术的顶级会议,这里大咖云集,一同探讨世界上最新的Spark发展动态以及产品应用和技术实践。无论是你想要的是Spark发展前沿,是Spark优化技巧,还是技术最佳实践,统统都在这里!

云栖社区 深度学习 大数据 架构 服务器 性能 Apache 数据仓库 集群 数据分析 spark 分布式计算 物联网 流计算 流数据

SAS学习笔记之《SAS编程与数据挖掘商业案例》(2)数据获取与数据集操作

SAS学习笔记之《SAS编程与数据挖掘商业案例》(2)数据获取与数据集操作 1. SET/SET效率高,建立的主表和建表索引的查询表一般不排序, 2. BY语句,DATA步中,BY语句规定分组变量,用于控制SET,MERGE,UPDATE或MODIFY语句。 BYvariable-1

数据仓库 排序 数据挖掘 索引 编程 PUT update input

Oracle数据仓库创建教程

Oracle数据仓库创建教程。如何创建一个数据仓库,创建实例,以为毕业设计要求,最近开始Oracle的数仓建模实践,详细记录了图形界面下的 Oracle database 12C 数据仓库创建过程。 本教程在Linux环境和Windows环境均可成功创建。 注意:不论是Linux下还是Windows下,前提是你已经正确安装了Oracle database 12C。

linux Oracle windows 数据库 配置 数据仓库 字符集 database 存储

Hive的HQL(2)

Hive基础(1) Hive的HQL(2) 1. HQL的数据定义,HQL是一种SQL方言,支持绝大部分SQL-92标准。但是和SQL的差异为:不支持行级别的操作,不支持事务等。HQL的语法接近于MySQL。 2. Hive的数据库,本质仅仅是个表的目录或者命名空间。一般用数据库将生产表组织成逻辑组。 3. Hive中的表–管理表,创建表时未指定的话为默认为管

数据仓库 ADD BY string Hive test 分区表 Create 存储

数据产品经理最佳实践-数据战略规划

数据产品经理最佳实践指南,数据战略规划

大数据 互联网 数据仓库 运营 存储 数据存储

漫谈阿里大数据

目前人人都在谈大数据,谈DT时代,但是,大数据是什么,每个人都有自己的一个看法,好比盲人摸象,每个都认为自己摸到是真正的大象。我也担心我所看到的,只是大数据的冰山一角,毕竟,将引领整个人类下一次变革的大数据,不是几篇文章就能说清楚的。

大数据 算法 阿里云 hadoop 用户体验 数据仓库 数加 淘宝 分布式计算 数据应用

分析型数据库+数据传输,构建企业级实时数仓

传统的离线数据仓库,将业务数据集中进行存储后,以固定的计算逻辑定时进行ETL 和其它建模后产出报表等应用。离线数据仓库一般采用每日或每几个小时进行一次计算的方式,计算和数据的实时性均较差,业务人员无法根据自己的即时性需要获取几分钟之前的实时数据。

数据存储与数据库 大数据 架构 实时系统 数据可视化 阿里云 HTTPS 模块 数据库 高并发 数据仓库 分析型数据库 数据传输 实时计算 数仓

【Spark Summit East 2017】Spark化数据引擎

本讲义出自Rohan Sharma在Spark Summit East 2017上的演讲,主要介绍了Netflix的大数据处理生态系统以及Spark在该平台发挥的作用,并讨论了Netflix使用的数据流以及数据管道架构以及Spark如何帮助Netflix在数据处理过程中提升效率,最后还分享了一些关于使用Spark的数据仓库以及分析案例。

云栖社区 大数据 架构 HTTPS 数据处理 数据流 数据仓库 odps spark aliyun 大数据分析 MaxCompute

【Spark Summit East 2017】现代化你的数据仓库的全新“Sparkitecture”

本讲义出自Myles Collins在Spark Summit East 2017上的演讲,主要介绍了面对数据管道增速,聚合和可视化成为一个简化的,自助的方式的挑战,很多组织开始越来越多地转向求助于Spark, Hadoop, Kafka的结合,并且证明了分析型数据库Vertica等关键实现技术是优化企业级数据仓库体系结构的关键。

云栖社区 大数据 hadoop HTTPS 数据仓库 odps spark aliyun 分析型数据库 大数据分析 MaxCompute

【Spark Summit East 2017】Spark + Flashblade

本讲义出自Brian Gold在Spark Summit East 2017上的演讲,现代基础设施和应用程序会产生大量的日志和遥测数据,Pure Storage能从工程台、制造伙伴和测试站的运行的存储系统获取超过5PB第一手日志数据,演讲中介绍了Pure Storage公司从扩展数据仓库和利用Apache Spark的功能满足分析需求的过程中吸取的经验教训。

云栖社区 大数据 HTTPS 日志 Apache 基础设施 数据仓库 测试 spark aliyun 存储 大数据分析 MaxCompute

4
GO