1. 云栖社区>
  2. 全部标签>
  3. #数据仓库#
数据仓库

#数据仓库#

已有14人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

数据挖掘之数据准备——原始数据的特性

最初为数据挖掘准备的所有原始数据集通常很大,它们中的许多都和人有关,且比较杂乱。

云栖社区 数据存储与数据库 系统研发与运维 深度学习 大数据 数据仓库 数据分析 数据挖掘

数据挖掘——数据仓库

虽然存在数据仓库并不是数据挖掘的先决条件,但实际上,若能访问数据仓库,数据挖掘的任务就会变得容易的多。 数据仓库的主要目标是增加决策过程的“情报”和此过程的相关人员的知识。数据仓库对不同的人来说有不同的意义。

云栖社区 数据存储与数据库 系统研发与运维 深度学习 数据库 数据仓库 数据挖掘 OLAP 存储 数据存储

数据挖掘——数据挖掘过程

数据挖掘:数据挖掘是从已知数据集合中发现各种模型,概要和导出值的过程 数据挖掘是一个迭代的过程:首先研究数据,利用某个分析工具来检查数据,然后从另一个角度来考虑这些数据,根据需要修改数据,接着从头开始,应用另外一个数据分析工具得到更好的或者不同的结果。

数据存储与数据库 网络与数据通信 深度学习 数据仓库 数据分析 数据挖掘

【玩转ElasticSearch】降维打击!使用ElasticSearch作为时序数据库

本篇分享最近把ElasticSearch当作时序数据库来用的心得。• 需求需求是这样的:提供一个后台,选用户画像标签(多选),点确认后弹出“选出了xxx个用户”,再继续点就把用户dump出来、推送消息。现在要做这个后台的数据仓库层。详细分析一下需求:1. 我们的用户画像走流式计算,每秒大量更新,所以对插入/更新性能要求很高。2. 查询条件翻译成SQL就是类似 se

数据存储与数据库 算法 分布式系统与计算 性能 阿里技术协会 高可用 数据库 配置 数据仓库 node logstash 流式计算 索引 Elasticsearch

“NASA”计划背后,阿里巴巴大数据系统架构概述

DT时代,人们比以往任何时候都收集到更多的数据。据IDC报告,预计到2020年,全球数据总量将超过40ZB(相当于40万亿GB),这一数据量是2011年的22倍!正在“爆炸式”增长的数据,其潜在巨大价值有待发掘。

大数据 架构 日志 数据处理 阿里巴巴 数据仓库 流式计算 数据采集 存储 数据存储 数据管理 海量数据 数据应用

一种对数据仓库友好的数据库设计

系统可以分为两种:一种是 联机交易系统(OLTP),一种是在线分析系统(OLAP)。OLTP用来收集数据,然后把数据同步到OLAP,在OLAP中进行分析数据。 OLAP可以减少OLTP的负载,提高对数据的利用率。

数据仓库 同步 OLAP 数据同步 数据库设计

开源大数据周刊-第44期

阿里云E-MapReduce实践 E-MapReduce的HBase集群间迁移 E-MapReduce提供HBase服务,本文介绍了几种HBase集群间迁移的方法。 E-MapReduce中Spark 2.x读写MaxCompute数据 最新的aliyun-emapreduce-sdk将MaxCompute数据以DataSource的方式接入Spark 2.x,用户可以使用类似Spark 2.x中读写json/parquet/csv的方式来访问MaxCompute。

云栖社区 大数据 分布式系统与计算 性能优化 阿里云 hbase hadoop HTTPS http 数据仓库 集群 spark 开源大数据 e-mapreduce Hive

满满的技术干货!Hadoop顶级会议Apache Hadoop Summit精华讲义分享

Apache Hadoop Summit是Hadoop技术的顶级会议,这里大咖云集,一同探讨世界上最新的Hadoop发展动态以及产品应用和技术实践。本文整理了Apache Hadoop Summit Tokyo 2016上的精选演讲的讲义,无论是你想要的是Hadoop发展前沿,是Hadoop优化技

深度学习 大数据 架构 storm hdfs hadoop Apache 数据流 数据仓库 集群 云存储 spark 对象存储 Hive 高性能

【Hadoop Summit Tokyo 2016】现代化企业级数据仓库:数据湖泊

本讲义出自CHARLES SEVIOR在Hadoop Summit Tokyo 2016上的演讲,主要分享了面对企业级数据仓库向着数据量剧增、实时处理数据的需求增加以及数据分析的需求不断涌现的情况,如何定制个性化以及增强的现代化企业级数据仓库服务成为了一项巨大的挑战,而面对这样的挑战使用数据湖泊技术成为了一种新的解决方案。

hadoop 数据仓库 数据分析 解决方案 charles

SAS学习笔记之《SAS编程与数据挖掘商业案例》(2)数据获取与数据集操作

SAS学习笔记之《SAS编程与数据挖掘商业案例》(2)数据获取与数据集操作 1. SET/SET效率高,建立的主表和建表索引的查询表一般不排序, 2. BY语句,DATA步中,BY语句规定分组变量,用于控制SET,MERGE,UPDATE或MODIFY语句。 BY<DESCENDING>variable-1 <...<DESCENDI

数据仓库 排序 数据挖掘 索引 编程 PUT update input

Oracle数据仓库创建教程

Oracle数据仓库创建教程。如何创建一个数据仓库,创建实例,以为毕业设计要求,最近开始Oracle的数仓建模实践,详细记录了图形界面下的 Oracle database 12C 数据仓库创建过程。 本教程在Linux环境和Windows环境均可成功创建。 注意:不论是Linux下还是Windows下,前提是你已经正确安装了Oracle database 12C。

linux Oracle windows 数据库 配置 数据仓库 字符集 database 存储

Hive的HQL(2)

Hive基础(1) Hive的HQL(2) 1. HQL的数据定义,HQL是一种SQL方言,支持绝大部分SQL-92标准。但是和SQL的差异为:不支持行级别的操作,不支持事务等。HQL的语法接近于MySQL。 2. Hive的数据库,本质仅仅是个表的目录或者命名空间。一般用数据库将生产表组织成逻辑组。 3. Hive中的表–管理表,创建表时未指定的话为默认为管

数据仓库 ADD BY string Hive test 分区表 Create 存储

130
GO