1. 云栖社区>
  2. 全部标签>
  3. #数据仓库#
数据仓库

#数据仓库#

已有14人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

数据挖掘——数据挖掘过程

数据挖掘:数据挖掘是从已知数据集合中发现各种模型,概要和导出值的过程 数据挖掘是一个迭代的过程:首先研究数据,利用某个分析工具来检查数据,然后从另一个角度来考虑这些数据,根据需要修改数据,接着从头开始,应用另外一个数据分析工具得到更好的或者不同的结果。

数据存储与数据库 网络与数据通信 深度学习 数据仓库 数据分析 数据挖掘

【玩转ElasticSearch】降维打击!使用ElasticSearch作为时序数据库

本篇分享最近把ElasticSearch当作时序数据库来用的心得。• 需求需求是这样的:提供一个后台,选用户画像标签(多选),点确认后弹出“选出了xxx个用户”,再继续点就把用户dump出来、推送消息。现在要做这个后台的数据仓库层。详细分析一下需求:1. 我们的用户画像走流式计算,每秒大量更新,所以对插入/更新性能要求很高。2. 查询条件翻译成SQL就是类似 se

数据存储与数据库 算法 分布式系统与计算 性能 阿里技术协会 高可用 数据库 配置 数据仓库 node logstash 流式计算 索引 Elasticsearch

大数据打造你的变美频道——数加平台上小红唇的大数据实践

在2017在线峰会——票选最美云上大数据暨大数据技术峰会上,来自小红唇的王洋分享了数加平台上小红唇的大数据实践。他对数据仓储解决方案和搜索引擎进行了详细介绍。通过算法平台应用的基于视频元信息的回归、近义词、业务总线三个案例具体介绍了数加平台的大数据应用实践。

大数据 算法 阿里云 服务器 数据仓库 电商 数加 运营 流计算 数加平台 MaxCompute 推荐引擎

“NASA”计划背后,阿里巴巴大数据系统架构概述

DT时代,人们比以往任何时候都收集到更多的数据。据IDC报告,预计到2020年,全球数据总量将超过40ZB(相当于40万亿GB),这一数据量是2011年的22倍!正在“爆炸式”增长的数据,其潜在巨大价值有待发掘。

大数据 架构 日志 数据处理 阿里巴巴 数据仓库 流式计算 数据采集 存储 数据存储 数据管理 海量数据 数据应用

一种对数据仓库友好的数据库设计

系统可以分为两种:一种是 联机交易系统(OLTP),一种是在线分析系统(OLAP)。OLTP用来收集数据,然后把数据同步到OLAP,在OLAP中进行分析数据。 OLAP可以减少OLTP的负载,提高对数据的利用率。

数据仓库 同步 OLAP 数据同步 数据库设计

开源大数据周刊-第44期

阿里云E-MapReduce实践 E-MapReduce的HBase集群间迁移 E-MapReduce提供HBase服务,本文介绍了几种HBase集群间迁移的方法。 E-MapReduce中Spark 2.x读写MaxCompute数据 最新的aliyun-emapreduce-sdk将MaxCompute数据以DataSource的方式接入Spark 2.x,用户可以使用类似Spark 2.x中读写json/parquet/csv的方式来访问MaxCompute。

云栖社区 大数据 分布式系统与计算 性能优化 阿里云 hbase hadoop HTTPS http 数据仓库 集群 spark 开源大数据 e-mapreduce Hive

满满的技术干货!Hadoop顶级会议Apache Hadoop Summit精华讲义分享

Apache Hadoop Summit是Hadoop技术的顶级会议,这里大咖云集,一同探讨世界上最新的Hadoop发展动态以及产品应用和技术实践。本文整理了Apache Hadoop Summit Tokyo 2016上的精选演讲的讲义,无论是你想要的是Hadoop发展前沿,是Hadoop优化技

深度学习 大数据 架构 storm hdfs hadoop Apache 数据流 数据仓库 集群 云存储 spark 对象存储 Hive 高性能

【Hadoop Summit Tokyo 2016】现代化企业级数据仓库:数据湖泊

本讲义出自CHARLES SEVIOR在Hadoop Summit Tokyo 2016上的演讲,主要分享了面对企业级数据仓库向着数据量剧增、实时处理数据的需求增加以及数据分析的需求不断涌现的情况,如何定制个性化以及增强的现代化企业级数据仓库服务成为了一项巨大的挑战,而面对这样的挑战使用数据湖泊技术成为了一种新的解决方案。

hadoop 数据仓库 数据分析 解决方案 charles

SAS学习笔记之《SAS编程与数据挖掘商业案例》(2)数据获取与数据集操作

SAS学习笔记之《SAS编程与数据挖掘商业案例》(2)数据获取与数据集操作 1. SET/SET效率高,建立的主表和建表索引的查询表一般不排序, 2. BY语句,DATA步中,BY语句规定分组变量,用于控制SET,MERGE,UPDATE或MODIFY语句。 BY<DESCENDING>variable-1 <...<DESCENDI

数据仓库 排序 数据挖掘 索引 编程 PUT update input

Oracle数据仓库创建教程

Oracle数据仓库创建教程。如何创建一个数据仓库,创建实例,以为毕业设计要求,最近开始Oracle的数仓建模实践,详细记录了图形界面下的 Oracle database 12C 数据仓库创建过程。 本教程在Linux环境和Windows环境均可成功创建。 注意:不论是Linux下还是Windows下,前提是你已经正确安装了Oracle database 12C。

linux Oracle windows 数据库 配置 数据仓库 字符集 database 存储

Hive的HQL(2)

Hive基础(1) Hive的HQL(2) 1. HQL的数据定义,HQL是一种SQL方言,支持绝大部分SQL-92标准。但是和SQL的差异为:不支持行级别的操作,不支持事务等。HQL的语法接近于MySQL。 2. Hive的数据库,本质仅仅是个表的目录或者命名空间。一般用数据库将生产表组织成逻辑组。 3. Hive中的表–管理表,创建表时未指定的话为默认为管

数据仓库 ADD BY string Hive test 分区表 Create 存储

数据产品经理最佳实践-数据战略规划

数据产品经理最佳实践指南,数据战略规划

大数据 互联网 数据仓库 运营 存储 数据存储

分析型数据库+数据传输,构建企业级实时数仓

传统的离线数据仓库,将业务数据集中进行存储后,以固定的计算逻辑定时进行ETL 和其它建模后产出报表等应用。离线数据仓库一般采用每日或每几个小时进行一次计算的方式,计算和数据的实时性均较差,业务人员无法根据自己的即时性需要获取几分钟之前的实时数据。

数据存储与数据库 大数据 架构 实时系统 数据可视化 阿里云 HTTPS 模块 数据库 高并发 数据仓库 分析型数据库 数据传输 实时计算 数仓

【Spark Summit East 2017】Spark化数据引擎

本讲义出自Rohan Sharma在Spark Summit East 2017上的演讲,主要介绍了Netflix的大数据处理生态系统以及Spark在该平台发挥的作用,并讨论了Netflix使用的数据流以及数据管道架构以及Spark如何帮助Netflix在数据处理过程中提升效率,最后还分享了一些关于使用Spark的数据仓库以及分析案例。

云栖社区 大数据 架构 HTTPS 数据处理 数据流 数据仓库 odps spark aliyun 大数据分析 MaxCompute

133
GO