1. 云栖社区>
  2. 全部标签>
  3. #数据仓库#
数据仓库

#数据仓库#

已有1人关注此标签

内容分类:
博客 | 问答 | 课程 |

SAS学习笔记之《SAS编程与数据挖掘商业案例》(2)数据获取与数据集操作

SAS学习笔记之《SAS编程与数据挖掘商业案例》(2)数据获取与数据集操作 1. SET/SET效率高,建立的主表和建表索引的查询表一般不排序, 2. BY语句,DATA步中,BY语句规定分组变量,用于控制SET,MERGE,UPDATE或MODIFY语句。 BYvariable-1

数据仓库 排序 数据挖掘 索引 编程 PUT update input

Oracle数据仓库创建教程

Oracle数据仓库创建教程。如何创建一个数据仓库,创建实例,以为毕业设计要求,最近开始Oracle的数仓建模实践,详细记录了图形界面下的 Oracle database 12C 数据仓库创建过程。 本教程在Linux环境和Windows环境均可成功创建。 注意:不论是Linux下还是Windows下,前提是你已经正确安装了Oracle database 12C。

linux Oracle windows 数据库 配置 数据仓库 字符集 database 存储

Hive的HQL(2)

Hive基础(1) Hive的HQL(2) 1. HQL的数据定义,HQL是一种SQL方言,支持绝大部分SQL-92标准。但是和SQL的差异为:不支持行级别的操作,不支持事务等。HQL的语法接近于MySQL。 2. Hive的数据库,本质仅仅是个表的目录或者命名空间。一般用数据库将生产表组织成逻辑组。 3. Hive中的表–管理表,创建表时未指定的话为默认为管

数据仓库 ADD BY string Hive test 分区表 Create 存储

数据产品经理最佳实践-数据战略规划

数据产品经理最佳实践指南,数据战略规划

大数据 互联网 数据仓库 运营 存储 数据存储

漫谈阿里大数据

目前人人都在谈大数据,谈DT时代,但是,大数据是什么,每个人都有自己的一个看法,好比盲人摸象,每个都认为自己摸到是真正的大象。我也担心我所看到的,只是大数据的冰山一角,毕竟,将引领整个人类下一次变革的大数据,不是几篇文章就能说清楚的。

大数据 算法 阿里云 hadoop 用户体验 数据仓库 数加 淘宝 分布式计算 数据应用

分析型数据库+数据传输,构建企业级实时数仓

传统的离线数据仓库,将业务数据集中进行存储后,以固定的计算逻辑定时进行ETL 和其它建模后产出报表等应用。离线数据仓库一般采用每日或每几个小时进行一次计算的方式,计算和数据的实时性均较差,业务人员无法根据自己的即时性需要获取几分钟之前的实时数据。

数据存储与数据库 大数据 架构 实时系统 数据可视化 阿里云 HTTPS 模块 数据库 高并发 数据仓库 分析型数据库 数据传输 实时计算 数仓

满满的技术干货!Spark顶级会议Apache Spark Summit精华讲义分享(持续更新中)

Apache Spark Summit是Spark技术的顶级会议,这里大咖云集,一同探讨世界上最新的Spark发展动态以及产品应用和技术实践。无论是你想要的是Spark发展前沿,是Spark优化技巧,还是技术最佳实践,统统都在这里!

云栖社区 深度学习 大数据 架构 服务器 性能 Apache 数据仓库 集群 数据分析 spark 分布式计算 物联网 流计算 流数据

【Spark Summit East 2017】Spark化数据引擎

本讲义出自Rohan Sharma在Spark Summit East 2017上的演讲,主要介绍了Netflix的大数据处理生态系统以及Spark在该平台发挥的作用,并讨论了Netflix使用的数据流以及数据管道架构以及Spark如何帮助Netflix在数据处理过程中提升效率,最后还分享了一些关于使用Spark的数据仓库以及分析案例。

云栖社区 大数据 架构 HTTPS 数据处理 数据流 数据仓库 odps spark aliyun 大数据分析 MaxCompute

【Spark Summit East 2017】现代化你的数据仓库的全新“Sparkitecture”

本讲义出自Myles Collins在Spark Summit East 2017上的演讲,主要介绍了面对数据管道增速,聚合和可视化成为一个简化的,自助的方式的挑战,很多组织开始越来越多地转向求助于Spark, Hadoop, Kafka的结合,并且证明了分析型数据库Vertica等关键实现技术是优化企业级数据仓库体系结构的关键。

云栖社区 大数据 hadoop HTTPS 数据仓库 odps spark aliyun 分析型数据库 大数据分析 MaxCompute

【Spark Summit East 2017】Spark + Flashblade

本讲义出自Brian Gold在Spark Summit East 2017上的演讲,现代基础设施和应用程序会产生大量的日志和遥测数据,Pure Storage能从工程台、制造伙伴和测试站的运行的存储系统获取超过5PB第一手日志数据,演讲中介绍了Pure Storage公司从扩展数据仓库和利用Apache Spark的功能满足分析需求的过程中吸取的经验教训。

云栖社区 大数据 HTTPS 日志 Apache 基础设施 数据仓库 测试 spark aliyun 存储 大数据分析 MaxCompute

hive

hive 的 表与hdfs数据关系映射放在元数据库中,也就是mysql中,而真正的数据放在 hdfs中,通过mysql中表 ,字段等与hdfs上数据的映射来查询   1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快

架构 hadoop 数据库 数据仓库 Hive test Mapreduce 存储 数据存储

【Spark Summit EU 2016】在数据仓库中引入Dataframes+Parquet

本讲义出自Sol Ackerman与Franklyn D'souza在Spark Summit EU上的演讲,在已存在的数据仓库中使用Dataframes+Parquet的经验方法,实现了在保证原有代码的情况下,引进Dataframes+Parquet,并且重写比较慢的工作作为Dataframes的管道,用Spark对从输入端流入的数据进行处理并输出。

数据仓库 spark

【Spark Summit East 2017】虚拟化分析,Spark是最好的答案么?

本讲义出自Arsalan Tavakoli在Spark Summit East 2017上的演讲,主要对于虚拟化分析的技术路线的发展进行了探讨。

Apache 数据仓库 spark 解决方案

PostgreSQL 2017 2月份 相关新闻

背景 PostgreSQL近几年的发展有目共睹,从GIS到物联网、流式计算、多维分析、高并发在线事务处理、服务端编程、任意数据类型的抽象处理、扩展索引方法、GPU运算能力的利用等各个方面体现了PostgreSQL的强大功能和性能。

数据存储与数据库 PostgreSQL 阿里云 性能 HTTPS 数据库 高并发 数据仓库 同步 流式计算 索引 物联网 并行计算 逻辑复制 数据同步

淘宝大数据之路

2003年至今淘宝网从零开始飞速发展,走过了13个年头,支撑淘宝业务野蛮式生长背后是一套不断完善的技术平台...

大数据 架构 阿里云 hadoop Oracle 数据仓库 集群 odps 同步 淘宝 脚本 数据同步 RAC 存储过程 大数据平台

云享团——基于大数据开发套件的增量同步策略

转载自云享团 因为近期遇到用户在做ETL操作导入数据到MaxCompute的时候,对如何设置数据同步策略有疑惑,所以今天第一波我们来聊一下数据的同步策略,根据数据的特性,看看哪些数据适合增量同步,哪些适合全量同步,又是如何实现的?请认真看完下面的介绍,这些问题都不是事儿。

大数据 配置 数据仓库 工单 测试 同步 数据同步 MaxCompute

干货:解码OneData,阿里的数仓之路。

据IDC报告,预计到2020年全球数据总量将超过40ZB(相当于4万亿GB),这一数据量是2013年的10倍。正在“爆炸式”增长的数据的潜在巨大价值正在被发掘,它有可能成为商业世界的“新能源”,变革我们的生产,影响我们生活。当我们面对如此庞大的数据之时,如果我们不能有序、有结构的进行分类组织

大数据 架构 云计算 数据仓库 分布式计算 数据存储

企业大数据平台下数仓建设思路

介然(李金波),阿里云高级技术专家,现任阿里云大数据数仓解决方案总架构师。8年以上互联网数据仓库经历,对系统架构、数据架构拥有丰富的实战经验,曾经数据魔方、淘宝指数的数据架构设计专家。 与阿里云大数据数仓结缘 介然之前在一家软件公司给企业客户做软件开发和数仓开发实施,数仓开发和实施都是基于传统的

大数据 架构 阿里云 云计算 数据处理 数据仓库 淘宝 分布式计算 数据应用

什么是阿里云数加大数据计算服务MaxCompute?

MaxCompute简介 大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。

分布式 大数据 安全 算法 阿里云 SQL 数据库 高并发 数据仓库 odps 数据安全 数加 分布式计算 编程 MaxCompute

【大数据学习】数据化运营并不难?关键是这些技术你get了么?!

1月15日在北京举行了首次阿里云大数据合作伙伴深度培训,我司获邀参加,我和两名研发的同学又一次来到了阿里巴巴望京园区。  > 培训的第一部分内容、数加的介绍及应用 除了介绍性内容之外,还是有「干货」的,这个干货就是MaxCompute 的实践。

大数据 数据可视化 阿里云 数据库 数据仓库 流式计算 数据大屏 运营 开发环境 分析型数据库 离线计算 培训 MaxCompute 大数据学习

3
GO