1. 云栖社区>
  2. 全部标签>
  3. #数据仓库#
数据仓库

#数据仓库#

已有5人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

Spark核心—RDD初探

本文目的     最近在使用Spark进行数据清理的相关工作,初次使用Spark时,遇到了一些挑(da)战(ken)。感觉需要记录点什么,才对得起自己。下面的内容主要是关于Spark核心—RDD的相关的使用经验和原理介绍,作为个人备忘,也希望对读者有用。

大数据 算法 hadoop 函数 性能 面向对象 数据仓库 spark scala

SQL Server2005 各版本区别

可以在生产环境中使用所有版本的 SQL Server 2005,但 SQL Server 2005 Developer Edition 和 SQL Server 2005 Evaluation Edition 除外。

服务器 SQL 高可用 数据库 express 数据仓库 runtime 解决方案 Server Mobile 数据管理

参加第三届信息化创新克拉玛依国际学术论坛

据老孙说前二届在克拉玛依的数字油田的会议规格很高,可惜一直没机会参加。2014年9月3日至4日举办第三届,无论如何抓住了这次机会,不过会议的内容有些让我失望,克拉玛依的心思已经放在数字城市上了,数字油田的主题被冲淡了。

大数据 数据仓库 远程桌面 云平台 大数据分析

SAP Sybase IQ按列存储介绍 - 1 按列存储

http://www.docin.com/p-242937090.html 列存储因同一类型数据在一列使得压缩更加容易,压缩比更高,数据+索引大小也比原始数据的大小小很多。  传统数据库中因为数据的预先处理,物化视图,以及基于行的索引,数据膨胀到原始数据的 3~6倍基本都很 常见。

etl 性能 高可用 数据库 数据仓库 集群 索引 多线程 存储

greenplum 压缩表

问题: 11-30,压缩程度不同,压缩后的空间大小是否空间空间不同 11-30,压缩后,空间与压缩前的空间大小是否不同 不同的压缩率,数据空间一样 ...

Greenplum 数据仓库 index Create type varchar

OLTP 和 OLAP 的区别

联机事务处理OLTP(on-line transaction processing) OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。 联机分析处理OLAP(On-Line Analytical Processing) OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

数据库 数据仓库 Processing OLAP Transaction

数据库设计的一些有效经验

以下是针对事务型数据库: 1.是否使用联合主键?个人倾向于少采用联合主键。因为这样会降低索引的效率,联合主键一般都要用到至少一个业务字段,往往是字符串型的,而且理论上多字段的索引比单字段的索引要慢些。

大数据 数据库 数据仓库 数据迁移 索引 分析型数据库 数据库设计

海量数据(数据量比较大时)的处理分析

海量数据处理问题是一项艰巨而复杂的任务。原因有以下几个方面: 一、数据量过大,数据中什么情况都可能存在。如果说有10条数据,那么大不了每条去逐一检查,人为处理,如果有上百条数据,也可以考虑,如果数据上到千万级别,甚至过亿,那不是手工能解决的了,必须通过工具或者程序进行处理,尤其海量的数据中,什么情况都可能存在,例如,数据中某处格式出了问题,尤其在程序处理时,前面还能正常处理,突然到了某个地方问题出现了,程序终止了。

SQL 数据处理 数据库 数据仓库 数据挖掘 索引 磁盘 海量数据 海量数据处理

ExtJS入门教程04,这是一个超级好用的grid

今天进行extjs入门教程的第四篇:grid。 来一份grid尝尝 小伙伴们都知道extjs的grid功能强大,更清楚功能强大的东西用起来必然会复杂。今天我们就从最简单的grid开始讲解。 先来一个最简单的grid,让小伙伴们见识一下吧,看代码: Ext.

数据仓库 string Create type EXT

Ext.Net学习笔记11:Ext.Net GridPanel的用法

GridPanel是用来显示数据的表格,与ASP.NET中的GridView类似。 GridPanel用法 直接看代码: <ext:GridPanel runat="server" ID="grid" ColumnLines="true" Width="500" Height="200">...

数据仓库 Server string type EXT

PostgreSQL数据库介绍PPT

附件中是一篇介绍PostgreSQL数据库的PPT。 PostgreSQL数据库介绍.zip (386.58 KB) 下载次数: 3092011-04-15 19:23 ,此篇文章也可见我的blog: http://blog.osdba.net/?post=48    PostgreSQL数据库是一款非常优秀的开源数据库,有丰富的的功能,在功能上是全面超越MySQL的一个开源数据库,在性能上也不比MysQL差,同时PostgreSQL与Oracle一样,都是进程架构,能更好的发挥出多CPU的性能。

架构 PostgreSQL mysql 性能 高可用 数据库 互联网 数据仓库 逻辑复制 存储 数据类型

Hadoop概念学习系列之Hadoop能做什么?(二)

 大数据时代已经到来,金融数据、电商数据、社交数据、游戏数据…….这些数据的规模、结构、增长的速度都给传统数据存储和处理技术带来巨大考验。Hadoop的简单方便、可扩展性和健壮性让其在大数据处理方面占尽优势,其主要适合的应用场景有:         1) 搜索引擎,Doug Cutting设计Hadoop的初衷,就是为了针对大规模的网页快速建立索引。

分布式 大数据 hadoop 数据仓库 可扩展性 电商 数据分析 数据挖掘 索引 分布式计算 数据备份 云平台 分布式存储 存储 海量数据

Hadoop概念学习系列之Hadoop 生态系统(十二)

 当下 Hadoop 已经成长为一个庞大的生态体系,只要和海量数据相关的领域,都有 Hadoop 的身影。下图是一个 Hadoop 生态系统的图谱,详细列举了在 Hadoop 这个生态系统中出现的各种数据工具。

分布式 大数据 java 服务器 hbase hdfs hadoop 日志 高可用 数据库 数据仓库 集群 分布式计算 google 并行计算

Hadoop概念学习系列之Hadoop、Spark学习路线(很值得推荐)(十八)

说在前面的话   此笔,对于仅对于Hadoop和Spark初中学者。高手请忽略!         1 Java基础:     视频方面:           推荐《毕向东JAVA基础视频教程》。学习hadoop不需要过度的深入,java学习到javase,在Java虚拟机的内存管理、以及多线程、线程池、设计模式、并行化多多理解实践即可。

linux 大数据 storm hadoop 数据库 数据仓库 spark Elasticsearch Hive zookeeper 数据存储 海量数据

Hadoop里如何Mysql编程

   mysql数据库读写       hadoop技术推出一度曾遭到关系数据库研究者的挑衅和批评,认为MapReduce不具有关系数据库中的结构化数据存储和处理能力。为此,hadoop社区和研究人员做了多的努力,在hadoop0.19版支持MapReduce访问关系数据库,如:MySQL 、Mongodb 、PostgreSQL 、Oracle 等几个数据库系统。

大数据 PostgreSQL mysql hadoop 函数 Oracle 数据库 数据仓库 string JDBC class 编程 分布式系统 Mapreduce 数据存储

浅谈Hive和HBase区别

1. 两者分别是什么?        Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它只能够在Haoop上批量的执行Hadoop。

大数据 hbase hadoop SQL Apache 基础设施 数据仓库 Hive schema facebook Mapreduce

Spark 概念学习系列之Apache Spark是什么?(一)

简单地说,        Spark是发源于美国加州大学伯克利分校AMPLab的大数据分析平台,它立足于内存计算,从多迭代批量处理出发,兼顾数据仓库、 流处理和图计算等多种计算范式,是大数据系 统领域的全栈计算平台。

分布式 大数据 hadoop 函数 Apache 数据处理 数据仓库 集群 spark scala 分布式文件系统 并行计算 编程 分布式存储 Mapreduce

Spark SQL概念学习系列之Spark Shark是什么?

 Shark是构建在Spark和Hive基础之上的数据仓库。 目前,Shark已经完成学术使命,终止开发,但其架构和原理仍具有借鉴意义。 它提供了能够查询Hive中所存储数据的一套SQL接口,兼容现有的Hive QL语法。

分布式 大数据 架构 SQL 数据仓库 spark Hive 存储 数据存储

0基础搭建Hadoop大数据处理-初识

在互联网的世界中数据都是以TB、PB的数量级来增加的,特别是像BAT光每天的日志文件一个盘都不够,更何况是还要基于这些数据进行分析挖掘,更甚者还要实时进行数据分析,学习,如双十一淘宝的交易量的实时展示。

大数据 架构 hdfs hadoop 数据仓库 数据分析 分布式计算 分布式文件系统 并行计算 分布式数据库 Mapreduce 存储 日志处理

阿里云MaxCompute携手华大基因打造精准医疗应用云平台,十万基因组计算成本降低至1000美金以内

摘要:华大基因股份公司总监金鑫介绍了华大基因,并浅谈了与阿里云的情缘,包括Maxcompute等方面应用案例。一起来看下吧。   关于华大基因 华大基因是中国最领先的基因科技公司,华大基因为消除人类病痛、经济危机、国家灾难、濒危动物保护、缩小贫富差距等方面提供分子遗传层面的技术支持。

大数据 架构 数据仓库 云存储 数加 对象存储 云服务 医疗 弹性扩展 华大基因 云平台 存储 日志分析 MaxCompute 海量数据

75
GO