1. 云栖社区>
  2. 全部标签>
  3. #分布式计算#
分布式计算

#分布式计算#

已有1人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

【Spark Summit East 2017】使用ADAM处理Terabyte级基因数据集

本讲义出自Frank Austin Nothaft在Spark Summit East 2017上的演讲,主要介绍了构建于Spark分布式计算框架之上的符合Apache 2许可的库ADAM,ADAM允许基因分析在Spark上集群上无缝地进行分布,并为编写基因组分析算法提供了清晰的API,演讲还讨论了ADAM与Hbase对于大型变体数据集进行交互式探索。

云栖社区 大数据 算法 hbase HTTPS Apache 集群 odps spark aliyun API 分布式计算 大数据分析 MaxCompute

【Spark Summit EU 2016】寻找流式数据中的异常:一种有趣的可伸缩方法

本讲义出自Casey Stella在Spark Summit EU上的演讲,主要介绍了流数据分析和其优缺点以及异常数据分析的方法,还介绍了在分布式计算框架中可以附加到时间序列数据流的混合异常分析方法,并详细介绍了这种可伸缩的异常分析方法的架构设计。

架构 数据流 数据分析 spark 分布式计算 序列 流数据

【Spark Summit EU 2016】基于Spark的分布式计算,提升业务洞察力

本讲义出自Stephan Kessler在Spark Summit EU 2016上的演讲,主要介绍了目前商业智能的相关技术蓝图,并且从业务应用和大数据以及数据科学的角度谈论了目前商业智能蓝图中的不足,并分享了在Spark上集成的业务功能以及如何在Spark上利用不同来源的数据,并对HANA Vora 1.3进行了介绍。

大数据 spark 分布式计算

干货:解码OneData,阿里的数仓之路。

据IDC报告,预计到2020年全球数据总量将超过40ZB(相当于4万亿GB),这一数据量是2013年的10倍。正在“爆炸式”增长的数据的潜在巨大价值正在被发掘,它有可能成为商业世界的“新能源”,变革我们的生产,影响我们生活。当我们面对如此庞大的数据之时,如果我们不能有序、有结构的进行分类组织

大数据 架构 云计算 数据仓库 分布式计算 数据存储

什么是阿里云数加大数据计算服务MaxCompute?

MaxCompute简介 大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。

分布式 大数据 安全 算法 阿里云 SQL 数据库 高并发 数据仓库 odps 数据安全 数加 分布式计算 编程 MaxCompute

.NET三层架构解析

  三层架构(3-tier application) 通常意义上的三层架构就是将整个业务应用划分为:表现层(UI)、业务逻辑层(BLL)、数据访问层(DAL)。区分层次的目的即为了“高内聚,低耦合"的思想。 内聚:一个模块内各个元素彼此结合的紧密程度;耦合:一个软件结构内不同模块之间互连程度的度量    1、表现层(UI):通俗讲就是展现给用户的界面,即用户在使用一个系统的时候

架构 性能 模块 数据库 主机 Server 分布式计算

Apache再次接受阿里开源产品捐赠:移动开发框架Weex进入孵化

12月15日,阿里巴巴宣布将移动开源项目Weex捐赠给Apache基金会开始孵化,Weex有望成为中国移动领域的首个Apache顶级项目,这意味着中国移动技术开始反哺世界。据悉,这也是继JStorm、RocketMQ之后,阿里向Apache捐赠的第三个项目。

性能 Apache 阿里巴巴 web 用户体验 分布式计算 开发环境 高性能 移动互联网 开发框架 github

使用E-MapReduce服务处理阿里云文件存储(NAS)的数据

给大家介绍一个使用场景,可以将E-MapReduce的Hadoop作业和文件存储(NAS)结合在一起,发挥分布式存储和分布式计算在一起的威力

大数据 阿里云 hadoop HTTPS 高可用 配置 控制台 aliyun 开源大数据 e-mapreduce 分布式计算 分布式文件系统 分布式存储 存储 NAS

hive (基于hadoop的数据仓库)

1.简介 hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能。 与传统关系数据库相比的优势是:能够处理海量数据。 劣势是:它只提供查询功能,不能增、删、改。涉及到分布式计算的任务分发,查询时间在分钟级,不能当实时工具用。 运行机理:将sql语句转换为MapReduce任务,让Hadoop处理。 2.查询语句 h

hadoop SQL 数据库 数据仓库 控制台 分布式计算 Hive Mapreduce 海量数据

第一篇博客 给自己看 杂乱无章的区块链笔记

第一篇区块链的技术博客献给自己杂乱无章,继续努力

加密 分布式计算 分布式数据库 分布式存储 区块链技术 比特币

盘点:阿里云云服务器的优势表现在哪些方面

阿里云:云服务器的优势 1.安全稳定,数据可靠 在无地震等重大自然灾害下,云服务器数据可靠性可达99.999%,让您的数据安全无忧

安全 阿里云 云服务器 配置 安全组 数据安全 弹性伸缩 分布式计算 带宽 磁盘 客服 阿里云云服务器

Spark计算过程分析

### 基本概念 ---------- Spark是一个分布式的内存计算框架,其特点是能处理大规模数据,计算速度快。Spark延续了Hadoop的MapReduce计算模型,相比之下Spark的计算过程保持在内存中,减少了硬盘读写,能够将多个操作进行合并后计算,因此提升了计算速度。同时Spark也提供了更丰富的计算API。 MapReduce是Hadoop和Spark的计算模型,其特点

hadoop 函数 阿里技术协会 http reduce spark 分布式计算 Driver Mapreduce yarn

架构师速成8.3-可用性之分布式

分布式算是软件界发展的一个里程碑,它开辟一个新的软件时代,其他的溢美之词我就不再乱说了。 分布式按照我的观点,应该分为有状态和无状态2种: 有状态 分布式数据库 分布式存储 无状态 分布式计算 分布式web系统 当然分布式尽量做成无状态的分布式,但是存储最终因为最终存储的是有状态的数据,所以不得不变的有状态。当然web系统也可以是有状态的,但是最好做成无

分布式 架构 web 集群 Cache 可扩展性 负载均衡 解决方案 分布式计算 分布式系统 分布式数据库 分布式存储 存储 cookie 数据存储

开源大数据周刊-第28期

大数据在医疗行业应用,Hive/ElasticSearch新版本特性,Spark欧洲峰会

大数据 架构 算法 阿里云 hbase hadoop 性能 HTTPS Apache http 互联网 spark 开源大数据 分布式计算 分布式存储

在内存计算时代,看阿里如何用Spark来进行实践与探索

本文PPT来自阿里云技术专家曹龙(花名:封神)于10月16日在2016年杭州云栖大会上发表的《阿里巴巴Spark实践与探索——内存计算时代》。

分布式 架构 阿里云 云栖大会 数据处理 阿里巴巴 数据仓库 弹性伸缩 spark 流式计算 e-mapreduce 分布式计算 高性能

MaxCompute分布式计算如何提升基因大数据处理速率?

在2016杭州云栖大会首日,来自华大基因的基因组学数据专家黄树嘉在大数据专场分享了《基于数加MaxCompute的极速全基因组数据分析》,他主要从全基因组测序的背景与原理、传统单机分析流程的挑战、基于MaxCompute的方案三个方面进行了分享,详细介绍了华大基因运用阿里云处理海量的实践。

大数据 云栖大会 集群 测试 分布式计算 医疗 华大基因 MaxCompute 基因大数据

hadoop笔记一

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。 是Apache 下的一个项目,由HDFS、MapReduce、HBase、Hive 和ZooKeeper等成员组成。其中,HDFS 和MapReduce 是两个最基础最重要的成员 Hadoop 由许多元素构成。其最底部是 Hadoop Distributed File System[3](HDFS),它存储 Ha

服务器 hdfs hadoop 函数 Apache reduce 集群 分布式计算 分布式文件系统 Mapreduce 存储

59
GO