1. 云栖社区>
  2. 全部标签>
  3. #数据处理#
数据处理

#数据处理#

已有4人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

Spark + AI 2019北美技术峰会华丽落幕

除了Spark + AI主题外,本次峰会,为开发者,数据科学家以及探寻最佳数据与人工智能工具来构架创新型产品的技术实践者们,提供了一站式交流的独特体验,超过了5000名来自世界各地的工程师,数据科学家,人工智能专家,研究学者以及商务人士,加入到了这3天的深度交流与学习中。

云栖社区 编程语言 移动开发与客户端 linux 深度学习 分布式 Apache 数据处理 人工智能 数据分析 spark 安全问道 流数据

阿里云ACP认证考试细则须知与考题内容学习方法分享

阿里云大数据专业认证(ACP 级-Alibaba Cloud CertificationProfessional)是面向使用阿里云大数据产品的架构、开发、运维类人员的专业技术认证,主要涉及阿里云大数据类的几款核心产品,包括大数据计算服务MaxCompute、数据工场 DataWorks(原大数据开发套件 DataIDE)、数据集成、QuickBI、机器学习 PAI 等。

大数据 架构 函数 模块 数据处理 数据仓库 数据分析 解决方案 云数据库 对象存储 ACP 分析型数据库 表格存储 数据管理 阿里云acp认证考试

阿里巴巴为什么选择Apache Flink?

作者:王峰 整理:韩非 本文主要整理自云栖大会阿里巴巴计算平台事业部资深技术专家王峰(花名:莫问)在云栖大会‘开发者生态峰会’上发表的演讲。 伴随着海量增长的数据,数字化时代的未来感扑面而至。

大数据 Apache 数据处理 流式计算 开源大数据 API 分布式架构 流计算 flink 实时计算

下:比拼生态和未来,Spark和Flink哪家强?

前文对 Spark 和 Flink 的引擎做了对比。对用户来说引擎并不是考虑数据产品的唯一方面。开发和运维相关的工具和环境,技术支持,社区等等,对能不能在引擎上面做出东西来都很重要。这些构成了一个产品的生态。可以说引擎决定了功能和性能的极限,而生态能让这些能力真正发挥出作用。

深度学习 大数据 数据处理 集群 数据分析 spark 开发工具 流计算 flink 实时计算

上:Spark VS Flink – 下一代大数据计算引擎之争,谁主沉浮?

本文对 Spark 和 Flink 的技术与场景进行了全面分析与对比,且看下一代大数据计算引擎之争,谁主沉浮?

大数据 hadoop 性能 数据处理 数据流 spark Mapreduce 流计算 flink 实时计算

使用Relational Cache加速EMR Spark数据分析

Relational Cache的强大功能赋予了Spark更多的可能,通过Relational Cache,用户可以提前将任意关系型数据(Table/View/Dataset)cache到任意Spark支持的DataSource中,并支持灵活的cache数据组织方式,基于此,Relational Cache可以在诸多应用场景中帮助用户加速Spark数据分析。

安全与风控 编程语言 系统研发与运维 移动开发与客户端 数据处理 Cache 数据分析 spark EMR 安全问道

使用Relational Cache加速EMR Spark数据分析

Relational Cache的强大功能赋予了Spark更多的可能,通过Relational Cache,用户可以提前将任意关系型数据(Table/View/Dataset)cache到任意Spark支持的DataSource中,并支持灵活的cache数据组织方式,基于此,Relational Cache可以在诸多应用场景中帮助用户加速Spark数据分析。

大数据 数据处理 Cache 数据分析 spark EMR

解决大数据难题 阿里云MaxCompute获科技大奖

据介绍,MaxCompute(大规模分布式的数据计算平台)是国内最早自研的大数据计算平台之一,主要应用于大规模数据处理场景。目前,这项源自浙江、解决世界级难题的成果已拥有EB(百京)级别的数据存储能力、百PB(千兆)级的单日计算能力。

大数据 数据处理 集群 数据安全 Image 钉钉 存储 数据存储 MaxCompute

解决世界级大数据难题,阿里云自研MaxCompute再获科技大奖

5月14日,浙江省科学技术奖励大会正式召开,阿里云自研大数据计算平台MaxCompute荣获浙江省科技进步一等奖。

大数据 数据处理 集群 数据安全 存储 数据存储 MaxCompute

开源-开源公司-Apache

Apache开源软件一览: 1.Hadoop Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。

分布式 hdfs hadoop Apache 数据处理 集群 数据分析 spark scala 分布式文件系统 查询优化 Mapreduce github

126
GO