1. 云栖社区>
  2. 全部标签>
  3. #开源大数据#
开源大数据

#开源大数据#

已有1人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

SparkSQL与Hive metastore Parquet转换

Spark SQL为了更好的性能,在读写Hive metastore parquet格式的表时,会默认使用自己的Parquet SerDe,而不是采用Hive的SerDe进行序列化和反序列化

java hadoop SQL Apache spark scala 开源大数据 Hive schema 数据类型

EMR Spark-SQL性能极致优化揭秘 RuntimeFilter Plus

在 2019 年的打榜测试中,我们基于 Spark SQL Catalyst Optimizer 开发的 RuntimeFilter 优化 对于 10TB 数据 99 query 的整体性能达到 35% 左右的提升。

算法 性能优化 性能 SQL Image spark 开源大数据 索引 bloomfilter 存储

招聘!招聘!招聘!计算平台解决方案架构师专场

为了帮助客户更加高效地使用大数据产品,发挥数据价值,现计算平台招募大数据及AI产品解决方案架构师,欢迎在北京、杭州的同学加入我们!

深度学习 大数据 架构 数据仓库 Image 数据分析 钉钉 spark 解决方案 开源大数据 分布式计算 流计算 多维分析

Spark + AI Summit 2020 中文议题有奖征集

北美 Spark + AI Summit 2020 盛会在即,Apache Spark 中国技术交流社区在此诚邀各位,代表国内开发者选择您最希望听到的主题,届时社区将联合国内顶尖技术专家一一展开中文形式分享。

Apache Image 钉钉 淘宝 spark 开源大数据

5月7日 JindoFS 系列直播 第五讲【JindoFS Fuse 支持】

本次直播主要介绍如何利用FUSE的POSIX文件系统接口,像本地磁盘一样轻松使用大数据存储系统, 为云上AI场景提供了高效的数据访问手段。

大数据 Apache 钉钉 aliyun 开源大数据 磁盘 存储 FUSE

什么是数据中台?跟数据仓库、数据平台有什么区别?

2019年,数据中台是一个很火的名词,基本上遇到的互联网公司都说自己在搞中台。但是什么是中台?到现在我也没有看到一个十分满意的答案。

大数据 云栖大会 数据仓库 数据分析 开源大数据

EMR Spark-SQL性能极致优化揭秘 概览篇

这次的优化里面,还有一个很好玩的优化,就是我们引入的 Native Runtime,如果说上述的优化器优化都是一些特殊 Case 的杀手锏,Native Runtime 就是一个广谱大杀器,根据我们后期统计,引入 Native Runtime,可以普适性的提高 SQL Query 15~20%的 E2E 耗时,这个在TPCDS Perf 里面也是一个很大的性能提升点。

native 性能 c++ runtime spark 开源大数据 e-mapreduce EMR

Hadoop社区比 Ozone 更重要的事情

本文回顾了最近几年Hadoop项目的发展,着重探讨个人对Ozone的看法和理解,不求正确,引玉而已,欢迎业内专家拍砖讨论。

大数据 hdfs hadoop 性能 公共云 高可用 spark 开源大数据 对象存储 存储

Hadoop社区比 Ozone 更重要的事情

坚持Hadoop作为大数据基础平台这一核心定位,同时积极拥抱云计算发展大势

大数据 hdfs hadoop 性能 公共云 高可用 spark 开源大数据 对象存储 存储

Delta Lake Presto Integration & Manifests 机制

Delta 0.5 已于上周发布,增加了不少新特性,这篇文章主要讲解其 Presto Integration 和 Manifests 机制。

大数据 java hadoop Apache path spark 开源大数据 string Hive 分区表 schema facebook

Delta Lake 分区表覆盖写入操作

Delta Lake当前版本(0.5)只支持API操作的,但是实现 Insert SQL 语法也不难,需要注意的是 Delta Lake 中的分区表覆盖写入操作。

SQL Image 钉钉 spark DB 开源大数据 API 分区表

SparkSQL DatasourceV2 之 Multiple Catalog

SparkSQL DatasourceV2作为Spark2.3引入的特性,在Spark 3.0 preview(2019/12/23)版本中又有了新的改进以更好的支持各类数据源。本文将从catalog角度,介绍新的数据源如何和Spark DatasourceV2进行集成。

SQL Image spark 解决方案 开源大数据 string Hive

4月23日JindoFS系列直播【大规模文件元数据下的耗时操作优化】

本次直播主要介绍大数据生态中常见的元数据服务部署形态,并分析大规模文件元数据下在生产环境中可能遇到的问题,以及针对这些问题如何进行优化和调整。

大数据 Apache 钉钉 aliyun 开源大数据 存储

spark面试该准备点啥

大部分面试者被面试的spark问题估计都会集中于spark core,spark streaming和spark sql,至于mllib和graphx这些估计都是了解项,当然也要逐步去学习structured streaming。

监控 SQL spark 开源大数据 Core

在阿里云 E-MapReduce 上使用Data Science集群进行深度学习

Data Science 集群是阿里云 E-MapReduce 在 3.13.0 版本以后推出的专门用于机器学习,深度学习的新的机型。客户可以通过 Data Science 集群选用 GPU 或者 CPU 机型对数据进行训练,训练的数据可以存储在 HDFS 和 OSS 上,目前支持 TensorFlow 进行分布式训练,方便用户开发基于大数据存储,分布式调度的深度学习应用。

深度学习 分布式

直播预告 | 实时剖析Greenplum的内核构架核心

为了让大家对Greenplum的内核有更深入的了解,让大家在开发或者是使用Greenplum过程中更加得心应手,今年,和阿里云开发者社区合作,Greenplum中文社区将开展 《Greenplum内核揭秘》系列直播,让你对Greenplum达到更深层的理解。

大数据 架构 PostgreSQL Greenplum postgres 性能 模块 数据库 数据分析 钉钉 弹性计算 开源大数据 分布式数据库

Spark MLlib中KMeans聚类算法的解析和应用

聚类算法是机器学习中的一种无监督学习算法,它在数据科学领域应用场景很广泛,比如基于用户购买行为、兴趣等来构建推荐系统。

算法 Image spark 开源大数据 MLlib

深入剖析 Delta Lake:Schema Enforcement & Evolution

Schema 约束和 Schema 演变相互补益,合理地结合起来使用将能方便地管理好数据,避免脏数据侵染,保证数据的完整可靠。

spark aliyun 开源大数据 DataFrame string schema 存储 数据类型

E-MapReduce弹性低成本离线大数据分析

基于阿里云的E-MapReduce(EMR) 、对象存储OSS、日志服务SLS、抢占式ECS实例构建弹性、低成本的计算与存储分离架构的海量离线大数据分析日志分析系统。

大数据 hadoop 数据仓库 系统环境 电商 Image 数据分析 钉钉 spark 开源大数据 e-mapreduce 分布式计算 离线计算 日志分析 大数据分析

MySQL:互联网公司常用分库分表方案汇总

不管是IO瓶颈,还是CPU瓶颈,最终都会导致数据库的活跃连接数增加,进而逼近甚至达到数据库可承载活跃连接数的阈值。在业务Service来看就是,可用数据库连接少甚至无连接可用。接下来就可以想象了吧(并发量、吞吐量、崩溃)。

mysql 数据库 互联网 Image 同步 spark 开源大数据 HASH CPU

16
GO