Apache Spark中国技术社区 + 关注 E-MapReduce

浅析Hive/Spark SQL读文件时的输入任务划分

本文最后留个思考题给读者们:如何设置参数彻底关闭Spark SQL data source表的文件合并? 积极回答问题即可获得社区礼物。

大数据 hadoop SQL spark scala 开源大数据 Hive file

使用 Jupiter Notebook 运行 Delta Lake 入门教程

因为官方教程是基于商业软件 Databricks Community Edition 构建,虽然教程中使用的软件特性都是开源 Delta Lake 版本所具备的,但是考虑到国内的网络环境,注册和使用 Databricks Community...

大数据 spark 开源大数据 开发环境 schema update

使用 Jupiter Notebook 运行 Delta Lake 入门教程

本文通过 jupyter notebook 工具演示了 Delta Lake 的官方教程

python SQL spark 开发环境 schema update

浅析Hive/Spark SQL读文件时的输入任务划分

Hive以及Spark SQL等大数据计算引擎为我们操作存储在HDFS上结构化数据提供了易于上手的SQL接口,大大降低了ETL等操作的门槛,也因此在实际生产中有着广泛的应用。SQL是非过程化语言,我们写SQL的时候并不能控制具体的执行过程,...

大数据 hadoop SQL 开源 spark scala EMR Hive file big data sparksql

解析SparkStreaming和Kafka集成的两种方式

spark streaming是基于微批处理的流式计算引擎,通常是利用spark core或者spark core与spark sql一起来处理数据。在企业实时处理架构中,通常将spark streaming和kafka集成作为整个大数据处...

大数据 线程 Image spark 开源大数据 磁盘

Python搭建新冠肺炎预测模型全解读

新冠病毒疫后复工成为当务之急,然而病毒尚未消散,风险权衡面临不确定因素。传统机器学习模型虽然可以精确拟合历史数据,但由于脱离疾病传播机理,外推预测的可靠性低。与以往的疾病传播模型不同,南栖仙策的模型对病情的发展进行建模,能够更好的模拟潜伏期...

python Image 开源大数据

在家办公这些天整理的Kafka知识点大全

Kakfa 广泛应用于国内外大厂,例如 BAT、字节跳动、美团、Netflix、Airbnb、Twitter 等等。今天我们通过这篇文章深入了解 Kafka 的工作原理。

消息队列 集群 Image 同步 数据存储

环形缓冲区-Hadoop Shuffle过程中的利器

环形队列广泛用于网络数据收发,和不同程序间数据交换(比如内核与应用程序大量交换数据,从硬件接收大量数据)均使用了环形队列。

hadoop 排序 metadata 磁盘 存储 数组

Data Lake 三剑客——Delta、Hudi、Iceberg 对比分析

定性上讲,三者均为 Data Lake 的数据存储中间层,其数据管理的功能均是基于一系列的 meta 文件。meta 文件的角色类似于数据库的 catalog/wal,起到 schema 管理、事务管理和数据管理的功能。

大数据 性能 spark 开源大数据 schema update 数据管理

每年 150 亿美元花哪了?Netflix 的大规模 Kafka 实践

Netflix 在 2019 年花费了大约 150 亿美元来制作世界一流的原创内容。在如此高的投入之下,我们必须获得许多关键的业务见解,从而为所有 Netflix 内容的策划、预算和效益分析工作提供帮助

分布式 架构 Apache 微服务 Image 同步 开源大数据 分布式系统

深度学习技术在自动驾驶中的应用与挑战

深度学习技术经过近几年井喷式的发展,在很多领域都得到了广泛的应用。在自动驾驶系统中,深度学习技术也起到了至关重要的作用,同时也面临着非常多的挑战。我们一直在探索,在一个安全、稳定的自动驾驶产品中,深度学习技术应该有着怎样的作用边界,又如何能...

深度学习 Image 开源大数据 神经网络

Delta Lake 和 Apache Hudi 两种数据湖产品全方面对比

Delta Lake 是数砖公司在2017年10月推出来的一个项目,Hudi(Hoodie) 是 Uber 为了解决大数据生态系统中需要插入更新及增量消费原语的摄取管道和 ETL 管道的低效问题,本文以中立的态度从高层次简单对比一下这两个数...

大数据 Apache spark scala string read 存储

面对业务增长,Uber是如何扩展HDFS文件系统的

Uber将基于Hadoop的批量和流式分析应用在了广泛的场景中,例如反作弊、机器学习和ETA计算等。随着过去几年的业务增长,Uber的数据容量和访问负载也呈现了指数级增长的趋势。同时保证系统扩展能力和高性能并不是一件容易的事情,本文将详细介...

hdfs hadoop 性能 基础设施 集群 Image 存储

Python中的图像增强技术

图像增强是一种非常强大的技术,针对现有图像人为创建各种变化以扩展图像数据集,例如缩放现有图像、将现有图像旋转几度、剪切或裁剪图像等等。在本文中,我们将使用 imgaug 库探索 Python 中的图像增强技术。

python bbs Image 开源大数据

回顾《网易数据基础平台建设》

主要是从数据库内核到大数据平台底层技术开发,分享网易数据科学中心多年大数据建设经验。

大数据 innodb hbase 性能 数据库 Image Hive 存储

疫情当下,请把掌声送给闷声不说话的阿里巴巴

政府很重要,但政府本身并不创造财富,在经济活动中,企业是主角,企业家是翩翩起舞的角色。 这一次,请把掌声送给闷声不说话的阿里,送给所有的中国企业家。

大数据 算法 Image 淘宝

SQL 查询的分布式执行与调度

OLAP 是大数据分析应用非常重要的组成部分。这篇文章是介绍 OLAP 任务在并发/分布式环境下执行和调度的算法和模型的。我们将从最简单的 Volcano 模型开始讲起,逐步引出分布式环境下执行 OLAP 查询操作的一些挑战和经典的解决方案...

分布式 算法 SQL 线程 HASH exchange CPU

10年后,阿里给千万开源人写了一封信

年末将至,阿里巴巴开源技术委员会负责人贾扬清写了一封信,想要和热爱开源的你说一声:谢谢。未来,我们希望与更多开源人一起,用技术普惠世界。

大数据 Apache Image 钉钉 spark 开源大数据 分布式计算

F1 Query: Declarative Querying at Scale

2013 年的 F1 是基于 Spanner,主要提供 OLTP 服务,而新的 F1 则定位则是大一统:旨在处理 OLTP/OLAP/ETL 等多种不同的 workload。但是这篇新的 F1 论文对 OLTP 的讨论则是少之又少,据八卦是...

分布式 SQL 数据处理 Image Server google Mapreduce 存储 fragment

2019年Apache Spark技术交流社区原创文章回顾

整理了这一年分享过的来自诸多专家的实践经验,希望2020年我们仍然能够互相支持,壮大Spark社区。

大数据 SQL Apache Cache 数据分析 spark aliyun 开源大数据 EMR 存储

8
GO