1. 云栖社区>
  2. 全部标签>
  3. #开源大数据#
开源大数据

#开源大数据#

已有1人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

云原生计算引擎挑战与解决方案

云原生背景介绍与思考 图一是基于ECS底座的EMR架构,这是一套非常完整的开源大数据生态,也是近10年来每个数字化企业必不可少的开源大数据解决方案。主要分为以下几层: ECS物理资源层,也就是Iaas层 数据接入层,例如实时的Kafka,离线的Sqoop 存储层,包括HDFS和OSS,以及EMR自研的缓存加速JindoFS 计算引擎层,包括熟知的Spark,Presto、Flink等这些计算引擎 数据应用层,如阿里自研的Dataworks、PAI以及开源的Zeppelin,Jupyter 每一层都有比较多的开源组件与之对应,这些层级组成了最经典的大数据解决方案,也就是EMR的架构。

大数据 架构 性能 集群 容器 云盘 spark 解决方案 开源大数据 EMR service 存储

数据湖元数据服务的实现和挑战

大数据引擎的现状 在大数据计算和存储领域,因不同业务场景、不同数据规模,诞生了很多适合处理不同需求的各类大数据引擎,比如计算引擎类有数据分析引擎Hive、交互式分析引擎Presto、迭代计算引擎spark以及流处理引擎Flink等,存储类有日志存储系统的SLS、分布式文件系统HDFS等,这些引擎和...

大数据 模块 开源大数据 分布式文件系统 插件 存储 数据管理

重磅发布!阿里云实时计算 Flink 版9大行业应用案例汇总

2020 年在国际知名咨询调研公司Forrester 的测评中,实时计算 Flink版成为中国唯一进入Forrester象限的实时流计算产品。

分布式 大数据 架构 性能优化 Apache 系统监控 数据流 集群 开源大数据 API 数据中心 流计算

@所有人 Flink Forward Asia 2020 向您发出议题征集邀请!

2020年,加快应用数字技术,推动企业的数字化转型、科学高效发展几乎已成为业界共识。人工智能、大数据、云计算、移动互联网...每一场技术革新都曾被寄予厚望。在此背景下,企业与个人如何不被时代浪潮裹挟,寻找核心技术的未来价值?

大数据 开源大数据 移动互联网

开源 Flink + 实时计算 Flink 版训练营学习资料汇总

Apache Flink 是一个开源的分布式大数据处理引擎, 可对有限数据流和无限数据流进行有状态计算。实时计算 Flink版是阿里云提供的基于 Apache Flink 构建的企业级、高性能实时大数据处理系统,由Apache Flink创始团队官方出品。

分布式 大数据 架构 性能优化 Apache 系统监控 数据流 aliyun 开源大数据 数据中心 流计算

文末有福利!Spark 实战训练营新增1000名额,8月24日正式开课

Spark 实战训练营新增1000名额,8月24日正式开课

大数据 钉钉 spark aliyun 开源大数据

SaaS模式云数据仓库 MaxCompute 企业级安全能力升级—持续定义云原生

日前,阿里云SaaS模式云数据仓库MaxCompute 全面升级企业级安全新能力,新发布功能包含实时审计日志、细粒度授权、数据脱敏、存储加密( BYOK)、持续备份恢复和跨地域的容灾备份。MaxCompute作为全托管大数据平台内建完善的安全管理能力,本次升级将对企业云上数据和业务形成更加全面和细粒度的保护,有效提升企业安全管理水平。

大数据 安全 数据仓库 SaaS 数据安全 Image aliyun 开源大数据 容灾 系统安全 权限管理 MaxCompute

Apache Spark 3.0 中的向量化 IO

在 Apache Spark 3.0 中,SparkR 中引入了一种新的向量化(vectorized)实现,它利用 Apache Arrow 直接在 JVM 和 R 之间交换数据,且(反)序列化成本非常小

分布式 jvm 函数 性能 SQL Apache 测试 Image spark scala 开源大数据 DataFrame API 数据类型

SparkSQL中产生笛卡尔积的几种典型场景以及处理策略

本文介绍都有哪些情况会产生笛卡尔积,以及如何事前"预测"写的SQL会产生笛卡尔积从而避免

hadoop SQL Apache spark 开源大数据 string Hive

JindoFS - 分层存储

JindoFS 存储内部我们是通过分层存储来降低这部分冷数据的存储成本,提高热数据的访问性能。

大数据 性能 高可用 钉钉 aliyun 开源大数据 对象存储 高性能 存储 数据存储

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题介绍

架构 Apache 人工智能 集群 钉钉 spark aliyun 开源大数据

Spark 10年,作者 Matei 在 Spark + AI Summit 2020 上深情回顾

在Spark + AI Summit 2020上, Matei 先生的keynote对 Spark 10 年做了非常精彩的演讲和深情的回顾。SparkSQL 重回巅峰,在性能上大幅超越 Presto。在过去几年,我们见过了太多的 benchmark,大家都在纷纷超越 Spark。

大数据 SQL Apache Image 钉钉 spark aliyun 开源大数据 对象存储 云平台 分布式系统

Spark Packages寻宝(一):简单易用的数据准备工具Optimus

本文主要介绍了Optimus项目,作为一个Spark的第三方库,Optimus基于PySpark,为用户提供了一套完整的数据质量探查和数据清理工具集,接口参考Pandas设计,易用且强大,非常适合大规模数据的清理准备工作。

python 数据分析 spark 开源大数据 DataFrame pandas Security csv 数据类型

直播 | Delta Lake 如何帮助云用户解决数据实时入库问题

6月14日,大数据+AI Meetup 在线直播!Apache Flink Committer,阿里巴巴技术专家辛庸将现场分享《Delta Lake 如何帮助云用户解决数据实时入库问题》,还有快手春晚项目的独家实践、网易云音乐 Flink + Kafka 的生产落地等。

大数据 架构 钉钉 spark 开源大数据

Spark-TFRecord: Spark将全面支持TFRecord

本文中,我们将介绍 Spark 的一个新的数据源,Spark-TFRecord。Spark-TFRecord 的目的是提供在Spark中对原生的 TensorFlow 格式进行完全支持。本项目的目的是将TFRecord 作为Spark数据源社区中的第一类公民,类似于 Avro,JSON,Parquet等。

深度学习 数据处理 数据库 Image spark 开源大数据 磁盘 数据结构 数据类型 github

不通过 Spark 获取 Delta Lake Snapshot

Delta Lake 进行数据删除或更新操作时实际上只是对被删除数据文件做了一个 remove 标记,在进行 vacuum 前并不会进行物理删除,因此一些例如在 web 上获取元数据或进行部分数据展示的操作如果直接从表路径下获取 parquet 文件信息,读到的可能是历史已经被标记删除的数据。

hadoop Apache path spark 开源大数据 string static arraylist

阿里云发起首届 Spark “数字人体” AI 挑战赛 — 聚焦上班族脊柱健康

2020年6月4日,首届 Apache Spark AI 智能诊断大赛在天池官网上线。Spark “数字人体” AI 挑战赛——脊柱疾病智能诊断大赛,聚焦医疗领域应用,召集全球开发者利用人工智能技术探索高效准确的脊柱退化性疾病自动诊断。

Apache 人工智能 Image 钉钉 spark aliyun 开源大数据 医疗

17
GO