1. 云栖社区>
  2. 全部标签>
  3. #开源大数据#
开源大数据

#开源大数据#

已有1人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

解析SparkStreaming和Kafka集成的两种方式

spark streaming是基于微批处理的流式计算引擎,通常是利用spark core或者spark core与spark sql一起来处理数据。在企业实时处理架构中,通常将spark streaming和kafka集成作为整个大数据处理架构的核心环节之一。

大数据 线程 Image spark 开源大数据 磁盘

Python搭建新冠肺炎预测模型全解读

新冠病毒疫后复工成为当务之急,然而病毒尚未消散,风险权衡面临不确定因素。传统机器学习模型虽然可以精确拟合历史数据,但由于脱离疾病传播机理,外推预测的可靠性低。与以往的疾病传播模型不同,南栖仙策的模型对病情的发展进行建模,能够更好的模拟潜伏期、无症状感染者。

python Image 开源大数据

Data Lake 三剑客——Delta、Hudi、Iceberg 对比分析

定性上讲,三者均为 Data Lake 的数据存储中间层,其数据管理的功能均是基于一系列的 meta 文件。meta 文件的角色类似于数据库的 catalog/wal,起到 schema 管理、事务管理和数据管理的功能。

大数据 性能 spark 开源大数据 schema update 数据管理

每年 150 亿美元花哪了?Netflix 的大规模 Kafka 实践

Netflix 在 2019 年花费了大约 150 亿美元来制作世界一流的原创内容。在如此高的投入之下,我们必须获得许多关键的业务见解,从而为所有 Netflix 内容的策划、预算和效益分析工作提供帮助

分布式 架构 Apache 微服务 Image 同步 开源大数据 分布式系统

深度学习技术在自动驾驶中的应用与挑战

深度学习技术经过近几年井喷式的发展,在很多领域都得到了广泛的应用。在自动驾驶系统中,深度学习技术也起到了至关重要的作用,同时也面临着非常多的挑战。我们一直在探索,在一个安全、稳定的自动驾驶产品中,深度学习技术应该有着怎样的作用边界,又如何能最好地发挥其优势。

深度学习 Image 开源大数据 神经网络

【全新系列】DataWorks 2019-12 产品月刊

产品首月99元活动、V3版本全新升级、产品满意度调研代金券奖励、新功能邀测,赶紧来了解详细内容吧

大数据 数据分析 钉钉 同步 aliyun 开源大数据 MaxCompute 可视化报表

DataWorksV3.0全新发布,新特性快速一览

DataWorks V3.0全新升级了多引擎架构,在MaxCompute的基础之上,全新支持了开源大数据引擎E-MapReduce、实时计算(Flink)、交互式分析、图计算服务(Graph Compute)。

大数据 数据分析 aliyun 开源大数据 e-mapreduce 插件 html MaxCompute 可视化报表

Python中的图像增强技术

图像增强是一种非常强大的技术,针对现有图像人为创建各种变化以扩展图像数据集,例如缩放现有图像、将现有图像旋转几度、剪切或裁剪图像等等。在本文中,我们将使用 imgaug 库探索 Python 中的图像增强技术。

python bbs Image 开源大数据

10年后,阿里给千万开源人写了一封信

年末将至,阿里巴巴开源技术委员会负责人贾扬清写了一封信,想要和热爱开源的你说一声:谢谢。未来,我们希望与更多开源人一起,用技术普惠世界。

大数据 Apache Image 钉钉 spark 开源大数据 分布式计算

2019年Apache Spark技术交流社区原创文章回顾

整理了这一年分享过的来自诸多专家的实践经验,希望2020年我们仍然能够互相支持,壮大Spark社区。

大数据 SQL Apache Cache 数据分析 spark aliyun 开源大数据 EMR 存储

2019年Apache Spark技术交流社区原创文章回顾

整理了这一年分享过的来自诸多专家的实践经验,希望2020年我们仍然能够互相支持,壮大Spark社区。

大数据 SQL Apache Cache 数据分析 spark aliyun 开源大数据 EMR 存储

spark过节监控告警系统实现

保证过年期间自己对自己的应用了如执掌,一般公司都会有轮值人员,对于我们这些搞平台和线上应用的,至少要有春节应急预案。今天浪尖主要是分享一下关于在yarn上的spark 任务我们应该做哪些监控,如何监控。

监控 spark 开源大数据 string class unit

通过Kafka Connect进行数据迁移

在流式数据处理过程中,E-MapReduce经常需要在Kafka与其他系统间进行数据同步或者在Kafka集群间进行数据迁移。本节向您介绍如何在E-MapReduce上通过Kafka Connect快速的实现Kafka集群间的数据同步或者数据迁移。

数据库 配置 安全组 集群 Image 数据迁移 开源大数据 e-mapreduce 数据同步 curl

通过Spark Streaming作业处理Kafka数据

如何使用阿里云E-MapReduce部署Hadoop集群和Kafka集群,并运行Spark Streaming作业消费Kafka数据。

hadoop 安全组 集群 主机 Image 控制台 spark aliyun 开源大数据 e-mapreduce test html

相比Spark等传统模式,Flink 和 K8S是怎样的结合

Apache Flink 是近年来越来越流行的一款开源大数据计算引擎,它同时支持了批处理和流处理。大数据起源自批处理,Spark最初的定位就是改进Hadoop, 更快速的进行批处理。而Storm擅长的则是进行无状态的流计算(在无状态的流计算领域, 它的延迟是最小的), 进而出现的Flink则是Storm的下一代解决方案。

大数据 storm SQL 集群 控制台 spark 开源大数据 监控工具 流计算

Java工程师该如何编写高效代码?| 12月18号云栖号夜读

今天的首篇文章,讲述了:世界上只有两种物质:高效率和低效率;世界上只有两种人:高效率的人和低效率的人。——萧伯纳。同理,世界上只有两种代码:高效代码和低效代码;世界上只有两种人:编写高效代码的人和编写低效代码的人。

云栖社区 大数据 java aliyun 开源大数据 activity

Delta Lake 0.5.0 正式发布,支持包括 Hive/Presto 等多种查询引擎

Delta Lake 0.5.0 于2019年12月13日正式发布,这个版本支持多种查询引擎查询 Delta Lake 的数据,比如常见的 Hive、Presto 查询引擎。并发操作得到改进。

SQL path 数据仓库 钉钉 spark 开源大数据 Redshift Hive html 并发控制

开源大数据生态下的 Flink 应用实践

11 月 28-30 日,Flink Forward Asia 邀请来自阿里巴巴、戴尔科技集团、英特尔、Cloudera、趣头条、百度、Stream Native 等不同方向的技术专家围绕 Apache Flink 核心大数据生态探讨当下大数据的发展趋势与未来动向,并展现相关技术在一线生产场景的优秀实践。

大数据 SQL Apache 流式计算 开源大数据 Hive 培训 流计算 数据管理 实时计算 ClickHouse ApacheFlink

重磅揭晓!Flink Forward Asia 2019 议程完整出炉

60 年前,人工智能的诞生刷新了人类对技术的期待;过去 10 年,大数据、云计算等核心技术的发展,推动了整个社会的重构与革新;5 年时间,移动互联网从诞生到逐步实现万物互联,数据在现实中的边界正在不断被拓展;技术迭变的进程不断加快,新兴技术的涌现昼夜不停。

深度学习 大数据 Apache 人工智能 开源大数据 培训 流计算 ApacheFlink 实时技术 FlinkForwardAsia

14
GO