1. 云栖社区>
  2. 全部标签>
  3. #数据处理#
数据处理

#数据处理#

已有4人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

Kubernetes - 4.7 Workload - Job

什么是Job? Job一般用于数据处理、迁移等一次性任务处理场景,Job会创建Pod进行作业并确保完成。 Job作业模式 非并行作业: 作业完成后Pod自动终止。 具有完成次数计数的并行作业:指定所需完成作业的次数,作业完成后Pod自动终止。

数据处理 Image metadata perl k8s job kuberentes

SLS数据处理实践:加工延迟篇

在日志服务,数据加工功能(功能介绍)用于完成对Logstore数据的预处理,为后续的分析阶段准备数据。本文主要介绍数据加工实践中可能遇到的延迟问题,帮助大家理清延迟现象背后的原因,以及如何去监控、解决延迟问题。

etl 日志 日志服务 SLS 数据处理 Image cdn 正则表达式 aliyun html 延迟 预处理 数据加工

菜鸟供应链实时数仓的架构演进及应用场景

菜鸟数据&规划部高级数据技术专家贾元乔从数据模型、数据计算、数据服务等几个方面介绍了菜鸟供应链数据团队在实时数据技术架构上的演进,以及在供应链场景中典型的实时应用场景和 Flink 的实现方案。

大数据 架构 监控 etl 数据处理 数据库 消息中间件 流计算 flink 实时计算

覆盖电商、推荐、ETL、风控等多场景,网易的实时计算平台做了啥?

目前网易流计算规模已经达到了一千多个任务,2 万多个 vcores 以及 80 多 T 的内存,网易流计算覆盖了绝大多数场景,包括广告、电商大屏、ETL、数据分析、推荐、风控、搜索、直播等。

分布式 大数据 监控 etl SQL 日志 模块 数据处理 高可用 数据库 电商 流计算 flink 实时计算 实时数仓

Demo:基于 Flink SQL 构建流式应用

本文所有的实战演练都将在 Flink SQL CLI 上执行,全程只涉及 SQL 纯文本,无需一行 Java/Scala 代码,无需安装 IDE。

大数据 docker SQL Apache 数据处理 容器 索引 Elasticsearch demo Create type 流计算 flink 实时计算

首发|《Apache Flink 年度最佳实践》,揭秘一线大厂实时平台构建实践

甄选 Apache Flink 及大数据领域顶级盛会 Flink Forward Asia 大会嘉宾精彩分享,覆盖国内外一线大厂实时平台构建的经验分享与实时数仓的应用实践,为你揭秘实时计算平台从无到有到有、持续优化的详细细节!

大数据 最佳实践 Apache 数据处理 平台架构 数据分析 aliyun 流计算 海量数据 flink 实时计算 多维分析 流批一体

102万行代码,1270 个问题,Flink 新版发布了什么?(附最佳实践电子书)

2 月 12 日,Apache Flink 1.10.0 正式发布,在 Flink 的第一个双位数版本中正式完成了 Blink 向 Flink 的合并。在此基础之上,Flink 1.10 版本在生产可用性、功能、性能上都有大幅提升。本文将详细为大家介绍该版本的重大变更与新增特性。

python 大数据 函数 性能 SQL Apache 数据处理 配置 容器 内存管理 Hive 流计算 flink 实时计算 1.10

Spring Batch 配置一个步骤(Step)

如我们在 域语言(Domain Language)章节中讨论的内容一致,一个 步骤(Step)是一个独立封装了执行顺序的批量作业(Job),并且包含有用于定义和控制一个批量作业的所有独立信息。 针对这个 Step 的定义必然是非常模糊的,因为任何一个给定步骤的内容都会被要求开发人员在编写一个作业(job)的时候被描述。

数据处理 数据库 spring 配置

阿里云通用网络增强型sn2ne 服务器配置性能及如何选择?

阿里云服务器通用网络增强型实例sn2ne是俗称的独享型主机,可以独自使用百分百系统资源,不存在CPU限制和资源争抢的情况。

服务器 性能 数据处理 高并发 配置 集群 主机 Image 数据分析 阿里云服务器 aliyun CPU 云服务器ECS

EMR弹性低成本离线大数据分析

布式计算框架系统分别为Hadoop、Spark和Storm, Hadoop可以运用在很多商业应用系统,可以轻松集成结构化、半结构化以及非结构化数据集,Spark采用了内存计算,允许数据载入内存作反复查询,融合数据仓库、流处理和图形计算等多种计算范式,Spark能够与Hadoop 很好地结合,Storm用于处理高速、大型数据流的分布式实时计算系用,为Hadoop添加可靠的实时数据处理能力。

分布式 storm hadoop 数据处理 数据流 数据仓库 系统环境 电商 Image 弹性伸缩 spark 对象存储 e-mapreduce EMR 大数据分析

Flink 1.10 Native Kubernetes 原理与实践

Flink 在 1.10 版本完成了 Active Kubernetes Integration 的第一阶段,支持了 session clusters。后续的第二阶段会提供更完整的支持,如支持 per-job 任务提交,以及基于原生 Kubernetes API 的高可用,支持更多的 Kubernetes 参数如 toleration, label 和 node selector 等。

大数据 java native 日志 Apache 数据处理 高可用 cluster 集群 pods 流计算 kubernetes flink 实时计算 流批统一

从 Spark Streaming 到 Apache Flink:bilibili 实时平台的架构与实践

本文由 bilibili 大数据实时平台负责人郑志升分享,基于对 bilibili 实时计算的痛点分析,详细介绍了 bilibili Saber 实时计算平台架构与实践。本次分享主要围绕以下四个方面:实时计算的痛点、Saber 的平台演进、结合 AI 的案例实践、未来的发展与思考。

大数据 redis 架构 hbase SQL Apache 数据处理 集群 spark 流计算 flink 实时计算

数据分析到底需要哪些能力?

数据分析师的能力模型是数据分析面试的时候,常会被问到的一个问题,对这个问题的理解能够体现出候选人对这一职位的理解和未来发展的思考。

数据处理 排序 数据分析

Quick BI和Power BI实测比对

作者:徐姗 更多内容详见数据中台官网 https://dp.alibaba.com 摘要:Quick BI和Power BI分别是阿里云和微软云上的官方BI产品,两款产品都是比较好的自助式商业智能软件,都具备云BI的优势,既能够像SaaS运行在阿里云或者Azure云上,又能快速部署到本地的服务器中运行。

服务器 数据处理 数据库 Image 数据分析 钉钉 报表 Excel 可视化报表

速度收藏!看完这份知识图谱,才算搞懂 Flink!

社区整理了这样一份知识图谱,由 Apache Flink Committer 执笔,四位 PMC 成员审核,将 Flink 9 大技术版块详细拆分,突出重点内容并搭配全面的学习素材。看完这份图谱,才算真的搞懂 Flink!

大数据 storm Apache 数据处理 编程 html 流计算 flink 实时计算 知识图谱

Serverless对日志服务中的数据进行ETL处理

通过日志服务+函数计算ETL,快速完成日志采集、加工、查询、分析和展示。

大数据 etl 函数 日志 数据处理 Image 弹性计算 aliyun 存储

138
GO