1. 云栖社区>
  2. 全部标签>
  3. #数据处理#
数据处理

#数据处理#

已有4人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

大数据学习路线分享MAPREDUCE

  大数据学习路线分享MAPREDUCE,需求:统计大量的文本文件中的单词出现的次数 1)整个运算需要分阶段 阶段一:并行局部运算 阶段二 :汇总处理,不同的阶段需要开发不同的程序 2)阶段之间的调用 3)业务程序(task程序)如何并发到集群并启动程序 4)如何监控task程序的运行状...

大数据 hdfs 数据处理 reduce Mapreduce 数据类型 Map 好程序员

选型宝分享Informatica中国数据管理5大经典案例

写在前面 5月18日,选型直播曾做过一期题为“移动+社交时代,如何治理大数据洪水?”的节目,在那期节目中,Informatica北方区总经理李晨先生系统地介绍了Informatica公司的背景、大数据治理的完整框架,以及最新的“智能数据湖”解决方案。

大数据 架构 数据处理 数据仓库 数据安全 解决方案 数据管理 数据治理 IT选型 选型

选型宝访谈:如何构筑BAT级的用户行为分析能力?

前言 随着流量红利时代的结束,互联网迎来了更加精细化的用户与订单时代。今天,从数据出发,深度了解用户行为,持续优化产品、营销和运营,成为企业制胜的关键。在这样的背景下,数据分析平台成为助力企业实现“数据驱动”和精细化运营的必备工具。

数据处理 互联网 数据分析 运营 数据采集 移动互联网 IT选型 选型 数据分析平台

Python数据处理之导入导出excel数据

本文首发于公众号“AntDream”,欢迎微信搜索“AntDream”或扫描文章底部二维码关注,和我一起每天进步一点点 Python的一大应用就是数据分析了,而数据分析中,经常碰到需要处理Excel数据的情况。

python 数据处理 test Excel pattern

阿里云通用网络增强型sn2ne云服务器配置性能评测

阿里云通用网络增强型sn2ne云服务器是企业级高性能云服务器规格,sn2ne是100%独占资源的云服务器,码笔记分享通用网络增强型sn2ne实例的配置、性能评测及优惠信息: 一:通用网络增强型sn2ne实例特点 阿里云通用网络增强型sn2ne云服务器属于企业级高性能云服务器,个人用户和企业用户均可以购买。

性能 ECS 云服务器 网络性能 数据处理 配置 集群 云盘 阿里云服务器 aliyun CPU 高性能 云服务器规格 通用网络增强型sn2ne sn2ne

阿里云官方推荐购买云服务器配置整理

如果您在购买阿里云的时候不知道如何选择阿里云服务器产品配置,不妨可以看看阿里云官方推荐的云服务器配置,个人用户和企业用户均有推荐,我们只需根据自己的场景选择阿里云官方推荐的云服务器配置即可。 阿里云官方推荐云服务器配置地址:阿里云官方推荐购买页 个人用户购买推荐配置1.

分布式 安全 性能 云服务器 数据处理 数据库 配置 阿里云服务器 aliyun 运营 开发环境 并行计算 source 阿里云购买 阿里云服务器配置

初探Java设计模式3:行为型模式(策略,观察者等)

转自https://javadoop.com/post/design-pattern 行为型模式 策略模式 观察者模式 责任链模式 模板方法模式 状态模式 行为型模式总结 行为型模式 行为型模式关注的是各个类之间的相互作用,将职责划分清楚,使得我们的代码更加地清晰。

java 数据处理 string class void

后端技术杂谈3:Lucene基础原理与实践

一、总论 根据lucene.apache.org/java/docs/i…定义: Lucene是一个高效的,基于Java的全文检索库。

数据处理 spark 索引 string lucene

搞懂分布式技术25:初探大数据计算框架与平台

1. 前言 计算机的基本工作就是处理数据,包括磁盘文件中的数据,通过网络传输的数据流或数据包,数据库中的结构化数据等。

分布式 大数据 storm hadoop Apache 数据处理 数据库 reduce 排序 spark 分布式计算 Hive Mapreduce 流计算

mysql分表,分区的区别和联系

一,什么是mysql分表,分区 什么是分表,从表面意思上看呢,就是把一张表分成N多个小表,具体请看mysql分表的3种方法 什么是分区,分区呢就是把一张表的数据分成N多个区块,这些区块可以在同一个磁盘上,也可以在不同的磁盘上,具体请参考mysql分区功能详细介绍,以及实例 二,mysql分表和分区有什么区别呢 1,实现方式上 a),mysql的分表是真正的分表,一张表分成很多表后,每一个小表都是完正的一张表,都对应三个文件,一个.MYD数据文件,.MYI索引文件,.frm表结构文件。

linux mysql 性能 数据处理 高并发 索引 test 分区表 磁盘

58 集团大规模 Storm 任务平滑迁移至 Flink 的秘密

本文主要讲述 58 实时计算平台如何优化 Flink-Storm 以及基于 Flink-Storm 实现真实场景下大规模 Storm 任务平滑迁移 Flink。

大数据 storm 模块 数据处理 配置 集群 Image 实时计算 Apache_Flink 58 Flink-storm

Apache Flink 零基础入门教程(六):状态管理及容错机制

本文主要分享内容如下: - 状态管理的基本概念; - 状态的类型与使用示例; - 容错机制与故障恢复;

大数据 Apache 数据处理 API 数据结构 存储 流计算 实时计算 入门教程 Apache_Flink

Apache Flink 零基础入门(五):流处理核心组件 Time&Window 深度解析

为什么要有 Window; Window 中的三个核心组件:WindowAssigner、Trigger 和 Evictor;Window 中怎么处理乱序数据,乱序数据是否允许延迟,以及怎么处理迟到的数据;最后我们梳理了整个 Window 的数据流程,以及 Window 中怎么保证 Exactly .

大数据 数据处理 存储 流计算 实时计算 入门教程 Apache_Flink

Apache Flink 零基础入门(二):开发环境搭建和应用的配置、部署及运行

本文主要面向于初次接触 Flink、或者对 Flink 有了解但是没有实际操作过的同学。希望帮助大家更顺利地上手使用 Flink,并着手相关开发调试工作。 课程内容包括: - Flink 开发环境的部署和配置 - 运行 Flink 应用(包括:单机 Standalone 模式、多机 S.

hdfs Apache 数据处理 配置 集群 开发环境 zookeeper 流计算 实时计算 apache_flink;

Apache Flink 零基础入门(一):基础概念解析

本文是根据 Apache Flink 基础篇系列直播整理而成,由 Apache Flink PMC 戴资力与阿里巴巴高级产品专家陈守元共同分享。Apache Flink 系列入门教程每周更新一期,持续推送。

Apache 数据处理 数据流 流计算 AI及大数据 Apache_Fink

用Flink取代Spark Streaming!知乎实时数仓架构演进

本文主要讲述知乎的实时数仓实践以及架构的演进,这包括以下几个方面: - 实时数仓 1.0 版本,主题:ETL 逻辑实时化,技术方案:Spark Streaming。 - 实时数仓 2.0 版本,主题:数据分层,指标计算实时化,技术方案:Flink Streaming。

大数据 架构 etl 日志 数据处理 spark 报表 流计算 flink 实时计算 AI及大数据

在MaxCompute中利用bitmap进行数据处理

很多数据开发者使用bitmap技术对用户数据进行编码和压缩,然后利用bitmap的与/或/非的极速处理速度,实现类似用户画像标签的人群筛选、运营分析的7日活跃等分析。本文给出了一个使用MaxCompute MapReduce开发一个对不同日期活跃用户ID进行bitmap编码和计算的样例。

大数据 java 数据处理 odps aliyun string static class void PUT MaxCompute

对象存储OSS如何进行图片处理?

阿里云对象存储服务提供图片处理功能,您可以将常用的图片处理操作保存成样式。一个复杂的操作利用样式功能后,使用一个很短的URL链接就能实现相同的效果。下面我们来介绍一下如何使用图片样式功能。 首先登录阿里云对象存储控制台,选择目标存储空间。

OSS 数据处理 Image 控制台 aliyun 对象存储 url html

131
GO