1. 阿里云>
  2. 云栖社区>
  3. 主题地图>
  4. D>
  5. 大数据处理方法

当前主题:大数据处理方法

大数据处理方法相关的博客

查看更多 写博客

为什么Flink会成为下一代大数据处理框架的标准?

导读:本文将告诉你Flink是什么,以及为什么Flink会成为下一代大数据处理框架的标准。 01 什么是Flink? 在当前数据量激增传统的时代,不同的业务场景都有大量的业务数据产生,对于这些不断产生的数据应该如何进行有效地处理,成为当下大多数公司所面临的问

阅读全文

敏捷AI | NLP技术在宜信业务中的实践【构建用户画像篇】

高级场景之构建客户画像 在许多企业中,每天业务人员和客户的沟通都会产生大量记录,这些记录可能包括了客服的沟通数据(通话记录、通话小结),也可能包括了各式各样的报告数据(陪访报告、征信报告等)(见图1)。 图1 业务人员与客户产生沟通记录 前者可能口语会多一些

阅读全文

Apache Flink 进阶入门(二):Time 深度解析

作者:崔星灿 整理:沙晟阳(成阳) 前言 Flink 的 API 大体上可以划分为三个层次:处于最底层的 ProcessFunction、中间一层的 DataStream API 和最上层的 SQL/Table API,这三层中的每一层都非常依赖于时间属性。

阅读全文

日志服务在CDN流量指标中的异常检测实战(上)

本次专题主要包括四个方面内容,第一部分介绍AIOps平台,以及具备的能力和功能。第二部分讲解阿里云日志服务平台的作用,以及支撑AIOps的应用。第三部分为目前关注的异常检测算法的介绍。第四部分以一个实际的场景作为案例介绍流量场景中的实战,并加以分析。 本文为

阅读全文

面试系列:十个海量数据处理方法大总结

5万人关注的大数据成神之路,不来了解一下吗?5万人关注的大数据成神之路,真的不来了解一下吗?5万人关注的大数据成神之路,确定真的不来了解一下吗? 欢迎您关注《大数据成神之路》 本文将简单总结下一些处理海量数据问题的常见方法。当然这些方法可能并不能完全覆盖所有

阅读全文

阿里巴巴飞天大数据架构体系与Hadoop生态系统

很多人问阿里的飞天大数据平台、云梯2、MaxCompute、实时计算到底是什么,和自建Hadoop平台有什么区别。 先说Hadoop 什么是Hadoop? Hadoop是一个开源、高可靠、可扩展的分布式大数据计算框架系统,主要用来解决海量数据的存储、分析、分

阅读全文

如果你也想做实时数仓…

作者:郭华(付空) 数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务,数据仓库的建设也是“数据智能”中必不可少的一环。本文将从数据仓库的简介、经历了怎样的发展、如何建设、架构演变、应用案例以及实时数仓与离线数仓的对比六个方面全面分享关于数仓的详细

阅读全文

如果你也想做实时数仓…

作者:郭华(付空) 数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务,数据仓库的建设也是“数据智能”中必不可少的一环。本文将从数据仓库的简介、经历了怎样的发展、如何建设、架构演变、应用案例以及实时数仓与离线数仓的对比六个方面全面分享关于数仓的详细

阅读全文

大数据处理方法相关问答

查看更多 提问题

并发读取大文件

我正在创建一个python管道来处理非常大的二进制文件(即50+ GB)。它们是BAM文件,一种用于表示基因组的格式。我的脚本目前受到两个计算量很大的子进程调用的瓶颈。 这两个命令占用了每次运行管道的约80%的计算时间,因此我需要找到一种方法来加速这个过

阅读全文

将2D数据分组为x,y中的重叠圆圈

我目前正在处理一个相当大的3D点数据集(x,y,z),并想要一种有效的方法来识别xy平面中一组圆内的哪些点,半径为r和中心(x1,y1) ),其中x1和y1是网格坐标(每个长度为120)。圆圈将重叠,某些点将属于多个圆圈。 因此,输出将是14400个圆(

阅读全文

[@倚贤][¥20]Java对于大数据处理有没有好的方法?一直都只接触python处理海量数据,但是应该处理数据不可能仅仅局限于一种语言,或者说Java在这方面是不是存在某种缺陷。

问题来自Java技术沙龙的杨文庆 Java技术沙龙报名链接:https://yq.aliyun.com/promotion/796

阅读全文

[@小川游鱼][¥20]大数据环境中,根据一张表(idList)的数据去修改另一张表的数据(id_label),有没有比较高效的方法?

现在有一个类似的需求,在cloudera环境中,是根据一个表的数据去更新另一个表的对应的行的某个字段。 如在hive中有: 表A(字段有一个,为id),对应数据为(1,2); 表B(字段有两个,分别为 id:label),对应数据为(1:N,

阅读全文

Spark在创建数据集时无法反序列化记录

我正在从S3读取大量的CSV(一切都在一个键前缀下)并创建一个强类型的Dataset。 val events: DataFrame = cdcFs.getStream() events .withColumn("event", lit("I"))

阅读全文

Flink批处理接收器

我试图以流式和批量方式使用flink,将大量数据添加到Accumulo(每分钟几百万)。我想在将记录发送到Accumulo之前批量记录。我从目录或通过kafka摄取数据,使用flatmap转换数据,然后传递给RichSinkFunction,RichSinkF

阅读全文

Flink和Beam SDK如何处理窗口 - 哪个更有效?

我将Apache Beam SDK与用于流处理的Flink SDK进行比较,以确定使用Beam作为附加框架的成本/优势。 我有一个非常简单的设置,其中从Kafka源读取数据流并由运行Flink的节点集群并行处理。 根据我对这些SDK如何工作的理解,

阅读全文

hive 有没有办法实现一行 按照 某两列的数值 拆分成多行的方法?

比如一行数据如下: |start|end|name| | --- | --- | |1|5|one| |6|7|two| <br/> 处理完的数据长这样: |point|start|end|name| | --- | --- | |1|1|5

阅读全文