海量数据处理技术学习

简介: 海量数据处理的常用技术可分为:   外排序:因为海量数据无法全部装入内存,所以数据的大部分存入磁盘中,小部分在排序需要时存入内存。   MapReduce:分布式处理技术   hash技术:以Bloom filter技术为代表   外排序:主要适用于大数据的排序、去重。

海量数据处理的常用技术可分为:

  外排序:因为海量数据无法全部装入内存,所以数据的大部分存入磁盘中,小部分在排序需要时存入内存。

  MapReduce:分布式处理技术

  hash技术:以Bloom filter技术为代表

 

外排序:主要适用于大数据的排序、去重。

 

分布式处理技术:MapReduce 技术思想是将数据交给不同的机器去处理,将数据切分,之后结果归约。

举例,统计出一批数据的TOP N

首先可以根据数据值或者数据HASH(MD5)后的值将数据按照范围划分,不同的服务器负责处理各种的数值范围,实际上就是map,得到结果后,各个服务器拿出各自的出现次数最多的前N个数据,然后汇总,选出所有的数据中出现次数最多的前N个数据,这实际上就是reduce的过程。

 

1、处理海量数据的常用技巧,比如分区操作。比如针对按年份或按月份存取的数据,将数据分散开,减少磁盘I/0,减少系统负荷,也可将日志、索引存放于不同的分区下。

2、提高硬件条件、增加CPU,加大磁盘空间等。

3、加大虚拟内存。

4、分批处理。 可以对海量数据分批处理,处理后的数据再进行合并操作,这样逐个击破,有利于下哦数据量的处理。 一般按日、月等存储的数据,都可以采用先分后合的方法,对数据分开处理。

5、使用临时表和中间表。 如果大表处理不了,只能拆分为多个小表,不要一个sql语句全部完成,卡死你。

6、部分文件可以使用文件格式进行处理。一般海量的网络日志都是文本格式或者CSV格式,对它进行处理牵扯到数据清洗,可以利用程序进行处理,无需导入数据库再做清洗。

目录
相关文章
|
4月前
|
机器学习/深度学习 存储 人工智能
大数据处理与分析技术:未来的基石
在信息化时代,数据已成为企业发展和决策的基础。而随着数据量的不断增长,传统的数据处理方法已经无法满足现代企业的需求。因此,大数据处理与分析技术的出现成为了新时代的必需品。本文将介绍大数据处理与分析技术的概念,意义、应用场景以及未来发展趋势。
53 3
|
4月前
|
存储 数据采集 机器学习/深度学习
数据时代的新疆域:大规模数据处理的技术启示
大规模数据处理已经成为当今数字化时代的核心竞争力。本文将探讨大规模数据处理的重要性以及相关技术的应用,展示数据时代带来的新疆域,为企业和社会创造巨大的机遇。
28 0
|
10月前
|
存储 算法 搜索推荐
海量数据处理
海量数据处理
116 0
|
算法 搜索推荐 机器学习/深度学习
10种传统机器学习算法,阿里工程师帮你总结了
这篇文章主要介绍推荐系统中传统机器学习算法,写这篇文章的主要目的是对业界主流推荐算法的一些总结,方便大家对主流推荐算法的底层实现有的了解,从而在业务实践过程中更好地理解算法,运用算法。
3150 0
|
流计算 SQL HIVE
小红书如何实现高效推荐?解密背后的大数据计算平台架构
小红书作为生活分享类社区,目前有8500万用户,年同比增长为300%,大约每天有30亿条笔记在发现首页进行展示。推荐是小红书非常核心且重要的场景之一,本文主要分享在推荐业务场景中小红书的实时计算应用。
小红书如何实现高效推荐?解密背后的大数据计算平台架构
|
存储 分布式计算 大数据
好程序员大数据入门学习之Hadoop技术优缺点
  **好程序员**大数据培训的终极目标是将你培养成一名“复合型”研发人才,让你自己在掌握相关大数据技术的同时,也能够赢得一份高薪职位!好程序员大数据开发采用“T”字形的思维,以大数据的深度为主,以机器学习、云计算等作为宽度,相辅相成。
1635 0
|
机器学习/深度学习 算法 大数据
《大数据分析原理与实践》——小结
本节书摘来自华章计算机《大数据分析原理与实践》一书中的第3章,小结,作者 王宏志,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1107 0
|
新零售 搜索推荐 大数据
《大数据分析原理与实践》——1.3 什么是大数据分析
本节书摘来自华章计算机《大数据分析原理与实践》一书中的第1章,第1.3节,作者 王宏志,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1725 0