多来源数据采集、处理的数据流程

简介:

数据平台数据处理流程图

  1. 数据准备:
    主要分为几个来源:FTP数据来源,合作方推送的数据,从携程对外开放的API接口获取数据,酒店管理系统日志数据以及在线旅行社网站的数据源。
  2. 数据接入:
    针对数据多来源的特性开发针对特定场景的数据接入方式。
    a.FTP来源的数据:采用shel脚本开发,包括检查数据是否准备就绪、开始下载、解密解包、lzop压缩、put方式上传文件到HDFS
    b.合作方推送的数据:搭建简单的web服务,接受携程推送的请求,利用Nginx完成请求负载,并利用Nginx记录请求中的数据,写入文件。后续通过日志收集系统获取数据(其实可以从合作方直接将数据推送Kafka的)
    c.合作方API接口数据:开发程序形成生产者消费者模式,生产者将任务写入队列,消费者从队列中获取任务并利用线程池并发从合作方API接口获取数据
    d.PMS日志数据:主要由开源Flume组件完成
    e.网站数据:利用爬虫抓取网站数据

3.数据存储:
分为实时和离线数据存储两种方式,分别通过Kafka和HDFS进行存储
4.数据处理:
在数据处理环节,主要利用MapReduce和Spark进行数据处理任务的开发。
5、数据查询:
将Hive定义在数据查询这一流程,用户在使用数据平台过程中,通过Hive对数据进行查询。

多来源数据采集、处理的数据流程



     本文转自巧克力黒 51CTO博客,原文链接:http://blog.51cto.com/10120275/2044014,如需转载请自行联系原作者



相关文章
|
9月前
|
数据采集 存储 监控
大数据的数据来源 - 数据采集的方式(数据接入的方式)
大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。下面主要介绍下大数据采集
1805 0
|
1月前
|
数据采集 SQL 分布式计算
企业数据采集与分析(论文+源码)_kaic
企业数据采集与分析(论文+源码)_kaic
EMQ
|
17天前
|
数据采集 消息中间件 并行计算
NeuronEX 3.2.0 发布:增强数据采集、分析计算和管理功能
工业边缘网关软件 NeuronEX 3.2.0 版本现已正式发布,本次发布带来了一系列的增强功能和新特性,旨在为用户提供更多数据采集、分析计算以及管理的能力。
EMQ
65 2
NeuronEX 3.2.0 发布:增强数据采集、分析计算和管理功能
|
10月前
|
数据采集 消息中间件 监控
大数据数据采集的数据采集(收集/聚合)的Logstash之数据采集流程的input
在大数据领域,数据采集是非常重要的一环。而Logstash作为一个开源的数据收集引擎,可以帮助我们轻松地实现数据的采集、聚合和传输等功能。本文将会对Logstash之数据采集流程的Input进行详细介绍。
85 1
|
10月前
|
数据采集 JSON 大数据
大数据数据采集的数据采集(收集/聚合)的Logstash之数据采集流程的filter
在大数据领域中,Logstash是一款非常流行的数据采集工具。它可以从各种不同的来源收集和聚合数据,并将其转换成统一格式进行处理。而在Logstash的数据采集过程中,Filter是一个非常重要的环节,可以对数据进行过滤、裁剪、重组等操作。本文将分享如何使用Logstash的Filter功能,来优化数据采集流程。
74 1
|
11月前
|
数据采集 安全 大数据
大数据数据采集的数据来源的第三方服务数据之第三方埋点数据
在大数据应用中,数据采集是非常重要的一步。除了从自有渠道、应用程序和设备中收集数据外,现在越来越多的企业开始使用第三方埋点服务提供商来获取更丰富的数据。本文将重点介绍第三方埋点数据在数据采集中的作用。
169 0
|
11月前
|
存储 数据采集 NoSQL
大数据数据采集的数据来源的日志数据之埋点访问数据
在大数据采集中,埋点访问数据是一种常见的日志数据类型。本文将介绍什么是埋点访问数据以及如何高效地从该类型的数据中采集和处理数据。
121 0
|
11月前
|
存储 数据采集 大数据
大数据数据采集的数据来源的日志数据之接口请求数据
在大数据采集中,数据来源多种多样,其中日志数据是一种常见的数据类型。接口请求数据是日志数据的一种形式,本文将介绍如何高效地从接口请求数据中采集和处理数据。
106 0
|
11月前
|
数据采集 存储 大数据
大数据数据采集的数据来源的爬取的网络数据
在大数据应用中,数据采集是非常重要的一步。网络爬虫技术可以帮助企业从互联网上获得更加丰富、多样化的数据,并为后续的数据分析和运用提供支持。
64 0
|
11月前
|
存储 数据采集 XML
大数据数据采集的数据来源的日志数据之搜索类数据
在大数据领域,数据采集是一个非常重要的环节。日志数据已经成为了大数据应用中不可或缺的一部分,尤其是搜索类数据。本文将介绍搜索类日志数据作为数据来源的特点以及其采集流程。
125 0