【转载】阿里云MVP Meetup 《云数据·大计算:海量日志数据分析与应用》之《数据采集:日志数据上传》篇

本文涉及的产品
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
简介: 本手册为阿里云MVP Meetup Workshop《云计算·大数据:海量日志数据分析与应用》的《数据采集:日志数据上传》篇而准备。主要为保障各位学员在workshop当天能够顺畅进行动手实操,那么本节为学员掌握阿里云数据采集的操作和使用。

实验涉及大数据产品

实验环境准备

必备条件:首先需要确保自己有阿里云云账号并已实名认证。详细点击:

开通大数据计算服务MaxCompute

若已经开通和购买了MaxCompute,请忽略次步骤直接进入创建DataWorks项目空间。

  • step1:进入阿里云官网并点击右上角登录阿里云账号。
    step1_
  • step2:点击进入大数据计算服务产品详情页,点击立即开通
    step2_

step2_2_

  • step3:选择按量付费并点击立即购买
    step3_

创建DataWorks项目空间

确保阿里云账号处于登录状态。

  • step1:点击进入大数据(数加)管理控制台>大数据开发套件tab页面下。
  • step2:点击右上角创建项目或者直接在项目列表-->创建项目,跳出创建项目对话框。
    1

选择相应的服务器时如果没有购买是选择不了会提示您去开通购买。数据开发、运维中心、数据管理默认是被选择中。

  • step3:勾选相应的服务单击 确认,跳转到下面的界面,填写相应的信息单击确认,创建项目完成。
    2

项目名需要字母或下划线开头,只能包含字母下划线和数字。
【注意】项目名称全局唯一,建议大家采用自己容易区分的名称来作为本次workshop的项目空间名称。

  • step4:单击进入项目跳转到下面的界面:
    step2_2_

新建数据源

根据workshop模拟的场景,需要分别创建FTP数据源和RDS数据源。

1.新建FTP数据源
  • step1:点击数据集成>数据源,继而点击新增数据源
    step1_
  • step2:选择数据源类型ftp,同时Protocol选择为sftp,其他配置项如下。
    step2_ftp_Protocol_sftp_1_

FTP数据源配置信息如下:

  • 数据源类型类型:有公网ip
  • 数据源名称:ftp_workshop_log
  • 数据源描述:ftp日志文件同步
  • Protocol:sftp
  • Host:118.31.238.64
  • Port:22
  • 用户名/密码:workshop/workshop
  • step3:点击测试连通性,连通性测试通过后,点击确定保存配置。
    step3_
2.新建RDS数据源
  • step1:点击数据集成>数据源,继而点击新增数据源
    step1_
  • step2:选择数据源类型为RDS>mysql并完成相关配置项。
    step2_

RDS数据源配置信息如下:

  • 数据源类型:阿里云数据库(RDS)
  • 数据源名称:rds_workshop_log
  • 数据源描述:rds日志数据同步
  • RDS实例名称:rm-bp1z69dodhh85z9qa
  • RDS实例购买者ID:1156529087455811
  • 数据库名:workshop
  • 用户名/密码:workshop/workshop#2017
  • step3:点击测试连通性,连通性测试通过后,点击确定保存配置。
    step3_

创建目标表

  • step1:点击数据开发,进入数据开发首页中点击新建脚本
    step1_
  • step2:配置文件名称为create_table_ddl,类型选择为ODPS SQL,点击提交
    step2_create_table_ddl_ODPS_SQL_
  • step3:编写DDL创建表语句,如下分别创建FTP日志对应目标表和RDS对应目标表。
    step3_DDL_FTP_RDS_

DDL语句如下:

--创建ftp日志对应目标表
DROP TABLE IF EXISTS ods_raw_log_d;

CREATE TABLE ods_raw_log_d (
  col STRING
)
PARTITIONED BY (
  dt STRING
);

--创建RDS对应目标表
DROP TABLE IF EXISTS ods_user_info_d;
CREATE TABLE ods_user_info_d (
  uid STRING COMMENT '用户ID',
  gender STRING COMMENT '性别',
  age_range STRING COMMENT '年龄段',
  zodiac STRING COMMENT '星座'
)
PARTITIONED BY (
  dt STRING
);
  • step3:点击运行,直至日志信息返回成功表示两张目标表创建成功。

运行DDL

step4:可以使用desc语法来确认创建表是否成功。

DESC

  • step5:点击保存,保存编写的SQL建表语句。

    保存DDL

新建工作流任务

  • step1:点击新建并选择新建任务。href="https://yqfile.alicdn.com/dc80059e519af072213306f0d927b16e8c588a24.png" target="_blank">新建任务
  • step2:选择工作流任务,调度类型选择为周期调度,其他配置项如下。

    配置任务

  • step3:点击创建。
  • step4:进入工作流配置面板,并向面板中拖入一个虚节点(命名为workshop_start)和两个数据同步节点(分别命名为ftp_数据同步和rds_数据同步):
    step4_workshopstart_ftp_rds__

step4_1_workshopstart_ftp_rds__
step4_2_workshopstart_ftp_rds__

  • step5:拖拽连线将workshop_start虚节点设置为两个数据同步节点的上游节点,如下所示:
    step5_workshop_start_
  • step6:点击保存(或直接快捷键ctrl+s)。

配置数据同步任务

1)配置ftp_数据同步节点
  • step1:双击ftp_数据同步节点,进入节点配置界面。选择来源:并选择数据来源事先配置好的ftp数据源,为ftp_workshop_log,文件路径为/home/workshop/user_log.txt。可以对非压缩文件进行数据预览。

    配置同步

同步预览

数据来源配置项具体说明如下:

  • 数据来源:ftp_workshop_ftp
  • 文件路径:/home/workshop/user_log.txt
  • 列分隔符:|
  • step2:选择目标。点击下一步

    数据流向选择数据源为odps_first,表名为ods_raw_log_d。分区信息和清理规则都采取系统默认,即清理规则为写入前清理已有数据,分区按照${bdp.system.bizdate}。

  • step3:配置字段映射。连接要同步的字段。如下:字段映射
  • step4:在下一步操作中配置通道控制,作业速率上限为10MB/s,进入下一步。
    通道控制

可在预览保存页面中,预览上述的配置情况,也可以进行修改,确认无误后,点击保存

  • step5:点击返回工作流面板。
    返回工作流
2)配置rds_数据同步节点
  • step1:双击rds_数据同步节点进入配置界面。选择来源:选择数据来源为rds_workshop_log,表名为ods_user_info_d;切分键为使用默认生成列即可。点击数据预览,可以看到表中数据样例。
    RDS选择来源
  • step2:进入下一步,选择目标数据源和表名。
    RDS选择目标
  • step3:进入下一步,配置字段映射。默认会同名映射,字段映射关系采用默认即可,如下所示:
    RDS字段映射
  • step4:进入下一步,配置作业速率上限。
    RDS通道控制
  • step5:在预览保存页面中确认配置信息,无误后点击保存配置。
    RDS预览保存

配置调度、提交工作流任务

  • step1:点击调度配置,配置调度参数
    调度配置
  • step2:点击提交,提交已经配置的工作流任务。
    提交工作流任务
  • step3:在变更节点列表弹出框中点击确定提交
    确定提交任务

提交成功后工作流任务处于只读状态,如下:

只读状态

测试运行工作流任务

  • step1:点击测试运行
    测试运行
  • step2:在周期任务运行提醒弹出框点击确定
    周期任务运行提醒
  • step3:在测试运行弹出框中,实例名称和业务日期都保持默认,点击运行
    测试运行按钮
  • step4:在工作流任务测试运行弹出框中,点击前往运维中心

在运维中心可以查看任务视图,如下图表示该工作流任务(名称为workshop_start)正在运行。
运维中心测试
直至所有节点都运行返回成功状态即可(需要点击运维视窗中的刷新按钮查看实时状态)。如下所示:

数据同步测试成功

  • step5:点击节点,查看运行日志。
    日志界面

确认数据是否成功导入MaxCompute

  • step1:返回到create_table_ddl脚本文件中。
  • step2:编写并执行sql语句查看导入ods_raw_log_d记录数。
    数据预览
  • step3:同样编写并执行sql语句查看导入ods_user_info_d记录数。

附录:SQL语句如下,其中分区键需要更新为业务日期,如测试运行任务的日期为20171011,那么业务日期为20171010。

--查看是否成功写入MaxCompute
select count(*) from ods_raw_log_d where dt=业务日期;
select count(*) from ods_user_info_d where dt=业务日期;

>>>点击进入>>>《数据加工:用户画像》篇

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
2月前
|
数据采集 数据挖掘 API
主流电商平台数据采集API接口|【Python爬虫+数据分析】采集电商平台数据信息采集
随着电商平台的兴起,越来越多的人开始在网上购物。而对于电商平台来说,商品信息、价格、评论等数据是非常重要的。因此,抓取电商平台的商品信息、价格、评论等数据成为了一项非常有价值的工作。本文将介绍如何使用Python编写爬虫程序,抓取电商平台的商品信息、价格、评论等数据。 当然,如果是电商企业,跨境电商企业,ERP系统搭建,我们经常需要采集的平台多,数据量大,要求数据稳定供应,有并发需求,那就需要通过接入电商API数据采集接口,封装好的数据采集接口更方便稳定高效数据采集。
|
27天前
|
弹性计算 关系型数据库 MySQL
阿里云MySQL云数据库优惠价格、购买和使用教程分享!
阿里云数据库使用流程包括购买和管理。首先,选购支持MySQL、SQL Server、PostgreSQL等的RDS实例,如选择2核2GB的MySQL,设定地域和可用区。购买后,等待实例创建。接着,创建数据库和账号,设置DB名称、字符集及账号权限。最后,通过DMS登录数据库,填写账号和密码。若ECS在同一地域和VPC内,可内网连接,记得将ECS IP加入白名单。
419 2
|
1月前
|
存储 机器学习/深度学习 并行计算
阿里云服务器X86计算、Arm计算、GPU/FPGA/ASIC、高性能计算架构区别
在我们选购阿里云服务器的时候,云服务器架构有X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、高性能计算可选,有的用户并不清楚他们之间有何区别,本文主要简单介绍下不同类型的云服务器有何不同,主要特点及适用场景有哪些。
阿里云服务器X86计算、Arm计算、GPU/FPGA/ASIC、高性能计算架构区别
|
1月前
|
人工智能 前端开发 数据挖掘
Arm 发布 Neoverse 新品:数据分析性能提升 196%,奠定未来计算及 AI 的基石
北京时间 2 月 22 日,半导体巨头 Arm 更新了 Arm® Neoverse™ 产品路线图,宣布推出两款基于全新第三代 Neoverse IP 构建的全新计算子系统(CSS):Arm Neoverse CSS V3 和 Arm Neoverse CSS N3。
|
1月前
|
存储 安全 网络协议
2024阿里云上云采购季活动,云服务器计算型c8a、通用型g8i/g8a/g8y实例区别及价格参考
在阿里云2024年的上云采购季活动中,除了以往活动中有的轻量应用服务器和经济型e、通用算力型u1、计算型c7、通用型g7实例之外,阿里云还新增了计算型c8a、通用型g8i/g8a和g8y实例规格,这些都是具有超高性能的AMD&Intel&倚天第八代云服务器,那么这几个云服务器实例规格的性能及适用场景是怎样的呢?本文为大家介绍阿里云计算型c8a、通用型g8i/g8a和g8y实例规格性能及适用场景。
367 0
2024阿里云上云采购季活动,云服务器计算型c8a、通用型g8i/g8a/g8y实例区别及价格参考
|
1月前
|
存储 弹性计算 NoSQL
阿里云突发!上百种云产品大规模降价,云服务器、云数据库、存储价格下调
阿里云突发!上百种云产品大规模降价,云服务器、云数据库、存储价格下调
103 2
|
1月前
|
Cloud Native 自动驾驶 NoSQL
亚太唯一,阿里云连续4年入选Gartner®云数据库管理系统魔力象限领导者象限
国际市场研究机构Gartner®日前公布2023年度全球《云数据库管理系统魔力象限》报告,阿里云成为亚太区唯一入选该报告“领导者(LEADERS)”象限的科技公司,同时也是唯一一家连续4年入选“领导者”象限的中国企业。
亚太唯一,阿里云连续4年入选Gartner®云数据库管理系统魔力象限领导者象限
|
2月前
|
存储 弹性计算 安全
云服务器ECS_云主机_服务器托管_计算-阿里云
云服务器ECS_云主机_服务器托管_计算-阿里云,阿里云服务器是什么?云服务器ECS是一种安全可靠、弹性可伸缩的云计算服务,云服务器可以降低IT成本提升运维效率,免去企业或个人前期采购IT硬件的成本,阿里云服务器让用户像使用水、电、天然气等公共资源一样便捷、高效地使用服务器
云服务器ECS_云主机_服务器托管_计算-阿里云
|
2月前
|
弹性计算 大数据 测试技术
阿里云服务器服务费怎么计算?详细解析2024新版
阿里云服务器服务费怎么计算?详细解析2024新版,云服务器ECS经济型e实例2核2G、3M固定带宽99元一年、ECS u1实例2核4G、5M固定带宽、80G ESSD Entry盘优惠价格199元一年,轻量应用服务器2核2G3M带宽轻量服务器一年61元、2核4G4M带宽轻量服务器一年165元12个月、2核4G服务器30元3个月
47 1
|
2月前
|
存储 弹性计算 大数据
云服务器ECS_云主机_服务器托管_计算-阿里云
云服务器ECS_云主机_服务器托管_计算-阿里云,阿里云服务器全方位介绍包括云服务器ECS优势、云服务器租用价格、云服务器使用场景及限制说明,阿里云百科分享云服务器ECS介绍、个人和企业免费试用、云服务器活动、云服务器ECS规格、优势、功能及应用场景详细说明
34 0

热门文章

最新文章