北京云栖大会workshop:《数据接入:海量数据存储及实时访问》篇

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
对象存储 OSS,内容安全 1000次 1年
简介: 本手册为北京云栖 Workshop《云数据·大计算:快速搭建互联网在线运营分析平台》的数据准备部分,介绍使用表格存储完成行为日志采集工作,并提供实时在线查询。

实验背景介绍

了解更多2017云栖大会·北京峰会 TechInsight & Workshop.

本手册为云栖大会Workshop《云数据·大计算:快速搭建互联网在线运营分析平台》的《数据处理:数据建模与加工》篇而准备。主要阐述在使用DataWorks/MaxCompute过程中如何直读TableStore中的日志数据并进行加工、用户画像,学员可以根据本实验手册,去学习如何创建外部表、编写SQL。

实验涉及大数据产品

实验过程

必备条件:

  • 开通表格存储服务Table Store,并在华北2区创建相应的实例
  • 记录该次实验中使用的AK信息
  • 下载此次用户数据Mock程序

获取AK

  • 前往AK控制台 获取AK,由于该AK具有该云账户完全的权限,请妥善保管。

创建实例:

在控制台上创建实例,在华北2创建实例(注意:实例名称为的整个区域唯一,建议为workshop-bj-随机数字),实例类型选择容量型与高性能实例均可。

_

需要记录的信息为:实例名称,域名访问地址,由于也使用的MaxCompute的华北2区域,建议使用私网地址。

数据准备

1.根据不同的电脑环境,下载相应的数据Demo包

./workshop_demo_linux -h 会列出该demo的相关命令:

* prepare: 准备测试数据,创建数据表,根据conf中的用户数量,为用户生成一周的行为日志数据
* raw ${userid} ${date} ${Top条数}: 查询指定用户的日志明细
* new/day_active/month_active/day_pv/month_pv:在结果表中查询上述几种类型的报表数据,(新增:new,日活:day_active,月活:month_active,日PV:day_pv,月PV:month_pv)

创建的表结构为:

原始日志数据表:user_trace_log:

列名 类型 说明
* md5 STRING ‘用户uid的md5值 前8位’,表格存储主键
* uid  STRING  ‘用户uid’,表格存储主键
* ts BIGINT  ‘用户操作时间戳’,表格存储主键
ip STRING 'ip地址',
status BIGINT '服务器返回状态码'
bytes  BIGINT '返回给客户端的字节数'
device STRING  '终端型号'
system  STRING '系统版本 ios xxx/android xxx'
 customize_event STRING 自定义事件:登录/退出/购买/注册/点击/后台/切换用户/浏览
use_time BIGINT  APP单次使用时长,当事件为退出、后台、切换用户时有该项
customize_event_content STRING  用户关注内容信息,在customize_event为浏览和评论时包含该列

分析结果表: analysis_result:

列名 类型 说明
* metric STRING 报表的类型:'new', 'day_active', 'month_active', 'day_pv', 'month_pv',表格存储主键
* ds STRING 时间yyyy-mm-dd 或者 yyyy-mm,表格存储主键
num BIGINT 对应的数据值

2.配置Demo环境

1. 解压包,并进入解压目录
2. 编辑conf/app.conf, 根据实际情况修改如下字段:
* endpoint
* instanceName
* accessKeyId
* accessKeySecret

3.启动Demo准备测试数据

./workshop_demo_linux prepare
Prepare the metric data
Prepare User data
total insert data count is: 41766

用户明细查询

执行:
./workshop_demo_linux raw 00001 "2017-12-19" 20

结果如下:

_

需要注意,由于表格存储是SchemaFree结构,表的属性列不需要预先定义,customize_event 中不同的事件对应了不同的内容,故该demo中将 事件-内容做了对齐显示,例如 browse finance 表示浏览事件,对应的内容为金融类资讯, backstage 210 则表明此次切换到后台一共运行了210秒

报表结果查询

执行:
./workshop_demo_linux day_active"

结果如下:
_

下一步

到目前为止,原始数据收集完成,请进行《数据处理:数据建模与加工》篇,对数据进行分析。

完整课程信息:云数据·大计算:快速搭建互联网在线运营分析平台

相关实践学习
阿里云表格存储使用教程
表格存储(Table Store)是构建在阿里云飞天分布式系统之上的分布式NoSQL数据存储服务,根据99.99%的高可用以及11个9的数据可靠性的标准设计。表格存储通过数据分片和负载均衡技术,实现数据规模与访问并发上的无缝扩展,提供海量结构化数据的存储和实时访问。 产品详情:https://www.aliyun.com/product/ots
相关文章
|
4月前
|
弹性计算 Java 大数据
揭秘企业数据智能创新奥秘 | 2023云栖大会倚天专场
【倚天专场】邀请了弹性计算、操作系统、平头哥、ARM中国等专家为大家解读阿里云倚天ECS实例最新进展,包括云原生处理器最新技术、龙蜥+倚天软硬件结合、倚天ECS实例最佳实践等话题,为客户上云提供一个更具“性价比”的选择,加速企业数据智能创新。
|
6月前
|
存储 人工智能 程序员
云栖大会天池专场:见证“数据洞察创新挑战赛”荣耀加冕
天池将于11月2日上午,与各位开发者相聚云栖大会·算力馆云栖SHOW场。
981 0
云栖大会天池专场:见证“数据洞察创新挑战赛”荣耀加冕
|
安全 大数据 数据管理
2022云栖大会|阿里云授予数据宝年度产品生态伙伴大奖
11月5日,由浙江省人民政府指导,杭州市人民政府、浙江省经济和信息化厅、阿里巴巴集团共同主办的2022云栖大会隆重闭幕。云栖大会以引领计算技术创新为宗旨,承载着计算技术的新思想、新实践、新突破。本届大会围绕“计算·进化·未来”的主旨,呈现了一场贯彻国家战略、展示最新成果、对接全球资源的开放性、地标性盛大活动。
283 0
2022云栖大会|阿里云授予数据宝年度产品生态伙伴大奖
|
存储 人工智能 达摩院
在云栖大会,有哪些和存储相关的科技与狠活?
本届云栖大会以“计算·进化·未来”为主题,涵盖2场主论坛、60+场峰会和论坛。作为存储行业从业者,又将如何切身体会到本次大会上那些和存储相关的科技与狠活呢?
460 0
在云栖大会,有哪些和存储相关的科技与狠活?
|
供应链 Cloud Native 安全
|
云栖大会
实体商家如何利用数据突破上升瓶颈 ——云栖大会精彩演讲复盘,小白也能看的懂
我想实体商家最痛苦的不是如何用数据,而是如何产生数据。 云栖大会上,阿里奇点云CEO张金银说,他们之前被一家年营业额达100亿到200亿的实体企业邀请,去帮助企业实现数字化转型。结果,阿里的人和客户对接后才发现,这么大一家实体企业,数据才300G。
Uma
|
云栖大会 数据库
2018云栖大会——无数据不未来 企业级数据库最佳实践专场与您相约9.20
阿里巴巴生于数据、长于数据,而数据库正是数据的载体。9月20日,我们将在企业级数据库最佳实践专场与您分享阿里在数据库领域多年的实践经验,揭秘云时代企业数据库建设之路。你能想到的问题,这里都有答案。
Uma
1428 0
|
监控 安全 云栖大会
2018杭州云栖大会企业办公自动化workshop材料汇总
实践活动内容地址如下:1、在控制台使用OSS Select2、基于日志的安全分析实战3、智能媒体管理服务控制台功能体验4、企业办公数据处理和分发(函数计算篇)5、9.20 杭州云栖CloudLab:环境准备
1924 0
|
新零售 达摩院 大数据
云栖大会马云演讲:以前制造业靠电,未来靠数据
9月19日,2018杭州云栖大会在云栖小镇开幕。本次云栖大会以“驱动数字中国”为主题,关注政务创新。阿里称有来自60多个国家的CEO、CTO参会,超过12万人现场参会。 长达近四个小时的主论坛上有不少新发布,先来看几个亮点: 阿里巴巴城市大脑2.
19478 0

热门文章

最新文章