阿里巴巴大数据 —玩家社区 + 关注
手机版

DataWorks2.0的“业务流程”与1.0的“工作流”的对比

DatwWorks终于升级2.0了,心情万分激动之余,又有一丝担忧。因为,没法再创建新的旧版工作流了。。。新版抛弃了“工作流”这个概念,引入了“业务流程”和“解决方案”两个新的概念。于是,作为团队Leader,我花了很大的精力去钻研这两个概...

模块 数据库 数据仓库 解决方案 数据同步 工作流 大数据开发套件 DataWorks

MaxCompute表设计最佳实践

MaxCompute表设计最佳实践 产生大量小文件的操作 MaxCompute表的小文件会影响存储和计算性能,因此我们先介绍下什么样的操作会产生大量小文件,从 而在做表设计的时候考虑避开此类操作。 使用MaxCompute Tunne...

数据存储与数据库 大数据 分布式系统与计算 日志 string 数据同步 分区表 数据采集 存储 MaxCompute

MaxCompute 表(Table)设计规范

表的限制项 表(Table)设计规范 表设计主要目标 表设计的影响 表设计步骤 表数据存储规范 按数据分层规范数据生命周期 按数据的变更和历史规范数据的保存 数据导入通道与表设计 分区设计与逻辑存储的对应 表和...

数据存储与数据库 大数据 分布式系统与计算 性能 分区表 Commit 存储 数据存储 MaxCompute

利用MaxCompute内建函数及UDTF转换json格式日志数据

本文介绍了如何使用MaxCompute UDF对JSON格式的日志进行信息提取和转换。

大数据 函数 日志 Json 数据仓库 odps aliyun string session list MaxCompute

基于MaxCompute构建企业用户画像(用户标签的制作)

在数据化营销时代,数据的价值越发显得更为珍贵。那如何让自己的数据发挥价值,也就是说如何让公司沉睡的数据能够驱动业务发展给公司带来商业价值?在营销里面我们都谈精准营销,谈用户画像,那用户画像到底如何构建,用户的标签如何开发?本示例给与最简单的...

云栖社区 日志 string 数据同步 Create MaxCompute 用户标签

离线计算中的幂等和DataWorks中的相关事项

概念 幂等这个词在软件研发中经常被提到。比如消息发送时不应该同时给同个用户推送多次相同的消息,针对同一笔交易的付款也不应该在重试过程中扣多次钱。曾见过一个案例,有个对于一个单据的确认模块没有考虑到幂等性,导致对应的单据有两条确认记录。

etl 数据仓库 同步 离线计算 数据同步 幂等

MaxCompute跨Region数据迁移指导手册

本文的方案让用户可以方便地把数据通过SQL语句进行跨区域迁移

大数据 odps 数据迁移 同步 迁移 数据同步 MaxCompute

阿里云与Apache Flink商业公司DataArtisans于2017杭州云栖大会达成战略合作并发布

10月12日,Apache Flink商业公司DataArtisans CEO、联合创始人Kostas Tzoumas在云栖大会上宣布和阿里集团达成战略合作伙伴关系,希望能够借助全球最大的云计算公司之一阿里云,服务更多的大数据实时流计算的客...

大数据 阿里云 云栖大会 Apache 开源大数据 云服务 流计算 生态 flink

2017云栖大会·杭州峰会:《在线用户行为分析:基于流式计算的数据处理及应用》之《数据可视化:构建实时动态运营数据分析大屏》篇

2017云栖大会·杭州峰会:《在线用户行为分析:基于流式计算的数据处理及应用》之《数据可视化:构建实时动态运营数据分析大屏》篇

云栖社区 数据可视化 HTTPS SQL 日志服务 云栖大会 数据处理 数据库 workshop 配置 数据分析 流式计算 DataV 运营 流计算

2017云栖大会·杭州峰会:《在线用户行为分析:基于流式计算的数据处理及应用》之《流数据处理:通过StreamSQL分析视频日志》篇

2017云栖大会·杭州峰会:《在线用户行为分析:基于流式计算的数据处理及应用》之《流数据处理:通过StreamSQL分析视频日志》篇

云栖社区 阿里云 HTTPS 日志 云栖大会 数据处理 workshop 配置 流式计算 timestamp 流计算 流数据

2017云栖大会·杭州峰会:《在线用户行为分析:基于流式计算的数据处理及应用》之《流数据采集:海量流式视频日志收集》篇

2017云栖大会·杭州峰会:《在线用户行为分析:基于流式计算的数据处理及应用》之《流数据采集:海量流式视频日志收集》篇

云栖社区 数据可视化 阿里云 HTTPS ECS 日志 日志服务 云栖大会 数据处理 workshop 配置 Logtail 流式计算 流计算 流数据

阿里云MVP Meetup:《云数据·大计算:海量日志数据分析与应用》之《数据分析展现:可视化报表及嵌入应用》篇

本手册为杭州阿里云MVP Workshop《云计算·大数据:海量日志数据分析与应用》的《数据分析展现:可视化报表及嵌入应用》篇而准备。主要阐述如何使用BDP个人版制作报表,将前面几个实验处理分析得来的数据进行有效的展现和洞察。

大数据 workshop 数据分析 MVP 可视化报表

阿里云大数据利器之-RDS迁移到Maxcompute实现动态分区

当前,很多用户的业务数据存放在传统关系型数据库上,例如阿里云的RDS,做业务读写操作。当数据量非常大的时候,此时传系关系型数据库会显得有些吃力,那么会经常有将mysql数据库的数据迁移到[大数据处理平台-大数据计算服务(Maxcompute...

云栖社区 大数据 阿里云 RDS HTTPS 配置 数据迁移 同步 aliyun string 数据同步 分区表 MaxCompute 动态分区

阿里云大数据利器之-使用flume+sql实现流计算做实时展现业务(归档Maxcompute)

实时业务处理的需求越来越多,也有各种处理方案,比如storm,spark等都可以。那以数据流的方向可以总结成数据源-数据搜集-缓存队列-实时处理计算-数据展现。本文就用阿里云产品简单实现了一个实时处理的方案。

云栖社区 大数据 阿里云 HTTPS SQL 控制台 脚本 流计算 实时处理 实时计算 实时报表 实时大屏

用 MaxCompute Studio 查看作业排队详情

本文首先对MaxCompute作业执行的各个阶段进行说明,然后以MaxCompute Studio为例,说明如何查看作业排队位置,查看队列详情以及作业状态转换历史信息。

大数据 SQL http 集群 odps Image git MaxCompute

大数据上云那些事儿:(一)上云工具之爬虫(Scrapy)数据

在如今互联网环境下,网络上的各种业务数据,如新闻,社交网站,交易类数据等各种各样的数据越来越多被应用到企业的数据运营中,这些数据一般都数据量巨大,是最适合用MaxCompute来进行分析和加工的一类数据,尤其可以利用MaxCompute的...

python 大数据 javascript HTTPS odps logger 数加 string 分区表 爬虫 scrapy MaxCompute

4
GO
更多>
MaxCompute 大数据 阿里云 odps aliyun SQL 数加 数据仓库 配置 存储 函数 算法 数据同步 集群 HTTPS 架构 云栖大会 云栖社区 数据库 Image 数据处理 海量数据 数据分析 阿里巴巴 string 人工智能 性能 数据存储 数据安全 钉钉 日志 测试 飞天 UDF 分布式 同步 分布式计算 脚本 安全 互联网 python hadoop 大数据分析 云服务 电商 java 解决方案 html 监控 控制台 数据可视化 流计算 分析型数据库 workshop 运营 阿里技术协会 服务器 数据存储与数据库 分区表 大数据平台 流式计算 数据类型 Mapreduce 报表 排序 分布式系统与计算 数据采集 数据迁移 数据应用 PyOdps 大数据开发套件 studio 分布式系统 淘宝 大数据计算 机器学习 大数据计算服务 mysql 深度学习 传学 DataFrame pandas 权限管理 工作流 数据管理 数据挖掘 Hive 性能优化 物联网 http class 离线计算 JDBC 沙箱 大数据技术 日志分析 个性化推荐 Create 索引 sdk 数据流 OSS 基础设施 alibaba spark 模块 session Json RDS 按量付费 云平台 数据中心 ECS Cloud static Group DataWorks 项目管理 华大基因 创业 查询优化 工单 HASH 云计算 插件 database 高可用 布局 reduce 凌云 公共云 袋鼠云 离线分析 开发环境 容灾 表达式 BY 高性能 海量数据处理 高并发 推荐引擎 异构数据 弹性伸缩 MongoDB etl data 分布式文件系统 对象存储 流数据 github MaxCompute最佳实践 表格存储 service 编程语言 存储过程 加密 Processing Mars 图计算 可视化报表 bigdata graph 弹性计算 bigbench 语音识别 数据结构 安全组 PostgreSQL 神经网络 日志服务 推荐系统 LOG