1. 云栖社区>
  2. 全部标签>
  3. #数据湖#
数据湖

#数据湖#

已有0人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

【译】Hadoop发生了什么?我们该如何做?

原文:https://insidebigdata.com/2019/08/10/what-happened-to-hadoop-and-where-do-we-go-from-here/ Apache Hadoop出现在IT领域是在2006年,它可以支持使用廉价的商用硬件来存储海量数据。

大数据 hadoop Apache 人工智能 数据流 集群 数据分析 存储 数据存储 海量数据 开源计算 数据湖 数据集市

DLA新函数发布:事件路径分析

概述 业务系统常常会产生大量的事件日志和数据,记录各种事件发生的相关信息,一条事件日志或者数据通常包含如事件ID,事件名称,时间点等。针对该类事件日志或者数据,DLA新提供了事件路径分析的聚合函数,主要支持按照事件时间点、时间戳得到事件顺序发生的时间序列,某类或者多类、某个或者多个事件发生的时间间隔序列等等。

数据存储与数据库 函数 数据分析 aliyun BY 对象存储 序列 Group varchar 数组 数据湖 DataLake

教程:Data Lake Analytics + OSS数据文件格式处理大全

0. 前言 Data Lake Analytics是Serverless化的云上交互式查询分析服务。用户可以使用标准的SQL语句,对存储在OSS、TableStore上的数据无需移动,直接进行查询分析。

数据存储与数据库 大数据 分布式系统与计算 OSS hadoop SQL Json Apache 正则表达式 string Hive Create 存储 数据湖 DataLake

DLA新增函数发布:手机号查询所属省、城市、运营商

概述 本月,Data Lake Analytics(https://www.aliyun.com/product/datalakeanalytics,https://et.aliyun.com/bdad/datalake)发布了手机号查询所属省、城市、运营商的内置函数。

云栖社区 数据存储与数据库 函数 SQL aliyun string 数据湖

云原生日志数据分析上手指南

云原生日志数据分析上手指南 背景信息 本指南主要涉及阿里云云产品: 日志服务(SLS, https://www.aliyun.com/product/sls) 对象存储服务(OSS, https://www.aliyun.com/product/oss) Data Lake Analytics(DLA, https://www.aliyun.com/product/datalakeanalytics) 上述三款云产品均属于Serverless化的云原生服务型产品,无维护成本、高可用,简单配置即可在云上搭建起企业级的日志数据分析链路和应用。

数据存储与数据库 OSS 日志 配置 数据分析 aliyun string 分区表 html 存储 日志分析 数据湖

Data Lake Analytics中OSS LOCATION的使用说明

前言 Data Lake Analytic(后文简称 DLA)可以帮助用户通过标准的SQL语句直接对存储在OSS、TableStore上的数据进行查询分析。 在查询前,用户需要根据数据文件的格式和内容在DLA中创建一张表。

数据存储与数据库 大数据 分布式系统与计算 OSS string test Create csv 数据湖 DataLake

教程:如何在Data Lake Analytics中使用临时表

前言 Data Lake Analytics (后文简称DLA)是阿里云重磅推出的一款用于大数据分析的产品,可以对存储在OSS,OTS上的数据进行查询分析。相较于传统的数据分析产品,用户无需将数据重新加载至DLA,只需在DLA中创建一张与数据源关联的表,不仅简化了分析过程,还节约了存储成本,是做大数据分析的不二之选。

数据存储与数据库 分布式系统与计算 OSS hadoop Apache aliyun string Hive 大数据分析 DataLakeAnalytics 数据湖

使用DataWorks调度DLA循环任务

DataWorks是阿里云上的一款热门产品,可以为用户提供大数据开发调度服务。它支持了Data Lake Analytics(后文简称DLA)以后,DLA用户可以通过它进行定时任务调度,非常方便。本文将主要介绍如何使用DataWorks调度DLA的循环任务。

配置 Image input 数组 DataWorks 数据湖 DLA

DLA支持MaxCompute(ODPS)数据源

DLA支持MaxCompute(ODPS)数据源 1. 概述 支持功能包括: MaxCompute(ODPS)的数据查询,目前复杂数据类型以字符串形式返回; 一条命令同步对应project下的所有表。

大数据 SQL odps 同步 aliyun string 分区表 Create html MaxCompute 数据湖

【盘点篇】从安全、稳定、高可用、高性能、智能等维度看阿里云存储 2018

2008年,为了探索阿里巴巴集团大规模存储解决之道,阿里云存储自研飞天大规模的分布式存储引擎(盘古 1.0 ),从写下第一行代码开始,阿里云存储的进化之路正式开启。

数据存储与数据库 深度学习 安全 云存储技术 备份 高可用 对象存储 容灾 高性能 表格存储 文件存储 块存储 混合云存储 数据湖 双活

使用Data Lake Analytics从OSS清洗数据到AnalyticDB

前提 必须是同一阿里云region的Data Lake Analytics(DLA)到AnalyticDB的才能进行清洗操作; 开通并初始化了该region的DLA服务(目前仅支持上海region(华东2),后续会同步其他region); 开通并购买了AnalyticDB的实例,实例规模和数据清洗速度强相关,与AnalyticDB的实例资源规模基本成线性比例关系。

OSS Image cdn 控制台 Create varchar AnalyticDB DataLakeAnalytics 数据湖 DataLake

教程:使用Data Lake Analytics + OSS分析CSV格式的TPC-H数据集

0. Data Lake Analytics(DLA)简介 关于Data Lake的概念,更多阅读可以参考:https://en.wikipedia.org/wiki/Data_lake 以及AWS和Azure关于Data Lake的解读:https://amazonaws-china.

数据存储与数据库 云存储技术 OSS SQL 数据分析 aliyun BY string Group csv 数据湖 DataLake 数据湖分析

基于 DataLakeAnalytics 的数据湖实践

随着软硬件各方面条件的成熟,数据湖(Data Lake)已经越来越受到各大企业的企业的青睐, 与传统的数仓实践不一样的是,数据湖不需要专门的“入仓”的过程,数据在哪里,我们就从哪里读取数据进行分析。这样的好处在于:一来数据可以保存在很便宜的存储上面(比如阿里云的OSS 上面), 给企业节省预算,而需要分析的时候又可以分析;另一方面,因为省去了入仓的流程,对于中小型企业来说人员投入更少,更容易上手。

OSS mysql RDS 数据库 aliyun DataLakeAnalytics 数据湖 DLA

1
GO