1. 阿里云>
  2. 云栖社区>
  3. 主题地图>
  4. H>
  5. hive 删除数据

当前主题:hive 删除数据

hive 删除数据相关的博客

Delta Lake 和 Apache Hudi 两种数据湖产品全方面对比

Delta Lake 是数砖公司在2017年10月推出来的一个项目,并于2019年4月24日在美国旧金山召开的 Spark+AI Summit 2019 会上开源的一个存储层。它是 Databricks Runtime 重要组成部分。为 Apache Spa

阅读全文

每年 150 亿美元花哪了?Netflix 的大规模 Kafka 实践

编译:王强 本文转载自公众号: InfoQ Netflix 在 2019 年花费了大约 150 亿美元来制作世界一流的原创内容。在如此高的投入之下,我们必须获得许多关键的业务见解,从而为所有 Netflix 内容的策划、预算和效益分析工作提供帮助。这些见解可

阅读全文

基于 Flink 构建 CEP 引擎的挑战和实践

作者:韩鹏@奇安信 背景及现状 奇安信集团作为一家网络安全公司,专门为政府、企业,教育、金融等机构和组织提供企业级网络安全技术、产品和服务,奇安信的 NGSOC 产品的核心引擎是一个 CEP 引擎,用于实时检测网络攻击,其技术演进过程如下图所示。 2015

阅读全文

60TB 数据量的作业从 Hive 迁移到 Spark 在 Facebook 的实践

Facebook 经常使用分析来进行数据驱动的决策。在过去的几年里,用户和产品都得到了增长,使得我们分析引擎中单个查询的数据量达到了数十TB。我们的一些批处理分析都是基于 Hive 平台(Apache Hive 是 Facebook 在2009年贡献给社区的

阅读全文

Fivetran:自动化数仓集成服务

Fivetran简介 公司发展 Fivetran提供SaaS服务,它连接到业务关键数据源,提取并处理所有数据,然后将其转储到仓库中,以进行SQL访问和必要的进一步转换。 参考今年9月的融资消息,这家公司过去一两年里发展很迅速: 2012年由Y Combina

阅读全文

Delta Lake 0.5.0 正式发布,支持包括 Hive/Presto 等多种查询引擎

Delta Lake 0.5.0 于2019年12月13日正式发布,正式版本可以到 这里 下载使用。这个版本支持多种查询引擎查询 Delta Lake 的数据,比如常见的 Hive、Presto 查询引擎。并发操作得到改进。当然,这个版本还是不支持直接使用

阅读全文

阿里主管通知我试用期延期…… | 12月24号云栖号夜读

点击订阅云栖夜读日刊,专业的技术干货,不容错过! 阿里专家原创好文 **1.阿里主管通知我试用期延期…… ** 接下来的文章是一篇发布在阿里内网里的文章。花木是一位走出体制的博士,讲述自己Landing的经历。今天,她将这段经历分享给大家,告诉我们:脸先着地

阅读全文

HBase从入门到精通-经典资料汇总(持续更新v2019.10)

用户福利 新用户9.9元即可使用6个月云数据库HBase,更有低至1元包年的入门规格供广大HBase爱好者学习研究,更多内容请参考链接。 文末有技术交流群可以添加。 前言 HBase是大数据架构中最常用的面向半结构、非结构化的存储系统,是Google三驾马车

阅读全文

Cloudera-manager(CDH6.3.0)大数据平台搭建一指禅(impala,kudu,hdfs,hive,kafka,yarn,spark,hbase,hue)

Cloudera-manager(CDH6.3.0)大数据平台搭建一指禅指南(impala,kudu,hdfs,hive,kafka,yarn,spark,hbase,hue) CHD6,大量hadoop生态的重大更新升级,果断把现有系统升级到CHD6上。

阅读全文

6天如何玩转HBase?(57集视频+源码+笔记)

1、什么是HBase? HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。 就像Bigtable利用了Google文件系统(File System)所

阅读全文

如何在Hive中创建自定义函数UDF及如何直接通过Impala的同步元数据重用UDF的jar文件

如何在Hive中创建自定义函数UDF及使用 如何在Impala中使用Hive的自定义函数 UDF函数开发 使用Intellij工具开发Hive的UDF函数,进行编译; 1.使用Intellij工具通过Maven创建一个Java工程,并添加pom.xml依赖

阅读全文

CDH集群部署最佳实践

一、集群规划 如果你正准备从0开始搭建一套CDH集群应用于生产环境,那么此时需要做的事情应该是 结合当前的数据、业务、硬件、节点、服务等对集群做合理的规划,而不是马上动手去安装软件。 合理的集群规划应该做到以下几点: 充分了解当前的数据现状 与业务方深入沟通

阅读全文

HBase最佳实践

本文致力于从架构原理、集群部署、性能优化与使用技巧等方面,阐述在如何基于HBase构建 容纳大规模数据、支撑高并发、毫秒响应、稳定高效的OLTP实时系统 。 一、架构原理 1.1 基本架构 从上层往下可以看到HBase架构中的角色分配为: Client Zo

阅读全文

图数据库 Nebula Graph RC1 Release Note

Nebula Graph:一个开源的分布式图数据库。作为唯一能够存储万亿个带属性的节点和边的在线图数据库,Nebula Graph 不仅能够在高并发场景下满足毫秒级的低时延查询要求,还能够实现服务高可用且保障数据安全性。 图数据库 Nebula RC1 主要

阅读全文

EMR 打造高效云原生数据分析引擎

本场视频链接:EMR打造高效云原生数据分析引擎 本场ppt材料:https://www.slidestalk.com/AliSpark/2019___0926_110365 基于开源体系打造云上数据分析平台 客户选择开源方案的原因主要有以下几点: • 灵活多

阅读全文

阿里巴巴飞天大数据平台计算引擎MaxCompute最新特性

摘要:距离上一次MaxCompute新功能的线上发布已经过去了大约一个季度的时间,而在这一段时间里,MaxCompute不断地在增加新的功能和特性,比如参数化视图、UDF支持动态参数、支持分区裁剪、生成建表DDL语句功能等功能都已经得到了广大开发者的广泛使用

阅读全文

【阿里云新品发布·周刊】第31期:移动金融科技助力 新时代金融机构转型升级

点击订阅新品发布会! 新产品、新版本、新技术、新功能、价格调整,评论在下方,下期更新!关注更多内容,了解更多 金融级超级APP解决方案发布会 金融业务的“移动化、场景化和智能化”是当前和未来⼀段时期的重要发展趋势。2019年11月13日15:00,阿里云金融

阅读全文

JindoFS: 云上大数据的高性能数据湖存储方案

本场视频链接:云上大数据的一种高性能数据湖存储方案 ppt观看:https://www.slidestalk.com/AliSpark/0761944 EMR JindoFS背景 计算存储分离已经成为云计算的一种发展趋势。在计算存储分离之前,普遍采用的是传统

阅读全文

阿里云MaxCompute 2019-10 月刊

您好,MaxCompute 2019.10月刊为您带来10月产品、技术最新动态,欢迎阅读。订阅 MaxCompute 月刊 >> 导读 【重要发布】10月产品重要发布 【文档更新】10月重要文档更新 【干货精选】10月精选技术文章 【技术活动】活动回顾与预告

阅读全文

数据上云,应该选择全量抽取还是增量抽取?

作者:向师富 转自:阿里巴巴数据中台官网https://dp.alibaba.com概述 数据抽取是指从源数据抽取所需要的数据, 是构建数据中台的第一步。 数据源一般是关系型数据库,近几年,随着移动互联网的蓬勃发展,出现了其他类型的数据源,典型的如网站浏览日

阅读全文

36