备案控制台

开发者社区

开发者社区数据库文章正文

pig笔记

2015-03-26 1039

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/qq1010885678/article/details/44657011 1.

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/qq1010885678/article/details/44657011

1.安装Pig
将pig添加到环境变量当中

2.pig使用
首先将数据库中的数据导入到HDFS上
sqoop import --connect jdbc:mysql://192.168.1.10:3306/cloud --username root --

password JChubby123 --table trade_detail --target-dir '/sqoop/td'
sqoop import --connect jdbc:mysql://192.168.1.10:3306/cloud --username root --

password JChubby123 --table user_info --target-dir '/sqoop/ui'

td = load '/sqoop/td' using PigStorage(',') as (id:long, account:chararray,

income:double, expenses:double, time:chararray);
ui = load '/sqoop/ui' using PigStorage(',') as (id:long, account:chararray,

name:chararray, age:int);

td1 = foreach td generate account, income, expenses, income-expenses as surplus;

td2 = group td1 by account;

td3 = foreach td2 generate group as account, SUM(td1.income) as income, SUM

(td1.expenses) as expenses, SUM(td1.surplus) as surplus;

tu = join td3 by account, ui by account;

result = foreach tu generate td3::account as account, ui::name, td3::income,

td3::expenses, td3::surplus;

store result into '/result' using PigStorage(',');

文章标签：

关系型数据库

xiaohei.info

目录

相关文章

不懂开发的程序猿

|

11月前

|

SQL 分布式计算算法

Pig的搭建和配置

Pig的搭建和配置

不懂开发的程序猿

148 0 0

CBeann

|

SQL 分布式计算关系型数据库

Sqoop笔记

CBeann

148 0 0

红目香薰

|

分布式计算 Java Hadoop

Hadoop快速入门——第三章、MapReduce案例(字符统计)（1）

Hadoop快速入门——第三章、MapReduce案例(字符统计)

红目香薰

112 0 0

Hadoop快速入门——第三章、MapReduce案例(字符统计)（1）

红目香薰

|

存储分布式计算 Hadoop

Hadoop快速入门——第三章、MapReduce案例(字符统计)（2）

Hadoop快速入门——第三章、MapReduce案例(字符统计)

红目香薰

101 0 0

Hadoop快速入门——第三章、MapReduce案例(字符统计)（2）

托马斯-酷涛

|

SQL 分布式计算 Linux

四十一、centos安装pig（Pig的应用）

四十一、centos安装pig（Pig的应用）

托马斯-酷涛

357 0 0

四十一、centos安装pig（Pig的应用）

游客tmj4hgt7bfvas

|

SQL 存储分布式计算

Hadoop-Hive基础知识整理

Hadoop-Hive基础知识整理

游客tmj4hgt7bfvas

160 0 0

Hadoop-Hive基础知识整理

wsc449

|

分布式计算算法 Java

应用场景 Pig并不适合所有的数据处理任务，和MapReduce一样，它是为数据批处理而设计的，如果想执行的查询只涉及一个大型数据集的一小部分数据，Pig的实现不会很好，因为它要扫描整个数据集或其中很大一部分。

wsc449

1442 0 0

技术小胖子

|

分布式计算 Hadoop Java

PIG安装配置及案例应用

技术小胖子

1449 0 0

技术小牛人

|

SQL 关系型数据库数据挖掘

Pig安装讲解

技术小牛人

1171 0 0

技术小美

|

分布式计算 Hadoop

PIG之 Hadoop 2.7.4 + pig-0.17.0 安装

技术小美

1182 0 0

热门文章

最新文章

Mac安装并使用telnet命令操作

OSS回源的几种方式和应用场景

[剑指offer] 孩子们的游戏(圆圈中最后剩下的数)

网络安全系列之二十二 Windows用户账号加固

我理解的一个程序员如何学习前端开发

《社交网站界面设计（原书第2版）》——1.9　为设备之间的空间进行设计

《Microduino实战》——1.2　为什么要开源

.Net函数Math.Round你会用吗？

麻省理工大学新发明：暗黑WiFi透视技术

2014秋C++第19周补充代码哈希法的存储与查找

R语言关联规则模型(Apriori算法)挖掘杂货店的交易数据与交互可视化

R语言近似贝叶斯计算MCMC（ABC-MCMC）轨迹图和边缘图可视化

r语言中对LASSO回归，Ridge岭回归和弹性网络Elastic Net模型实现-4

Sentieon | 每周文献-Multi-omics-第四十一期

数据分享|R语言广义线性模型GLM：线性最小二乘、对数变换、泊松、二项式逻辑回归分析冰淇淋销售时间序列数据和模拟-2

数据分享|R语言广义线性模型GLM：线性最小二乘、对数变换、泊松、二项式逻辑回归分析冰淇淋销售时间序列数据和模拟-1

基于RT-Thread摄像头车牌图像采集系统

R语言极值理论：希尔HILL统计量尾部指数参数估计可视化

【视频】R语言中的分布滞后非线性模型（DLNM）与发病率，死亡率和空气污染示例

sql语句创建数据库

相关课程

更多

E-MapReduce入门

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）