备案控制台

开发者社区

开发者社区开发与运维文章正文

awk算术运算一例：统计hdfs上某段时间内的文件大小

2017-11-21 1306

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

计算hdfs指定目录中所有文件名中包含2011-04-24的文件大小，并换算成GB：

$HADOOP_HOME/bin/hadoop fs -du /user/hdfs/s3/ifocus/*2011-04-24* |awk '{sum += $1}END{print sum}' |awk '{total=$1;base=1024*1024*1024;print total/base}'

如果要统计20号到24号所有文件大小的总和呢？

#!/bin/bash
#
DIR=/log/tmp/cd
startdate="$1"
date1=$(date -d "$1" "+%s")
date2=$(date -d "$2" "+%s")
date_count=$(echo "$date2 - $date1"|bc)
day_m=$(echo "$date_count"/86400|bc)
for ((sdate=0;sdate<"$day_m";sdate++))
do
DAY=$(date -d "$startdate $sdate days" "+%F")
Size=$(~/hadoop-0.20.2-CDH3B4/bin/hadoop fs -du ${DIR}/*${DAY}* |awk '{sum += $1}END{printf "%u",sum}')
let a=${a}+${Size}
done
echo $a |awk '{total=$1;base=1024*1024*1024;print total/base}'

脚本比较简单，但由于shell不支持浮点数运算，搞了很久，才想起使用printf "%u"来指定用十进制表示文件大小，这才顺利完成脚本。计算的时候，指定起始日期，20110420，20110424。

另外一个问题：最后那条shell语句是如何取得for循环中的变量$a的？Shell脚本里，要使用local关键字来标识局部变量；否则，变量默认为全局的，一直到脚本结束，当然前提是没有被后面的值覆盖。

所以，在循环体外面引用循环体里面的变量是完全可以的。

本文转自 li_qinshan 51CTO博客，原文链接:http://blog.51cto.com/share/554922

文章标签：

Shell

Perl

科技小能手

目录

相关文章

流烟默

|

5月前

|

Unix Java Linux

Linux脚本中的字符处理与awk编程|WC统计

Linux脚本中的字符处理与awk编程|WC统计

流烟默

55 0 0

syst1_m

|

6月前

|

存储分布式计算 Hadoop

HDFS 修改副本数&fsck命令

HDFS 修改副本数&fsck命令

syst1_m

262 0 0

wljslmz

|

29天前

|

监控 Linux

Linux命令大全：详解文件数量统计的方法

【4月更文挑战第2天】

wljslmz

43 1 1

Linux命令大全：详解文件数量统计的方法

朱季谦

|

6月前

|

分布式计算 Hadoop Java

Hadoop学习笔记：运行wordcount对文件字符串进行统计案例

Hadoop学习笔记：运行wordcount对文件字符串进行统计案例

朱季谦

34 0 0

仁扬

|

10月前

|

Linux PHP Perl

巧用 awk 批量杀进程

我需要批量杀死某台机器的 PHP 进程，该怎么办？如果是一个进程，那就好办了，ps -ef | grep php，找到 PID 然后 kill -9 PID……那批量怎么搞呢？

仁扬

55 0 0

小杰911

|

11月前

|

分布式计算 Hadoop 大数据

【大数据学习篇3】HDFS命令操作与MR单词统计

【大数据学习篇3】HDFS命令操作与MR单词统计

小杰911

118 0 0

小刘丶

|

12月前

|

Linux

Linux 常用命令-统计文件行数、单次数、字节数、字符数

Linux、统计文件行数、单次数、字节数、字符数

小刘丶

142 0 0

张继群

|

分布式计算 Ubuntu Java

运行Hadoop自带的单词统计程序

运行Hadoop自带的单词统计程序

张继群

108 0 0

运行Hadoop自带的单词统计程序

yuanfan_2012

|

运维 Java Shell

记一次df -Th与du -sh空间大小不一致磁盘爆满问题的处理过程

记一次df -Th与du -sh空间大小不一致磁盘爆满问题的处理过程

yuanfan_2012

310 0 0

记一次df -Th与du -sh空间大小不一致磁盘爆满问题的处理过程

柯广

|

SQL 算法 HIVE

Hive计算最大连续登陆天数

怎样用Hive计算最大连续登陆天数。

柯广

517 0 0

热门文章

最新文章

《CMOS集成电路后端设计与实战》——3.3　标准单元设计流程

无人驾驶背后的技术 - PostGIS点云(pointcloud)应用

反垃圾邮件技术已转移到云计算中

MYSQL数据库主从复制(一)

Keepalived+MySQL主从切换演示【书里讲解】

数据库总结20160728

c++11新特性(4) lambda捕捉块

0225Snapshot Too Old Error ora-01555.txt

What are TCHAR, WCHAR, LPSTR, LPWSTR, LPCTSTR (etc.)?

【大模型】讨论 LLM 在更广泛的通用人工智能（AGI）领域中的作用

【大模型】在实际应用中大规模部署 LLM 会带来哪些挑战？

【大模型】小样本学习的概念及其在微调 LLM 中的应用

【大模型】LLM 如何处理域外或无意义的提示？

【大模型】在使用大语言模型的过程中，我们需要考虑到哪些道德问题？

【大模型】大语言模型存在的一些限制

【大模型】描述一些评估 LLM 性能的技术

【大模型】如何使用提示工程来改善 LLM 输出？

【大模型】大语言模型训练数据中的偏差概念及其可能的影响？

【大模型】在大语言模型的架构中，Transformer有何作用？

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

将Stable Diffusion模型文件转存到FC环境的NAS