格式:awk -F '[分隔符]' '{pattern + action}' filename[s]
工作方式:awk对指定filename[s]逐行扫描,从第一行到最后一行,读入有'\n'换行符分割的一条记录,然后将记录按指定的域分隔符划分域,每个域部分再进行各种分析处理,寻找匹配的特定模式的行。如果没有指定处理动作,则把匹配的行显示到标准输出(屏幕),如果没有指定模式,则所有被操作所指定的行都被处理。
说明:awk是一个强大的文本分析工具,用于在linux/unix下对文本和数据进行处理,awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk,gawk 是 AWK 的 GNU 版本;模式pattern可以是正则表达式、关系表达式、模式匹配表达式;操作action由一个或多个命令、函数、表达式组成,之间由换行符或分号隔开,
参数:
-F fs: 指定输入文件折分隔符,FS是一个字符串或者是一个正则表达式,默认是空格或tab,可以同时使用多个域分隔符,这时应该把分隔符写成放到方括号中,,如$awk -F'[:\t]' '{print $1,$3}' test,表示以空格、冒号和tab作为分隔符。
-v var=value: 赋值一个用户定义变量
-f scripfile: 从脚本文件中读取awk命令
BEGIN:让用户指定在第一条输入记录被处理之前所发生的动作,通常可在这里设置全局变量。
BEGIN模块后紧跟着动作块,这个动作块在awk处理任何输入文件之前执行。所以它可以在没有任何输入的情况下进行测试。它通常用来改变内建变量的值,如OFS,RS和FS等,以及打印标题。如:$ awk 'BEGIN{FS=":"; OFS="\t"; ORS="\n\n"}{print $1,$2,$3} test。上式表示,在处理输入文件以前,域分隔符(FS)被设为冒号,输出文件分隔符(OFS)被设置为制表符,输出记录分隔符(ORS)被设置为两个换行符。$ awk 'BEGIN{print "TITLE TEST"}只打印标题。
END:让用户在最后一条输入记录被读取之后发生的动作
END不匹配任何的输入文件,但是执行动作块中的所有动作,它在整个输入文件处理完成后被执行。如$ awk 'END{print "The number of records is" NR}' test,上式将打印所有被处理的记录数。
print函数的参数可以是变量、数值或者字符串。自定义的内容如字符串、分隔符必须用双引号引用,逗号如果不用双引号输出为空格,输出域的分隔符默认是一个空格,保存在OFS中。如$ awk -F: '{print $1,$5}' test,$1和$5间的逗号就是OFS的值。
内建变量FS保存输入域分隔符的值,默认是空格或tab。可以通过-F命令行选项修改FS的值。可以同时使用多个域分隔符,此时需把分隔符放到方括号中,如$awk -F'[:/t]' '{print $1,$3}' test,表示以空格、冒号和tab作为分隔符
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
|
[root@justin ~]
# touch /home/last
[root@justin ~]
# last -n 5 > !$
last -n 5 >
/home/last
[root@justin ~]
# cat /home/last
root pts
/010
.15.72.73 Thu Nov 21 16:45 still logged
in
reboot system boot 2.6.32-279.el6.i Thu Nov 21 16:45 - 15:46 (23:01)
root pts
/010
.15.72.73 Mon Nov 18 11:02 - down (1+21:13)
reboot system boot 2.6.32-279.el6.i Mon Nov 18 10:23 - 08:16 (1+21:53)
root pts
/010
.15.72.73 Fri Nov 15 15:27 - down (02:09)
wtmp begins Wed Nov 13 17:30:52 2013
[root@justin ~]
# awk '{print $3}' /home/last
10.15.72.73
boot
10.15.72.73
boot
10.15.72.73
Wed
[root@justin ~]
# tail -5 /etc/passwd|awk -F ':' '{print $1}'
nfsnobody
abrt
sshd
tcpdump
justin
[root@justin ~]
# tail -5 /etc/passwd|awk -F':' '{print $1"\t"$7}'
nfsnobody
/sbin/nologin
abrt
/sbin/nologin
sshd
/sbin/nologin
tcpdump
/sbin/nologin
justin
/bin/bash
[root@justin ~]
#
|
显示/etc/passwd最后5个账户和账户对应的shell,而账户与shell之间以逗号分割,而且在所有行添加列名name,shell,在最后一行添加"justin1,/bin/nosh"。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
|
[root@justin ~]
# tail -5 /etc/passwd|awk -F : 'BEGIN {print "name,shell"} {print $1","$7} END {print "justin1,/bin/nosh"}'
name,shell
nfsnobody,
/sbin/nologin
abrt,
/sbin/nologin
sshd,
/sbin/nologin
tcpdump,
/sbin/nologin
justin,
/bin/bash
justin1,
/bin/nosh
[root@justin ~]
# tail -5 /etc/passwd|awk -F : 'BEGIN {print "name,shell"} {print $1 , $7} END {print "justin1,/bin/nosh"}'
name,shell
nfsnobody
/sbin/nologin
abrt
/sbin/nologin
sshd
/sbin/nologin
tcpdump
/sbin/nologin
justin
/bin/bash
justin1,
/bin/nosh
|
环境变量:
NF:当前记录已经浏览域的个数,$NF 最后一个域值,$(NF-1)倒数第二个域....
NR:已读的记录数,每处理完一条记录,NR的值就增加1,,$NR 第几条记录的域值,NR=3,$NR 第三个域的值
$n:当前行的第n个域,域间由分隔符隔开,$1表示当前行第一个域,$2表示第二个域,$0表示整行记录;默认情况下各域以空格或tab分隔开
ARGC: 命令行参数的数目。
FILENAME: 当前文件名,awk浏览的文件名 ,注意大小写
FS 字段分隔符(默认是任何空格),等价于命令行 -F选项
OFS 输出字段分隔符(默认值是一个空格)
ORS 输出记录分隔符(默认值是一个换行符)
RS 记录分隔符(默认是一个换行符)
统计/etc/passwd:文件名,每行的行号,每行的列数,对应的完整行内容:
1
2
3
4
5
6
|
[root@justin ~]
# awk -F: '{print "filename : " FILENAME,";""linenumber : " NR,";""Total number of columnsis :" NF,";""linename : " $0}' /etc/passwd
......
filename :
/etc/passwd
;linenumber : 32 ;Total number of columnsis :7 ;linename : abrt:x:173:173::
/etc/abrt
:
/sbin/nologin
filename :
/etc/passwd
;linenumber : 33 ;Total number of columnsis :7 ;linename : sshd:x:74:74:Privilege-separated SSH:
/var/empty/sshd
:
/sbin/nologin
filename :
/etc/passwd
;linenumber : 34 ;Total number of columnsis :7 ;linename : tcpdump:x:72:72::/:
/sbin/nologin
filename :
/etc/passwd
;linenumber : 35 ;Total number of columnsis :7 ;linename : justin:x:500:500:justin:
/home/justin
:
/bin/bash
|
awk中执行linux的命令
awk可以用getline或system来调用shell的命令,在awk的print中我们可以直接调用shell命令,但都需要把命令放在双引号里,如:END{print "\nIP:'$IP'";system("date")|getline d;print d;close("date")}' 或者END{print "\nIP:'$IP'";"date"|getline d;print d;close("date")}'
注意:1、在awk中打开一个管道,且同一时刻只能有一个管道存在。执行完一个命令,最好立即调用close()关闭管道。
2、getline 是awk里用于输入重定向的一个函数,他可以从标准输入/一个管道/文件读取输入, 而不只是从当前被处理的文件来处理, 他取得输入的下一行并给NF,NR,FNR等内制变量置值,如果读取成功,getline返回1;如果读到文件结束符,getline返回0;如果发生错误,例如打不开文件,getline返回-1. 所以,getline可以用于while循环中;getline除了可以通过管道从shell命令里读取数据外,它还可以从标准输入(用"-"指定从标准输入读入,或者如果命令行没有任何输入文件且不用 重定向符"<"指定文件,默认也是从标准输入读)和文件里读取数据;如果getline后面没有指定变量,则读取的数据会放到$0里面
3、system的返回值是cmd的退出状态.如果要获得cmd的输出,就要和getline结合使用
4、如果system()括号里面的参数没有加上双引号的话,awk认为它是一个变量,它会从awk的变量里面把它们先置换为常量,然后再回传给shell
如果system()括号里面的参数有加上双引号的话,那么awk就直接把引号里面的内容回传给shell,作为shell的“命令行”
5、system()是新开一个shell,在相应的cmdline参数送回给shell,所以要注意当前shell变量与新开shell变量环境变量的问题
调用shell脚本里面自定义变量
awk '{print "'"$VAR1"'", "'"$VAR2"'"}' input_file 外面是双引号,里面是单引号,然后里面再是双引号(这个双引号可以省略)
1
2
|
IP=`
ifconfig
|
grep
-i
"inet addr"
|
grep
-
v
"127.0.0.1"
|
awk
'{print $2}'
|
awk
-F
':'
'{print $2}'
|
paste
-s -d
','
`
cat
/tmp/iptables
.txt|
awk
'BEGIN {print "\[流泪\]IPtalbes Forward Restart!\n"} {print} END{print "\nIP:'
$IP
'";"date"|getline d;print d;close("date")}'
|
匹配操作符:
1
2
3
4
5
6
7
8
9
|
[root@justin ~]
# awk "/root/" /etc/passwd
root:x:0:0:root:
/root
:
/bin/bash
operator:x:11:0:operator:
/root
:
/sbin/nologin
[root@justin ~]
# awk "/^root/" /etc/passwd
root:x:0:0:root:
/root
:
/bin/bash
[root@justin ~]
# awk -F : '/root/ {print $1}' /etc/passwd
root
operator
[root@justin ~]
#
|
范围模版:
范围模板匹配从第一个模板的第一次出现到第二个模板的第一次出现之间所有行。如果有一个模板没出现,则匹配到开头或末尾
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
|
[root@justin ~]
# touch /home/passwd
[root@justin ~]
# tail -8 /etc/passwd > /home/passwd
[root@justin ~]
# cat !$
cat
/home/passwd
pulse:x:497:496:PulseAudio System Daemon:
/var/run/pulse
:
/sbin/nologin
gdm:x:42:42::
/var/lib/gdm
:
/sbin/nologin
rpcuser:x:29:29:RPC Service User:
/var/lib/nfs
:
/sbin/nologin
nfsnobody:x:65534:65534:Anonymous NFS User:
/var/lib/nfs
:
/sbin/nologin
abrt:x:173:173::
/etc/abrt
:
/sbin/nologin
sshd:x:74:74:Privilege-separated SSH:
/var/empty/sshd
:
/sbin/nologin
tcpdump:x:72:72::/:
/sbin/nologin
justin:x:500:500:justin:
/home/justin
:
/bin/bash
[root@justin ~]
# awk "/gdm/,/sshd/" /home/passwd
gdm:x:42:42::
/var/lib/gdm
:
/sbin/nologin
rpcuser:x:29:29:RPC Service User:
/var/lib/nfs
:
/sbin/nologin
nfsnobody:x:65534:65534:Anonymous NFS User:
/var/lib/nfs
:
/sbin/nologin
abrt:x:173:173::
/etc/abrt
:
/sbin/nologin
sshd:x:74:74:Privilege-separated SSH:
/var/empty/sshd
:
/sbin/nologin
[root@justin ~]
#
|
获得外部变量
在awk中,变量不需要定义就可以直接使用,变量类型可以是数字或字符串。
-
赋值格式:Variable = expression,如$ awk '$1 ~/test/{count = $2 + $3; print count}' test,上式的作用是,awk先扫描第一个域,一旦test匹配,就把第二个域的值加上第三个域的值,并把结果赋值给变量count,最后打印出来。
-
awk可以在命令行中给变量赋值,然后将这个变量传输给awk脚本。如$ awk -F: -f awkscript month=4 year=2004 test,上式的month和year都是自定义变量,分别被赋值为4和2004。在awk脚本中,这些变量使用起来就象是在脚本中建立的一样。注意,如果参数前面出现test,那么在BEGIN语句中的变量就不能被使用。
-
域变量也可被赋值和修改,如$ awk '{$2 = 100 + $1; print }' test,上式表示,如果第二个域不存在,awk将计算表达式100加$1的值,并将其赋值给$2,如果第二个域存在,则用表达式的值覆盖$2原来的值。再例如:$ awk '$1 == "root"{$1 ="test";print}' test,如果第一个域的值是“root”,则把它赋值为“test”,注意,字符串一定要用双引号。
-
内建变量的使用。变量列表在前面已列出,现在举个例子说明一下。$ awk -F: '{IGNORECASE=1; $1 == "MARY"{print NR,$1,$2,$NF}'test,把IGNORECASE设为1代表忽略大小写,打印第一个域是mary的记录数、第一个域、第二个域和最后一个域。
fflush函数用以刷新输出缓冲区,如果没有参数,就刷新标准输出的缓冲区,如果以空字符串为参数,如fflush(""),则刷新所有文件和管道的输出缓冲区。
运算符:
= += -= *= /= %= ^= **= 赋值
|| 逻辑或
&& 逻辑与
~ ~! 匹配正则表达式和不匹配正则表达式;awk '$1 ~ /101/ {print $1}' file 显示文件中第一个域匹配101的行(记录)
< <= > >= != == 关系运算符
空格 连接
+ - 加,减
* / & 乘,除与求余
+ - ! 一元加,减和逻辑非
^ *** 求幂
++ -- 增加或减少,作为前缀或后缀
$ 字段引用 ,$NF表示最后一个域
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
|
[root@justin ~]
# awk -F: '/root/ && /bash/ {print $0}' /etc/passwd
root:x:0:0:root:
/root
:
/bin/bash
[root@justin ~]
# awk -F: '/root/ {print $0}' /etc/passwd
root:x:0:0:root:
/root
:
/bin/bash
operator:x:11:0:operator:
/root
:
/sbin/nologin
[root@justin ~]
# awk -F: '$1=="tcpdump"' /etc/passwd
tcpdump:x:72:72::/:
/sbin/nologin
[root@justin ~]
# awk -F: '$3>499 || $4<1' /etc/passwd
root:x:0:0:root:
/root
:
/bin/bash
sync
:x:5:0:
sync
:
/sbin
:
/bin/sync
shutdown
:x:6:0:
shutdown
:
/sbin
:
/sbin/shutdown
halt:x:7:0:halt:
/sbin
:
/sbin/halt
operator:x:11:0:operator:
/root
:
/sbin/nologin
nfsnobody:x:65534:65534:Anonymous NFS User:
/var/lib/nfs
:
/sbin/nologin
justin:x:500:500:justin:
/home/justin
:
/bin/bash
[root@justin ~]
#
|
gsub
将一行拆分成多行
1
2
3
4
|
[root@localhost ~]
# cat test
1,2,3
a,b,c
[root@localhost ~]
#
|
拆分后
1
2
3
4
5
6
7
8
|
[root@localhost ~]
# cat test
1 1
2 1
3 1
a 2
b 2
c 2
[root@localhost ~]
#
|
解析:
先在每行末加个逗号“,”,不然每行的最后一位数3和c后面的1和2就没有
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
|
[root@localhost ~]
# sed -i 's/$/,/' test
[root@localhost ~]
# cat test
1,2,3,
a,b,c,
[root@localhost ~]
# cat test | awk 'BEGIN{i=1}{gsub(/,/,"\t"i"\n");i++;print}'
1 1
2 1
3 1
a 2
b 2
c 2
[root@localhost ~]
# cat test | awk 'BEGIN{i=1}{gsub(/,/,"\t"i"\n");i++;print}'|sed '/^$/d'
1 1
2 1
3 1
a 2
b 2
c 2
[root@localhost ~]
#
|
gsub(regular expression, subsitution string, target string);简称 gsub(r,s,t),gsub函数则使得在所有正则表达式被匹配的时候都发生替换
1
2
3
4
5
6
7
8
9
|
[root@localhost ~]
# echo "a b c 2011-11-22 a:d" | awk '$4=gsub(/-/,"",$4)'
a b c 2 a:d
[root@localhost ~]
# echo "a b c 2011-11-22 a:d" | awk 'gsub(/-/,"",$4)'
a b c 20111122 a:d
[root@localhost ~]
# echo "a b c 2011-11-22 a:d" | awk 'gsub(/-/,"_",$4)'
a b c 2011_11_22 a:d
[root@localhost ~]
# echo "a b c 2011-11-22 a:d" | awk 'gsub(/-/,"_")'
a b c 2011_11_22 a:d
[root@localhost ~]
#
|
gsub(/-/,"",$4)的值是2【在赋值的情况下是这样的~】,你将2赋值给$4 ,gsub返回的是替换的次数
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
|
[root@localhost ~]
# cat data.test
0001|123efskjfdj|EREADFASDLKJCV
0002|123456djfksdaa|JDKFJALSDJFsddf
0003|12345678efskjfdj|EREADFASDLKJCV
0004|123456789djfksdaa1234|JDKFJALSDJFsddf
[root@localhost ~]
# awk -F'|' 'BEGIN{OFS="|"}{sub(/[0-9]+/,"",$2);print $0}' data.test
0001|efskjfdj|EREADFASDLKJCV
0002|djfksdaa|JDKFJALSDJFsddf
0003|efskjfdj|EREADFASDLKJCV
0004|djfksdaa1234|JDKFJALSDJFsddf
[root@localhost ~]
# awk -F'|' 'BEGIN{OFS="|"}{sub(/[0-9]+5/,"",$2);print $0}' data.test #0-9出现任意次数,后面跟随5的替换 $2匹配的第二个域
0001|123efskjfdj|EREADFASDLKJCV
0002|6djfksdaa|JDKFJALSDJFsddf
0003|678efskjfdj|EREADFASDLKJCV
0004|6789djfksdaa1234|JDKFJALSDJFsddf
[root@localhost ~]
# awk -F'|' 'BEGIN{OFS="|"}{sub(/[0-9]+2/,"2018",$1);print $0}' data.test
0001|123efskjfdj|EREADFASDLKJCV
2018|123456djfksdaa|JDKFJALSDJFsddf
0003|12345678efskjfdj|EREADFASDLKJCV
0004|123456789djfksdaa1234|JDKFJALSDJFsddf
[root@localhost ~]
#
|
gsub匹配所有的符合模式的字符串,相当于 sed 's//g' 。
sub匹配第一次出现的符合模式的字符串,相当于 sed 's//' 。
sub函数匹配指定域/记录中最大、最靠左边的子字符串的正则表达式,并用替换字符串替换这些字符串。如果没有指定目标字符串就默认使用整个记录。替换只发生在第一次匹配的时候
$ awk '{ sub(/test/, "mytest"); print }' testfile #在整个记录中匹配,替换只发生在第一次匹配发生的时候。
$ awk '{ sub(/test/, "mytest", $1); print }' testfile #在整个记录的第一个域中进行匹配,替换只发生在第一次匹配
$ awk '{ gsub(/test/, "mytest"); print }' testfile #在整个文档中匹配test,匹配的都被替换成mytest。
$ awk '{ gsub(/test/, "mytest", $1); print }' testfile #在整个文档的第一个域中匹配,所有匹配的都被替换成mytest
length
length函数返回没有参数的字符串的长度。length函数返回整个记录中的字符数
echo "1234567"|awk '{print length}'
1
2
3
|
[root@localhost ~]
# echo "1234567"|awk '{print length}'
7
[root@localhost ~]
#
|
substr
截取字符串,返回从起始位置起,指定长度之子字符串;若未指定长度,则返回从起始位置到字符串末尾的子字符串。
格式:
substr(s,p) 返回字符串s中从第p个字符串开始到结尾的后缀部分
substr(s,p,n) 返回字符串s中从第p个字符串开始长度为n的后缀部分
1
2
3
4
5
6
7
8
9
|
[root@localhost ~]
# echo "1234|abcd|ab12"|awk '{print substr($0,6,4)}' #返回从第6个字符串开始长度为4的部分
abcd
[root@localhost ~]
# echo "1234|abcd|ab12"|awk '{print substr($0,6,8)}'
abcd|ab1
[root@localhost ~]
# echo "1234|abcd|ab12"|awk -F'|' '{print substr($3,2,2)}' #返回以|为分隔符的第3个域的第2个字符串开始长度为2的部分
b1
[root@localhost ~]
# echo "1234|abcd|ab12"|awk -F'|' '{print substr($3,2)}' #返回以|为分隔符的第3个域的第2个字符串到字符串末尾的部分
b12
[root@localhost ~]
#
|
split
初始化和类型强制,awk的内建函数split允许你把一个字符串分隔为单词并存储在数组中。你可以自己定义域分隔符或者使用现在FS(域分隔符)的值。
格式:
split (string, array, field separator)
split (string, array) -->如果第三个参数没有提供,awk就默认使用当前FS值。
几个实例
-
$ awk '/^(no|so)/' test-----打印所有以模式no或so开头的行。
-
$ awk '/^[ns]/{print $1}' test-----如果记录以n或s开头,就打印这个记录。
-
$ awk '$1 ~/[0-9][0-9]$/(print $1}' test-----如果第一个域以两个数字结束就打印这个记录。
-
$ awk '$1 == 100 || $2 < 50' test-----如果第一个或等于100或者第二个域小于50,则打印该行。
-
$ awk '$1 != 10' test-----如果第一个域不等于10就打印该行。
-
$ awk '/test/{print $1 + 10}' test-----如果记录包含正则表达式test,则第一个域加10并打印出来。
-
$ awk '{print ($1 > 5 ? "ok "$1: "error"$1)}' test-----如果第一个域大于5则打印问号后面的表达式值,否则打印冒号后面的表达式值。
-
$ awk '/^root/,/^mysql/' test----打印以正则表达式root开头的记录到以正则表达式mysql开头的记录范围内的所有记录。如果找到一个新的正则表达式root开头的记录,则继续打印直到下一个以正则表达式mysql开头的记录为止,或到文件末尾。
if语句
格式:
{if (expression){
statement; statement; ...
}
}
$ awk '{if ($1 <$2) print $2 "too high"}' test。如果第一个域小于第二个域则打印。
$ awk '{if ($1 < $2) {count++; print "ok"}}' test.如果第一个域小于第二个域,则count加一,并打印ok。
if/else语句,用于双重判断
格式:
{if (expression){
statement; statement; ...
}
else{
statement; statement; ...
}
}
$ awk '{if ($1 > 100) print $1 "bad" ; else print "ok"}' test。如果$1大于100则打印$1 bad,否则打印ok。
$ awk '{if ($1 > 100){ count++; print $1} else {count--; print $2}' test。如果$1大于100,则count加一,并打印$1,否则count减一,并打印$1。
if/else else if语句,用于多重判断
格式:
{if (expression){
statement; statement; ...
}
else if (expression){
statement; statement; ...
}
else if (expression){
statement; statement; ...
}
else {
statement; statement; ...
}
}
循环
awk有三种循环:while循环;for循环;special for循环。
$ awk '{ i = 1; while ( i <= NF ) { print NF,$i; i++}}' test。变量的初始值为1,若i小于可等于NF(记录中域的个数),则执行打印语句,且i增加1。直到i的值大于NF.
$ awk '{for (i = 1; i<NF; i++) print NF,$i}' test。作用同上。
breadkcontinue语句。break用于在满足条件的情况下跳出循环;continue用于在满足条件的情况下忽略后面的语句,直接返回循环的顶端。如:
{for ( x=3; x<=NF; x++)
if ($x<0){print "Bottomed out!"; break}}
{for ( x=3; x<=NF; x++)
if ($x==0){print "Get next item"; continue}}
next语句从输入文件中读取一行,然后从头开始执行awk脚本。如:
{if ($1 ~/test/){next}
else {print}
}
exit语句用于结束awk程序,但不会略过END块。退出状态为0代表成功,非零值表示出错。
本文转自 justin_peng 51CTO博客,原文链接:http://blog.51cto.com/ityunwei2017/1334886,如需转载请自行联系原作者