《Linux命令行与shell脚本编程大全》第二十章正则表达式-阿里云开发者社区

20.1 什么是正则表达式

20.1.1 定义

正则表达式是你所定义的模式模板。linux工具可以用它来过滤文本。

正则表达式利用通配符来描述数据流中第一个或多个字符。

正则表达式模式含有文本或特殊字符，为sed编辑器和gawk程序定义了一个匹配数据时采用的模板。

20.1.2 正则表达式的类型

使用正则表达式最大的问题在于有不止一种类型的正则表达式。

正则表达式是通过正则表达式引擎实现的，正则表达式引擎是一套底层软件，负责解释正则表达式模式并使用这些模式进行文本匹配。

在linux中有两种流行的正则表达式引擎：

1）POSIX基础正则表达式（BRE）引擎

2）POSIX扩展正则表达式（ERE）引擎

大部分linux工具都至少符合POSIX BRE引擎规范，能够识别该规范定义的所有模式符号。

但是，有些工具只支持BRE引擎规范下的子集。比如sed，这是出于速度方面的考虑。

gawk程序用ERE引擎来处理它的正则表达式模式。

20.2 定义BRE模式

20.2.1 纯文本

例子：

$echo “This is test line” | sed -n ‘/test/p’

$echo “This is test line” | gawk ‘/test/{print $0}’

正则表达式并不关心模式在数据流中的位置，也不关心出现了多少次，只要匹配了就会将该字符串传会linux工具。

正则表达式模式区分大小写。

20.2.2 特殊字符

正则表达式识别的特殊字符包括：

.*[]^${}\+?|()

如果要用某个特殊字符作为文本字符，就必须转义。在前面加上反斜线\。

比如：

$echo “This cost is \$200” | sed –n ‘/\$/p’ // 注意这里应该是\$200，而不是$200

$echo “\ hahah, this is fanxiexian” | sed –n ‘/\\/p’

要使用正斜线也需要用转义字符

$ehco “6 / 3 = 2” | sed -n ‘/\//p’

20.2.3 锚字符 ^ $

默认情况下，模式出现再数据流中的任何地方，它就能匹配。

有两个特殊字符可以用来将模式锁定在数据流中的行首或行尾。

1.锁定在行首（脱字符 ^）

^ 定义从数据流中文本行的行首开始的模式。如果模式出现在行首之外的位置，正则表达式模式则无法匹配。

需要用^，就必须将它放在正则表达式中指定的模式前面。

比如：

$echo “The book store” | sed –n ‘/^book/p’ // 这样不会有输出

$echo “The book store” | sed –n ‘/^The/p’ // 这个才有

还可以输入文件：

$sed -n ‘/^this/p’ data.txt

data.txt 中以this开头的行就能找出来。

注意如果将^放到模式开头之外的其他位置，那么久跟普通字符一样了。

$echo “This is ^ test” | sed –n ‘/is ^/p’ // 匹配 is ^ 。

注意：

如果指定正则表达式模式时只用了脱字符，就不需要用反斜线来转义。

如果你在模式中先指定了脱字符，随后还有一些其他文本，那么你必须在脱字符前用转义字符。

2. 锁定在行尾

用美元符$

$echo “This is test line” | sed –n ‘/line$/p’ //这样可以匹配到

$echo “This is test lines” | sed –n ‘/line$/p’ //这样不可以匹配到

要想匹配，文本模式必须是行的最后一部分。

3. 组合锚点

比如想到匹配指定内容

$sed ‘/^this is test line$/p’ data.txt // 匹配行 this is test line

将两个锚点直接组合在一起，之间不加任何东西，这样就过滤出数据流中的空白行。

$sed -n ‘/^$/p’ data.txt // 这样可以把data.txt 中的空白行过滤出来。

20.2.4 点号字符 .

用来匹配除换行符之外的任意单个字符。它必须匹配一个字符，如果点字符的位置没有字符那么模式就不成立。

例子：

xcy@xcy-virtual-machine:~/shell/20zhang$ cat data.txt

this is a test line

the cat is sleeping

that is a very nice hat

this test is at line four

at ten o'clock we'll go home

xcy@xcy-virtual-machine:~/shell/20zhang$ sed -n '/.at/p' data.txt

the cat is sleeping

that is a very nice hat

this test is at line four

xcy@xcy-virtual-machine:~/shell/20zhang$

空格也算一个字符。注意第5行没有匹配到。at前面没有字符了。

20.2.5 字符组 []

可以限定待匹配的具体字符，在正则表达式中，这称为字符组。用[]括起来

比如：

$sed –n ‘/[ch]at/p’ data.txt // 相当于只匹配cat 或者 hat。其他的at就不匹配了。

在不确定大小写的时候，字符组会非常有用：

$echo “Yes” | sed –n ‘/[yY]es/p’

还可以用多个字符组：

$echo ‘YeS’ | sed –n ‘/[Yy][Ee][Ss]/p’

这样就相当于可以限制行的字符个数和区间了

20.2.6 排除型字符组

相当于字符组取反，可以寻找字符组中没有的字符。在前面加个脱字符就好了。

$sed –n ‘/[^ch]at/p’ data.txt

匹配出c和h以外的字符。

20.2.7 区间

0 – 9，可以直接这么写[0-9] 而不需要[0123456789]

$sed –n ‘/^[0-9][0-9][0-9][0-9]&/p’ data.txt

字母也可以

$sed –n ‘/[c-h]at/p’ data.txt // 匹配c到h这个区间的字符。

还可以指定多个不连续的区间：

$sed –n ‘/[a-ch-m]at/p’ data.txt // 指定 a-c 和 h-m区间的字母。

$echo “This is foot” | sed –n ‘/[a-ch-n]oot/p’

20.2.8 特殊的字符组

除了自定义的区间（比如[0-9] [a-f]）之外，BRE还包含了一些特殊的字符组。见下表

组	描述
[[:alpha:]]	匹配任意字母字符，不管大小写
[[:alnum:]]	匹配任意字母数字字符 0-9 a-z A-Z
[[:blank:]]	匹配空格或制表符
[[:digit:]]	匹配数字 0-9
[[:lower:]]	匹配小写字母 a-z
[[:print:]]	匹配任意可打印字符
[[:punct:]]	匹配标点符号
[[:space:]]	匹配任意空白字符：空格、制表符、NL、FF、VT和CR
[[:upper:]]	匹配大写字母A-Z

使用：

$echo “achsdsd” | sed –n ‘/[[:digit:]]/p’

$echo “2344” | sed –n ‘/[[:digit:]]/p’

$echo “achsdsd” | sed –n ‘/[[:lower:]]/p’

$echo “this is , a test” | sed –n ‘/[[:punct:]]/p’

20.2.9 星号 *

在字符后面放置星号用来表明该字符必须在匹配模式的文本中出现0次或多次。

例子：

$echo “I am hahahaaaaa” | sed -n ‘/ha*h/p’ // 表明a可以出现0次或多次。

*还能用到字符组上，它允许指定可能在文本中出现多次的字符组或区间：

$echo ‘bt’ | sed –n ‘/b[ae]*t/p’ // a出现0次或次，e出现0次或多次

20.3 扩展正则表达式（POSIX ERE）

提供了一些可以供linux应用和工具使用的额外符号。

gawk程序（会慢一点）能够识别，sed编辑器（查找比较快）不能识别。

20.3.1 问号?

类似于星号，但是有点不同。

问号表明前面的字符可以出现0次或1次，不会匹配出现多次的字符。

$echo “bt” | gawk ‘/be?t/{print $0}’

$echo “bet” | gawk ‘/be?t/{print $0}’

$echo “beet” | gawk ‘/be?t/{print $0}’ // e 出现了2次，这里就不输出了

还可以跟字符组一起使用：

$echo “bet” | gawk ‘/b[ae]?t/{print $0}’

$echo “bat” | gawk ‘/b[ae]?t/{print $0}’

$echo “baet” | gawk ‘/b[ae]?t/{print $0}’ // 这里相当于出现了2次，也不会输出

$echo “baet” | gawk ‘/b[a-f]?t/{print $0}’

20.3.2 加号+

有点像*号。但是必须出现1次以上。可以有多次

$echo “baet” | gawk ‘/b[ae]+t/{print $0}’

20.3.3 使用花括号{}

花括号允许你为可重复的正则表达式指定一个上限，这通常称为间隔。可以用两种格式来指定区间。

1）m：正则表达式准确出现m次

2）m,n：正则表达式至少出现m次，至多n次。

注意：默认情况下gawk程序不识别正则表达式间隔。必须指定gawk程序的 –re-interval命令行选项才能识别正则表达式间隔。

例子：

$echo “bt” | gawk –re-interval ‘/be{1}t/{print $0}’ // 指定出现1次e

$echo “bet” | gawk –re-interval ‘/be{1}t/{print $0}’

$echo “beeet” | gawk –re-interval ‘/be{3,6}t/{print $0}’ // e至少出现3次，至多6次

$echo “baaeeet” | gawk –re-interval ‘/b[ae]{1,3}t/{print $0}’ // a e 出现1 -3 次

20.3.4 管道符号|

管道符号允许你在检查数据流时，用逻辑or方式指定正则表达式引擎要用的两个或多个模式。

格式如下：

expr1|expr2|……

例子：

echo "the dog is sleeping" | gawk '/cat|dog/{print $0}' // 去匹配cat或dog

echo "the tat is sleeping" | gawk '/[ct]at|dog/{print $0}' // 去匹配 [ct]at或dog

20.3.5 表达式分组()

正则表达式模式也可以用圆括号进行分组。当你将正则表达式模式分组时，该组会被视为一个标准字符。可以像对普通字符一样给该组使用特殊字符。

例子：

$echo “Sat” | gawk ‘/Sat(urday)?/ {print $0}’

相当于把urday当做一个整体了， /SatF?/ 跟这个类似，F出现0次或1次。

()需要转义的用法：

echo "Sat(urday)" | gawk '/Sat$urday$/ {print $0}'

echo "Saturday" | gawk '/Sat$urday$/ {print $0}'

还可以将分组和管道符号一起使用来创建可能的模式匹配组:

echo "cat" | gawk '/(b|c)a(b|t)/ {print $0}'

这样相当于匹配 bab bat cab cat 四种。

20.4 正则表达式实战

20.4.1 目录文件计数

这个例子用于对PATH环境变量中各个目录里的可执行文件进行计数：

#!/bin/bash

mypath=$(echo $PATH | sed 's/:/ /g')   # 这里把用冒号分割的字符串换成用空格分割

#echo "mypath = $mypath"

count=0

for dir in $mypath

do

         check=$(ls $dir) // 查询单个目录

         for item in $check

         do

                   count=$[ count + 1 ]

         done

         echo "$dir - $count"

         count=0

done

20.4.2 验证电话号码

美国的号码格式如下：

(223)456-7890

(223) 456-7890

223-456-7890

223.456.7890

最开始是( ： ^\(?

三位区号（第一位必须大于2）：[2-9][0-9]{2}

然后又是括号：\)?

然后是分隔符（空格，点，减号）：( |-|\.)

然后是3位数字：[0-9]{3}

又是分隔符：( |-|\.)

最后四位数字：[0-9]{4}

连起来就是：

^$?[2-9][0-9]{2}$?( |-|\.)[0-9]{3}( |-|\.)[0-9]{4}$

例子：

xcy@xcy-virtual-machine:~/shell/20zhang$ cat isphone

#!/bin/bash

gawk --re-interval '/^$?[2-9][0-9]{2}$?( |-|\.)[0-9]{3}( |-|\.)[0-9]{4}$/ {print $0}'

xcy@xcy-virtual-machine:~/shell/20zhang$ echo "222-098-2231" | ./isphone

222-098-2231

xcy@xcy-virtual-machine:~/shell/20zhang$ echo "122-098-2231" | ./isphone

xcy@xcy-virtual-machine:~/shell/20zhang$ echo "222.098.2231" | ./isphone

222.098.2231

xcy@xcy-virtual-machine:~/shell/20zhang$

还可以将整个文件重定向到脚本：

phonelist里面存放着一行一行的数据：

$cat phonelist | ./isphone

这个例子其实也不是特别合理，比如下面几种情况也算是合法号码：

(235.561-4430

343) 451.4651

总之还是有待优化。

20.4.3 解析邮件地址

邮件地址的形式如下：

username@hostname

username值可用字母数字字符以及以下特殊字符：

1）点号

2）单破折线

3）加号

4）下划线

hostname部分由一个或多个域名和一个服务器名组成。只允许字母数字字符以及下面的特殊字符：比如（xiaochongyong@amwell-haha.com）

1）点号

2）下划线

username@相当于：^([a-zA-Z0-9_\-\.\+]+)@

注意： [] 里面是字符组，相当于之前的[xcs]。() 里面是表达式分组

hostname相当于：([a-zA-Z0-9_\-\.\]+)

后面还要接顶级域名。.com .cn .org 等

只能是字母字符，必须不少于两个字符，长度不超多5个字符：\.([a-zA-Z]{2,5})$

连起来就是：

^([a-zA-Z0-9_\.\-\+]+)@([a-zA-Z0-9_\.\-]+)\.([a-zA-Z]{2,5})$

例子：

xcy@xcy-virtual-machine:~/shell/20zhang$ cat isemail

#!/bin/bash

gawk --re-interval '/^([a-zA-Z0-9_\.\-\+]+)\@([a-zA-Z0-9_\-\.]+)\.([a-zA-Z]{2,5})$/ {print $0}'

xcy@xcy-virtual-machine:~/shell/20zhang$ echo "222x2iaochongyong@s1amwell-elec.com" | ./isemail

222x2iaochongyong@s1amwell-elec.com

xcy@xcy-virtual-machine:~/shell/20zhang$ echo "222x2iaocho%ngyong@s1amwell-elec.com" | ./isemail

xcy@xcy-virtual-machine:~/shell/20zhang$ echo "222x2iaocho%ngyong+@s1amwell-elec.com" | ./isemail

xcy@xcy-virtual-machine:~/shell/20zhang$ echo "222x2iaochongyong+@s1amwell-elec.com" | ./isemail

222x2iaochongyong+@s1amwell-elec.com

xcy@xcy-virtual-machine:~/shell/20zhang$ echo "222x2iaochongyong+@s1amwell-elec..com" | ./isemail

222x2iaochongyong+@s1amwell-elec..com

xcy@xcy-virtual-machine:~/shell/20zhang$ echo "222x2iaochongyong+@s1amwell-elec._.com" | ./isemail

222x2iaochongyong+@s1amwell-elec._.com

xcy@xcy-virtual-machine:~/shell/20zhang$

20.5 小结

正则表达式定义了用来过滤数据流中文本的模式模板。

模式由标准文本字符和特殊字符的组成。

正则表达式引擎用特殊字符来匹配一系列单个或多个字符，这类似于其他应用程序中通配符的工作方式。

《Linux命令行与shell脚本编程大全》第二十章正则表达式

20.1 什么是正则表达式

20.1.1 定义

20.1.2 正则表达式的类型

20.2 定义BRE模式

20.2.1 纯文本

20.2.2 特殊字符

20.2.3 锚字符 ^ $

20.2.4 点号字符 .

20.2.5 字符组 []

20.2.6 排除型字符组

20.2.7 区间

20.2.8 特殊的字符组

20.2.9 星号 *

20.3 扩展正则表达式（POSIX ERE）

20.3.1 问号?

20.3.2 加号+

20.3.3 使用花括号{}

20.3.4 管道符号|

20.3.5 表达式分组()

20.4 正则表达式实战

20.4.1 目录文件计数

20.4.2 验证电话号码

20.4.3 解析邮件地址

20.5 小结

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

《Linux命令行与shell脚本编程大全》第二十章 正则表达式

20.1 什么是正则表达式

20.1.1 定义

20.1.2 正则表达式的类型

20.2 定义BRE模式

20.2.1 纯文本

20.2.2 特殊字符

20.2.3 锚字符 ^ $

20.2.4 点号字符 .

20.2.5 字符组 []

20.2.6 排除型字符组

20.2.7 区间

20.2.8 特殊的字符组

20.2.9 星号 *

20.3 扩展正则表达式（POSIX ERE）

20.3.1 问号?

20.3.2 加号+

20.3.3 使用花括号{}

20.3.4 管道符号|

20.3.5 表达式分组()

20.4 正则表达式实战

20.4.1 目录文件计数

20.4.2 验证电话号码

20.4.3 解析邮件地址

20.5 小结

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

《Linux命令行与shell脚本编程大全》第二十章正则表达式