python之基础篇(十一)——正则表达式RE模块

简介:

防伪码:存在的,忘却了,红尘万丈,入眸幻灭


  正则表达式(RE)是一种小型的、高度专业化的编程语言,在python中,它通过re模块实现。

  正则表达式可以实现以下功能:

    为想要匹配的相应字符串集指定规则;

    能够匹配不定长的字符集;

    可以指定正则表达式的一部分的重复次数;

    可以使用RE以各种方式来修改或分割字符串

  正则表达式模式被编译成一系列的字节码,然后由C编写的匹配引擎执行。

  字符匹配:

    普通字符:

      大多数字母和字符一般都会和自身匹配。

      如正则表达式test会和字符串"test"完全匹配

    元字符:

      .:

        默认匹配除\n外的任意单字符

        编译时指定flag DOTALL则匹配任意单个字符,包括换行

      []:

        常用来指定一个字符集:[abc]或[a-z]

        元字符在字符集中不起作用:[akm$]

        补集匹配不在区间范围内的字符:[^a-z]

      ^:

        匹配行首。除非设置MULTILINE标志,它只是匹配字符串的开始

        在MULTILINE模式里,它也可以直接匹配字符串中的每个换行

      $:

        匹配行尾,行尾被定义为要么是字符串尾,要么是一个换行字符后面的任何位置

      \:

        反斜杠后面可以加不同的字符以表示不同特殊意义

        也可以用于取消所有的元字符:\[或\\

        \d:匹配任何十进制数:它相当于[0-9]

        \D:匹配任何非数字字符:它相当于[^0-9]

        \s:匹配任何空白字符:它相当于[\t\n\r\f\v]

        \S:匹配任何非空白字符:它相当于[^\t\n\r\f\v]

        \w:匹配任何字母数字字符:它相当于[a-zA-Z0-9_]

        \W:匹配任何非字母数字字符:它相当于[^a-zA-Z0-9_]

      *:

        指定前一个字符可以被匹配零次或更多次,而不是只有一次。

        匹配引擎会试着重复尽可能多的次数(不超过整数界定范围,20亿)

      +:

        表示匹配至少一次或多次

      ?:

        匹配一次或零次:你可以认为它用于标识某事物是可选的

        加在重复(+和*)的后面,可以启用懒惰模式,实现最小匹配

      {m,n}:

        其中m和n是十进制整数。该限定符的意思是至少有m个重复、至多到n个重复

        忽略m会认为下边界是0,而忽略n的结果将是上边界为无穷大(实际上是20亿)

        {0,}等同于*,{1}等同于+,而{0,1}则与?相同。若可以的话,最好使用*、+或?

      ():分组

        分组可以把一些数据划分为一个整体

        当用findall作匹配时如果有分组则只返回分组中的数据

        email = r'\w+@\w+\.(com|cn|com\.cn)'

      |:

        匹配“|”左或右的字符

  使用正则表达式:

    re模块提供了一个正则表达式引擎的接口re.compile()函数,可将REstring编译成对象并用它们来进行匹配。

    编译后的正则要比没编译而直接解释的正则处理速度要快很多。

    编译正则表达式:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
In [ 1 ]:  import  re
 
In [ 2 ]: phone_number  =  re. compile ( '^\d{3,4}-?\d{8}$' )
 
In [ 3 ]:  print  phone_number
<_sre.SRE_Pattern  object  at  0x7f672ed46300 >
 
In [ 4 ]: phone_number.findall( '010-12345678' )
Out[ 4 ]: [ '010-12345678' ]
 
In [ 5 ]: phone_number.findall( '010-123456789' )
Out[ 5 ]: []
 
In [ 6 ]: phone_number.findall( '0120-12345678' )
Out[ 6 ]: [ '0120-12345678' ]

  re.compile()也接受可选的标志参数,常用来实现不同的特殊功能和语法变更。

    p = re.compile(r'ab*',re.IGNORECASE)

  编译标志-flags:后面的单个字母可以代替前面的单词,如re.S可以代替re.DOTALL

    DOTALL,S:使"."点号匹配包括换行在内的所有字符。

    IGNORECASE,I:使匹配对大小写不敏感

    LOCALE,L:使本地化识别()匹配.法语等

    MULTILINE,M:多行匹配,影响^和$。适用于要匹配的文本分布在多行的情况下。

    VERBOSE,X:能使用REs的verbose状态,使之被组织得更清晰易懂。适用于正则表达式分布在多行的情况下。

  反斜杠(\)的麻烦:

    字符串前加'r'反斜杠就不会被任何特殊方式处理

    \section:要匹配的字符串

    \\section:为re.compile取消反斜杠的特殊意义

    "\\\\section":为"\\section"的字符串实值(string literals)取消反斜杠的特殊意义

  执行匹配常用的函数:

    'RegexObject'实例有一些方法和属性,完整的列表可查阅Python Library Reference

    match():决定RE是否在字符串刚开始的位置匹配

    search():扫描字符串,找到这个RE匹配的位置,无论在字符串的什么位置均能找到

    findall():找到RE匹配的所有子串,并把它们作为一个列表返回

    finditer():找到RE匹配的所有子串,并把它们作为一个迭代器返回

   注意:若未匹配到则match()和search()将返回None。若匹配成功则返回一个'MatchObject'实例对象

  MatchObject实例方法:

    group():返回被RE匹配的字符串

    groupdict():将匹配的结果与给定的key生成一个字典并打印

1
2
In [ 8 ]: re.search( '(?P<id>[0-9]+)' , 'abc1234daf@34' ).groupdict()
Out[ 8 ]: { 'id' '1234' }

    start():返回匹配开始的位置

    end():返回匹配结束的位置

    span():返回一个元组包含匹配(开始,结束)的位置

  实际程序中,最常见的方法是将'MatchObject'保存在一个变量里,然后检查它是否为None。

1
2
3
4
5
6
7
#!/usr/bin/python
=  re. compile (...)
=  p.match( 'string goes here' )
if  m:
     print  'Match found: ' ,m.group()
else :
     print  'No match'

  模块级函数:

    re模块也提供了顶级函数调用,如match()、search()、sub()、subn()、split()、findall()等

    re.sub(pattern, repl, string):

      给定一个正则表达式pattern,将其作用于string字符串,并将匹配的内容修改成repl

      如:re.sub(r'w...d','python','hello world'),此句会实现将hello world修改成hello python

    re.split(pattern, string):

      给定一个正则表达式pattern,将其作用于string实现分割

      如:re.split(r'[\+\-\*]','123+456-789*000'),以+-*为分割符分割后面的字符串










本文转自 忘情OK  51CTO博客,原文链接:http://blog.51cto.com/itchentao/1891046,如需转载请自行联系原作者
目录
相关文章
|
1月前
|
编译器 Python
Python正则表达式的7个使用典范(推荐)
Python正则表达式的7个使用典范(推荐)
22 0
|
1月前
|
Python
请解释Python中的正则表达式以及如何使用它们进行文本处理。
请解释Python中的正则表达式以及如何使用它们进行文本处理。
9 0
|
1月前
|
机器学习/深度学习 Python
请解释Python中的正则表达式是什么?并举例说明其用法。
【2月更文挑战第26天】【2月更文挑战第86篇】请解释Python中的正则表达式是什么?并举例说明其用法。
|
1月前
|
缓存 数据安全/隐私保护 Python
Python快速入门:类、文件操作、正则表达式
Python快速入门:类、文件操作、正则表达式
C4.
|
1月前
|
Python
Python正则表达式
Python正则表达式
C4.
13 1
|
1月前
|
Python
Python实现正则表达式匹配。
【2月更文挑战第11天】【2月更文挑战第30篇】Python实现正则表达式匹配。
|
4月前
|
XML 测试技术 数据库
Python 正则表达式一文通
Python 正则表达式一文通
|
1月前
|
Python
在Python中,如何使用`regex`库进行正则表达式匹配?
在Python中,如何使用`regex`库进行正则表达式匹配?
13 0
|
2月前
|
开发者 Python
Python中的正则表达式:re模块详解与实例
Python中的正则表达式:re模块详解与实例
|
2月前
|
数据格式 Python
Python中的正则表达式:基础与应用
Python中的正则表达式:基础与应用

热门文章

最新文章