Python 之re模块-阿里云开发者社区

Python 之re模块

2017-11-27 1019

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

常用正则表达式符号

 
  
    
      
      
        '.'     
        默认匹配除\n之外的任意一个字符，若指定flag DOTALL,则匹配任意字符，包括换行 
       
 
        '^'     
        匹配字符开头，若指定flags MULTILINE,这种也可以匹配上(r
        "^a"
        ,
        "\nabc\neee"
        ,flags
        =
        re.MULTILINE) 
       
 
        '$'     
        匹配字符结尾，或e.search(
        "foo$"
        ,
        "bfoo\nsdfsf"
        ,flags
        =
        re.MULTILINE).group()也可以 
       
 
        '*'     
        匹配
        *
        号前的字符
        0
        次或多次，re.findall(
        "ab*"
        ,
        "cabb3abcbbac"
        )  结果为[
        'abb'
        , 
        'ab'
        , 
        'a'
        ] 
       
 
        '+'     
        匹配前一个字符
        1
        次或多次，re.findall(
        "ab+"
        ,
        "ab+cd+abb+bba"
        ) 结果[
        'ab'
        , 
        'abb'
        ] 
       
 
        '?'     
        匹配前一个字符
        1
        次或
        0
        次 
       
 
        '{m}'   
        匹配前一个字符m次 
       
 
        '{n,m}' 
        匹配前一个字符n到m次，re.findall(
        "ab{1,3}"
        ,
        "abb abc abbcbbb"
        ) 结果
        'abb'
        , 
        'ab'
        , 
        'abb'
        ] 
       
 
        '|'     
        匹配|左或|右的字符，re.search(
        "abc|ABC"
        ,
        "ABCBabcCD"
        ).group() 结果
        'ABC' 
       
 
        '(...)' 
        分组匹配，re.search(
        "(abc){2}a(123|456)c"
        , 
        "abcabca456c"
        ).group() 结果 abcabca456c 
       
 
          
       
 
          
       
 
        '\A'    
        只从字符开头匹配，re.search(
        "\Aabc"
        ,
        "alexabc"
        ) 是匹配不到的 
       
 
        '\Z'    
        匹配字符结尾，同$ 
       
 
        '\d'    
        匹配数字
        0
        -
        9 
       
 
        '\D'    
        匹配非数字 
       
 
        '\w'    
        匹配[A
        -
        Za
        -
        z0
        -
        9
        ] 
       
 
        '\W'    
        匹配非[A
        -
        Za
        -
        z0
        -
        9
        ] 
       
 
        's'     
        匹配空白字符、\t、\n、\r , re.search(
        "\s+"
        ,
        "ab\tc1\n3"
        ).group() 结果 
        '\t' 
       
 
          
       
 
        '(?P<name>...)' 
        分组匹配 re.search(
        "(?P<province>[0-9]{4})(?P<city>[0-9]{2})(?P<birthday>[0-9]{4})"
        ,
        "371481199306143242"
        ).groupdict(
        "city"
        )  
       
 
        结果{
        'province'
        : 
        '3714'
        , 
        'city'
        : 
        '81'
        , 
        'birthday'
        : 
        '1993'
        } 
       
 
    

   
 

最常用的匹配语法

 
         re.match 从头开始匹配
        
         re.search 匹配包含
        
         re.findall 把所有匹配到的字符放到以列表中的元素返回
        
         re.splitall 以匹配到的字符当做列表分隔符
        
         re.sub      匹配字符并替换

仅需轻轻知道的几个匹配模式

 
         re.I(re.IGNORECASE): 忽略大小写（括号内是完整写法，下同）
        
         M(MULTILINE): 多行模式，改变
         '^'
         和
         '$'
         的行为（参见上图） 
        
         S(DOTALL): 点任意匹配模式，改变
         '.'
         的行为

注意：

与大多数编程语言相同，正则表达式里使用"\"作为转义字符，这就可能造成反斜杠困扰。假如你需要匹配文本中的字符"\"，那么使用编程语言表示的正则表达式里将需要4个反斜杠"\\\\"：前两个和后两个分别用于在编程语言里转义成反斜杠，转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。Python里的原生字符串很好地解决了这个问题，这个例子中的正则表达式可以使用r"\\"表示。同样，匹配一个数字的"\\d"可以写成r"\d"。有了原生字符串，你再也不用担心是不是漏写了反斜杠，写出来的表达式也更直观

本文转自奚落123 51CTO博客，原文链接：http://blog.51cto.com/guyuyuan/1926561，如需转载请自行联系原作者

Python 之re模块

热门文章

最新文章

相关课程

相关电子书

相关实验场景