正则表达式-阿里云开发者社区

正则表达式

2017-04-29 780

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 正则表达式正则表达式是对字符串操作的一种逻辑公式，就是用实现定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

正则表达式

正则表达式是对字符串操作的一种逻辑公式，就是用实现定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

不是Python所独有，需要通过re模块加载。
正则表达式测试网站：开源中国

常用匹配字符：

re.match

re.match尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none.

re.match(patter,string,flags=0)

实例

常规匹配

import re
content = 'Hello 123 4537 World This is Regex Demo'
print(len(content))
result = re.match('^Hello\s\d\d\d\s\d{4}\s.*Demo$',content)
print(result)
print(result.group()) # 匹配的结果
print(result.span()) # 匹配字符的长度

泛匹配： .*

import re
content = 'Hello 123 4537 World_This is Regex Demo'
result = re.match('^Hello.*Demo$',content)
print(result)

匹配目标:小括号,然后用goup(1),group(2)

import re
content = 'Hello 1234537 World_This is Regex Demo'
result = re.match('^Hello\s(\d+)\sWorld.*Demo$',content)
print(result.group(1))

贪婪匹配:匹配尽可能多的字符

import re
content = 'Hello 1234537 World_This is Regex Demo'
result = re.match('^He.*(\d+).*Demo$',content)
#这里小括号内只会匹配到7

非贪婪匹配

import re
content = 'Hello 1234537 World_This is Regex Demo'
result = re.match('He.*?(\d+).*Demo$',content)
# 这里会匹配完整的数字

匹配模式

import re
content = ''''''Hello 1234537 World_This
is Regex Demo''''''
result1 = re.match('He.*?(\d+).*Demo$',content)
result2 = re.match('He.*?(\d+).*Demo$',content，re.S)

转义字符 ""

import re
content="This is $5.00"
result1 = re.match("This is $5.00",content)
result2 = re.match("This is \$5\.00)

小结：尽量使用泛匹配，使用括号得到匹配目标，尽量使用非贪婪模式，有换行符就用re.S,有特殊字符用转义

re.search

re.search扫描整个字符串并返回第一个成功的匹配

import re
content = "Extra strings Hello 1234657 World_This is a Regex Demo Extra strings"
result_re_match = re.match("He.*?(\d+).*Demo$",conent)
resutl_re_search = re.search("He.*?(\d+).*Demo$",content)

小结：为方便匹配，能用search,就不用match

re.findall

搜索字符串，以列表形式返回全部匹配的子串。

小括号既可以作为整体，又可以作为分组。

re.sub

替换字符串中每一个匹配的子串后返回替换后的字符串。

import re
content = "Extra strings Hello 1234657 World_This is a Regex Demo Extra strings"
# 替换
content1 = re.sub('\d+','',content)
content2 = re.sub('\d+','Replacement',content)
# 增加内容
content3 = re.sub('(\d+),r'\1 8910',content)

可以采用sub先进行替换，然后再用findall。
ps：使用strip()方法去除空格

re.compile

将正则表达式编译成正则表达式对象，以便复用匹配模式。

import re
content = '''Hello 1234567 World_This
is a Regex Demo'''
pattern = re.compile("Hello.*Demo',re.S)
result = re.match(pattern,content)
print(result)

文章标签：

Python

正则表达式

正则表达式

re.match

re.search

re.findall

re.sub

re.compile

热门文章

最新文章

相关电子书