Python监控CPU统计列表中的重复项出现的次数

简介:

清单 1.获取 CPU 的信息

#!/usr/bin/env Python
from future import print_function
from collections import OrderedDict
import pprint

def CPUinfo():
''' Return the information in /proc/CPUinfo
as a dictionary in the following format:
CPU_info['proc0']={...}
CPU_info['proc1']={...}
'''
CPUinfo=OrderedDict()
procinfo=OrderedDict()

nprocs = 0
with open('/proc/CPUinfo') as f:
    for line in f:
        if not line.strip():
            # end of one processor
            CPUinfo['proc%s' % nprocs] = procinfo
            nprocs=nprocs+1
            # Reset
            procinfo=OrderedDict()
        else:
            if len(line.split(':')) == 2:
                procinfo[line.split(':')[0].strip()] = line.split(':')[1].strip()
            else:
                procinfo[line.split(':')[0].strip()] = ''

return CPUinfo

if name=='main':
CPUinfo = CPUinfo()
for processor in CPUinfo.keys():
print(CPUinfo[processor]['model name'])

简单说明一下清单 1,读取/proc/CPUinfo 中的信息,返回 list,每核心一个 dict。

其中 list 是一个使用方括号括起来的有序元素集合。List 可以作为以 0 下标开始的数组。

Dict 是 Python 的内置数据类型之一, 它定义了键和值之间一对一的关系。

OrderedDict 是一个字典子类,可以记住其内容增加的顺序。

常规 dict 并不跟踪插入顺序,迭代处理时会根据键在散列表中存储的顺序来生成值。

在 OrderedDict 中则相反,它会记住元素插入的顺序,并在创建迭代器时使用这个顺序

清单 2 获取系统的负载信息

#!/usr/bin/env Python 
import os 
def load_stat(): 
loadavg = {} 
f = open("/proc/loadavg") 
con = f.read().split() 
f.close() 
loadavg['lavg_1']=con[0] 
loadavg['lavg_5']=con[1] 
loadavg['lavg_15']=con[2] 
loadavg['nr']=con[3] 
loadavg['last_pid']=con[4] 
return loadavg 
print "loadavg",load_stat()['lavg_15']

简单说明一下清单 2:清单 2 读取/proc/loadavg 中的信息,

import os :Python 中 import 用于导入不同的模块,包括系统提供和自定义的模块。

其基本形式为:import 模块名 [as 别名],如果只需要导入模块中的部分或全部内容可以用形式:

from 模块名 import *来导入相应的模块。

OS 模块 os 模块提供了一个统一的操作系统接口函数,os 模块能在不同操作系统平台如 nt,posix 中的特定函数间自动切换,从而实现跨平台操作。

清单 3 获取内存使用情况

#!/usr/bin/env Python

from future import print_function
from collections import OrderedDict

def meminfo():
''' Return the information in /proc/meminfo
as a dictionary '''
meminfo=OrderedDict()

with open('/proc/meminfo') as f:
    for line in f:
        meminfo[line.split(':')[0]] = line.split(':')[1].strip()
return meminfo

if name=='main':
#print(meminfo())

meminfo = meminfo()
print('Total memory: {0}'.format(meminfo['MemTotal']))
print('Free memory: {0}'.format(meminfo['MemFree']))

简单说明一下清单 3:清单 3 读取 proc/meminfo 中的信息,
Python 字符串的 split 方法是用的频率还是比较多的。比如我们需要存储一个很长的数据,并且按照有结构的方法存储,方便以后取数据进行处理。

当然可以用 json 的形式。但是也可以把数据存储到一个字段里面,然后有某种标示符来分割。

Python 中的 strip 用于去除字符串的首位字符,最后清单 3 打印出内存总数和空闲数。

清单 4 net.py 获取网络接口的输入和输出

import time
import sys

if len(sys.argv) > 1:
INTERFACE = sys.argv[1]
else:
INTERFACE = 'eth0'
STATS = []
print 'Interface:',INTERFACE

def rx():
ifstat = open('/proc/net/dev').readlines()
for interface in ifstat:
if INTERFACE in interface:
stat = float(interface.split()[1])
STATS[0:] = [stat]

def tx():
ifstat = open('/proc/net/dev').readlines()
for interface in ifstat:
if INTERFACE in interface:
stat = float(interface.split()[9])
STATS[1:] = [stat]

print 'In Out'
rx()
tx()

while True:
time.sleep(1)
rxstat_o = list(STATS)
rx()
tx()
RX = float(STATS[0])
RX_O = rxstat_o[0]
TX = float(STATS[1])
TX_O = rxstat_o[1]
RX_RATE = round((RX - RX_O)/1024/1024,3)
TX_RATE = round((TX - TX_O)/1024/1024,3)
print RX_RATE ,'MB ',TX_RATE ,'MB'

简单说明一下清单 4:清单 4 读取/proc/net/dev 中的信息,
Python 中文件操作可以通过 open 函数,这的确很像 C 语言中的 fopen。通过 open 函数获取一个 file object,然后调用 read(),write()等方法对文件进行读写操作。

另外 Python 将文本文件的内容读入可以操作的字符串变量非常容易。

文件对象提供了三个“读”方法: read()、readline() 和 readlines()。

每种方法可以接受一个变量以限制每次读取的数据量,但它们通常不使用变量。

.read() 每次读取整个文件,它通常用于将文件内容放到一个字符串变量中。然而 .read() 生成文件内容最直接的字符串表示,但对于连续的面向行的处理,它却是不必要的,并且如果文件大于可用内存,则不可能实现这种处理。

.readline() 和 .readlines() 之间的差异是后者一次读取整个文件,象 .read() 一样。

.readlines() 自动将文件内容分析成一个行的列表,该列表可以由 Python 的 for … in … 结构进行处理。
另一方面,.readline() 每次只读取一行,通常比 .readlines() 慢得多。

仅当没有足够内存可以一次读取整个文件时,才应该使用 .readline()。

最后清单 4 打印出网络接口的输入和输出情况。

清单 5 crtrl.py 监控 Apache 服务器进程的 Python 脚本

#!/usr/bin/env Python

-- coding:utf-8 --

import os
import sys
import time

while True:
time.sleep(4)
try:
ret = os.popen('ps -C apache -o pid,cmd').readlines()
if len(ret) == 2:
print "apache 服务已经启动"
break
if len(ret) < 2:
print "apache 进程异常退出, 4 秒后重新启动"
time.sleep(3)
os.system("service apache restart")
except:
print "Error", sys.exc_info()[1]

设置文件权限为执行属性(使用命令 chmod +x crtrl.py),然后加入到/etc/rc.local 即可,一旦 Apache 服务器进程异常退出,该脚本自动检查并且重启。

对一个列表,比如[1,2,2,2,2,3,3,3,4,4,4,4],现在我们需要统计这个列表里的重复项,并且重复了几次也要统计出来。

方法1:

mylist = [1,2,2,2,2,3,3,3,4,4,4,4]
myset = set(mylist) #myset是另外一个列表,里面的内容是mylist里面的无重复 项
for item in myset:
print("the %d has found %d" %(item,mylist.count(item)))

方法2:

利用字典的特性来实现。

List=[1,2,2,2,2,3,3,3,4,4,4,4]
a = {}
for i in List:
if List.count(i)>1:
a[i] = List.count(i)
print (a)

python的list去除重复

方法1:

#!/usr/bin/env python
n = [1,2,3,3,4,3,1,2,3,2,1,4,5,5,5,5,6,6,4,3,2,1,2,6,8,2]
m = []
for x in n:
if x not in m:
m.append(x)
print m

方法2:

利用set去重复:

#!/usr/bin/env python

staff_list = ['aa','bb','aa','bb','cc','aa','cc','bb']

print list(set(staff_list))

用python统计日志中IP的数量

一个1~255的数细分成以下5个分组。
数字分组
正则表达式表示
1~9 [1-9]
10~99 [1-9][0-9]
100~199 1[0-9]{2}
200~249 2[0-4][0-9]
250~255 25[0-5]

所以一个1~255的数字可以用正则表达式“[1-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5]”来表示

IP地址的长度为32位,分为4段,每段8位,用十进制数字表示,每段数字范围为0~255,段与段之间用英文句点“.”隔开。例如:某台计算机IP地址为192.168.1.1。

所以IP地址可以用简单表示为:

IP = (1~255.) *3 + (1~255)

相关正则表达式为:

    设num(1~255) = [1-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5]

    得:IP=(num\.){3}num

#!/usr/bin/env python
#-- coding: utf-8 --
import re #导入正则表达式模块
import sys

#以只读方式打开文件,sys.argv[1]表示的是运行时传入的第二个参数
f = open(sys.argv[1], "r")

arr = {} #用字典来存储IP跟访问次数

#num表示1-255之间的字串,\b为单词的词首或词尾锚定

num='\b([1-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\b'

lines = f.readlines()

#遍历文件的每一行

for line in lines:
pattern = re.compile(r'('+num+'.){3}'+num) #python中用“+”来连接字符串
match = pattern.match(line)
if match: 
ip = match.group()
if(arr.has_key(ip)):
arr[ip] += 1 
else: 
arr[ip]=1 
f.close()

#排序输出
numList=list(set(arr.values())) #set集合这里是去重

numList.sort(reverse=True) #reverse=True表示逆序,reverse=False表示顺序

for ipNum in numList:
for ip in arr:
if (ipNum==arr[ip]):
print ip + "--->" + str(arr[ip])

python 统计列表相同值重复次数

第一种:

>>> test_list = ['a',0,'a',1,'a',0,1]
>>> test_set = set(test_list)
>>> for i in test_set:
...            print('values %s times %d' % (i,test_list.count(i)))
... 
values a times 3
values 0 times 2
values 1 times 2

第二种:

>>> from collections import Counter

>>> test_list = ['a',0,'a',1,'a',0,1]

>>> num = Counter(test_list)

>>> num
Counter({'a': 3, 0: 2, 1: 2})
>>> num[0]
2
>>> num[1]
2
>>> num['a']
3

第三种:

>> test_list = ['a',0,'a',1,'a',0,1,6]
>> test_dict = {}
>> for i in test_list:
... if test_list.count(i) >= 1:
... test_dict[i] = test_list.count(i)
... 
>> print(test_dict)
{0: 2, 'a': 3, 6: 1, 1: 2}

Python:使用Counter进行计数统计及collections模块

(1)使用dict

#coding=utf-8
data = ['a','2',2,4,5,'2','b',4,7,'a',5,'d','a','z']
count_frq = dict()
for one in data:
if one in count_frq:
count_frq[one] += 1
else:
count_frq[one] = 1

print count_frq
输出结果如下:
{'a': 3, 2: 1, 'b': 1, 4: 2, 5: 2, 7: 1, '2': 2, 'z': 1, 'd': 1}

(2)使用set和list

#coding=utf-8
data = ['a','2',2,4,5,'2','b',4,7,'a',5,'d','a','z']
data_set = set(data)
count_list = []
for one in data_set:
count_list.append((one,data.count(one)))

print count_list

输出结果如下:

[('a', 3), (2, 1), ('b', 1), (4, 2), (5, 2), (7, 1), ('2', 2), ('z', 1), ('d', 1)]

这里面利用了list的通用方法和集合(set)的特性,集合是一个无序不重复的元素集,而工厂函数set()可以将列表转换为一个无序不重复的元素集合。

常用内置函数

help(obj) 在线帮助, obj可是任何类型
callable(obj) 查看一个obj是不是可以像函数一样调用
repr(obj) 得到obj的表示字符串,可以利用这个字符串eval重建该对象的一个拷贝
eval_r(str) 表示合法的python表达式,返回这个表达式
dir(obj) 查看obj的name space中可见的name
hasattr(obj,name) 查看一个obj的name space中是否有name
getattr(obj,name) 得到一个obj的name space中的一个name
setattr(obj,name,value) 为一个obj的name space中的一个name指向vale这个object
delattr(obj,name) 从obj的name space中删除一个name
vars(obj) 返回一个object的name space。用dictionary表示
locals() 返回一个局部name space,用dictionary表示
globals() 返回一个全局name space,用dictionary表示
type(obj) 查看一个obj的类型
isinstance(obj,cls) 查看obj是不是cls的instance
issubclass(subcls,supcls) 查看subcls是不是supcls的子类

###类型转换函数
chr(i) 把一个ASCII数值,变成字符
ord(i) 把一个字符或者unicode字符,变成ASCII数值
oct(x) 把整数x变成八进制表示的字符串
hex(x) 把整数x变成十六进制表示的字符串
str(obj) 得到obj的字符串描述

list(seq) 把一个sequence转换成一个list

tuple(seq) 把一个sequence转换成一个tuple

dict(),dict(list) 转换成一个dictionary

int(x) 转换成一个integer
long(x) 转换成一个long interger
float(x) 转换成一个浮点数
complex(x) 转换成复数
max(...) 求最大值
min(...) 求最小值
###用于执行程序的内置函数

complie 如果一段代码经常要使用,那么先编译,再运行会更快

和操作系统相关的调用

系统相关的信息模块 import sys

sys.argv 是一个list,包含所有的命令行
sys.stdout sys.stdin sys.stderr 分别表示标准输入输出,错误输出的文件对象.
sys.stdin.readline() 从标准输入读一行
sys.stdout.write("a") 屏幕输出a
sys.exit(exit_code) 退出程序
sys.modules 是一个dictionary,表示系统中所有可用的module
sys.platform 得到运行的操作系统环境
sys.path 是一个list,指明所有查找module,package的路径.

操作系统相关的调用和操作 import os

os.getcwd() 获取当前工作目录,即当前python脚本工作的目录路径
os.chdir("dirname") 改变当前脚本工作目录;相当于shell下cd
os.curdir 返回当前目录: ('.')
os.pardir 获取当前目录的父目录字符串名:('..')
os.makedirs('dirname1/dirname2') 可生成多层递归目录
os.removedirs('dirname1') 若目录为空,则删除,并递归到上一级目录,如若也为空,则删除,依此类推
os.mkdir('dirname') 生成单级目录;相当于shell中mkdir dirname
os.rmdir('dirname') 删除单级空目录,若目录不为空则无法删除,报错;相当于shell中rmdir dirname
os.listdir('dirname') 列出指定目录下的所有文件和子目录,包括隐藏文件,并以列表方式打印
os.remove() 删除一个文件
os.rename("oldname","newname") 重命名文件/目录
os.stat('path/filename') 获取文件/目录信息
os.symlink('path/filename','ln_filename') 创建符号链接,源需绝对路径
os.utime() 修改时间属性

>> import os
>> stinfo = os.stat('c.py')
>> print "access time of c.py: %s \nmodified time of c.py: %s" % (stinfo.st_atime,stinfo.st_mtime)
access time of c.py: 1375448908.0
modified time of c.py: 1369735909.0
>> os.utime('c.py',(1375448978,1369735977))
>> print "access time of c.py: %s \nmodified time of c.py: %s" % (stinfo.st_atime,stinfo.st_mtime)
access time of c.py: 1375448908.0
modified time of c.py: 1369735909.0
退出Python交互模式,再次进入
>> import os
>> stinfo = os.stat('c.py')
>> print "access time of c.py: %s \nmodified time of c.py: %s" % (stinfo.st_atime,stinfo.st_mtime)
access time of c.py: 1375448978.0
modified time of c.py: 1369735977.0
os.walk() 生成一个目录树下的所有文件名
os.walk(top[, topdown=True[, onerror=None[, followlinks=False]]])

top表示需要遍历的目录树的路径topdown的默认值是”True”,表示首先返回目录树下的文件,然后在遍历目录树的子目录.Topdown的值为”False”时,则表示先遍历目录树的子目录,返回子目录下的文件,最后返回根目录下的文件onerror的默认值是”None”,表示忽略文件遍历时产生的错误.如果不为空,则提供一个自定义函数提示错误信息后继续遍历或抛出异常中止遍历该函数返回一个元组,该元组有3个元素,这3个元素分别表示每次遍历的路径名,目录列表和文件列表

>> import os
>> for root, dirs, files in os.walk("wd/chat", topdown=False):
... for name in files:
... print(os.path.join(root, name)) #打印文件绝对路径
... for name in dirs:
... print(os.path.join(root, name)) #打印目录绝对路径
...
os.tmpfile() 创建并打开‘w+b一个新的临时文件
os.sep 输出操作系统特定的路径分隔符,win下为"\",Linux下为"/"
os.linesep 输出当前平台使用的行终止符,win下为"\t\n",Linux下为"\n"
os.pathsep 输出用于分割文件路径的字符串
os.name 输出字符串指示当前使用平台。win->'nt'; Linux->'posix'
os.system("bash command") 运行shell命令,直接显示
os.popen("bash command") 运行shell命令,生成对象,可赋给变量,再用read读取
>> import os
>> os.system('ls twisted')
chat_client_twisted.py chat_server_twisted.py
0

>> LS = os.popen('ls twisted')
>> LS.readlines()
['chat_client_twisted.py\n', 'chat_server_twisted.py\n']
os.environ 获取系统环境变量
os.access('pathfile',os.W_OK) 检验文件权限模式,输出True,False
os.chmod('pathfile',os.W_OK) 改变文件权限模式

echo 'test' > test.sh

>> os.access('test.sh',os.W_OK)
True
>> os.access('test.sh',os.X_OK)
False
>> os.chmod('test.sh',os.X_OK)
>> os.access('test.sh',os.X_OK)
True

ls -l test.sh

---------x 1 root root 12 Oct 20 23:03 test.sh

os.environ 一个dictionary 包含环境变量的映射关系
os.environ["HOME"] 可以得到环境变量HOME的值
os.chdir(dir) 改变当前目录
os.chdir('d:\outlook') 注意windows下用到转义
os.getcwd() 得到当前目录
os.getegid() 得到有效组id
os.getgid() 得到组id
os.getuid() 得到用户id
os.geteuid() 得到有效用户id
os.setegid() os.setegid() os.seteuid() os.setuid() #修改文件所属信息
os.getgruops() 得到用户组名称列表
os.getlogin() 得到用户登录名称
os.getenv 得到环境变量
os.putenv 设置环境变量
os.umask 设置umask
os.system(cmd) 利用系统调用,运行cmd命令
os.system("echo 'hello' > /tmp/xx/a.txt")
os.mkdir('/tmp/xx',0755) 创建一个权限为755的目录
os.listdir('/tmp/xx') 列出目录中的目录和文件
os.rename('/tmp/xx/a.txt','/tmp/xx/b.txt') 重命名
os.remove('/tmp/xx/b.txt') 删除文件
os.rmdir('/tmp/xx') 删除目录

###用os.path编写平台无关的程序
os.path.abspath(path) 返回path规范化的绝对路径

>> import os.path
>> os.path.abspath('c.py')
'/root/py/c.py'
>> os.path.abspath('../py/c.py')
'/root/py/c.py'
os.path.split(path) 将path分割成目录和文件名二元组返回
>> os.path.split('/root/py/c.py')
('/root/py', 'c.py')
>> os.path.split('/root/py/')
('/root/py', '')
os.path.dirname(path) 返回path的目录。其实就是os.path.split(path)的第一个元素
>> os.path.dirname('/root/py/c.py')
'/root/py'
>> os.path.dirname('c.py')
''
os.path.basename(path) 返回path最后的文件名。如何path以/或\结尾,那么就会返回空值。即os.path.split(path)的第二个元素
>> os.path.basename('/root/py/c.py')
'c.py'
>> os.path.basename('/root/py')
'py'
os.path.commonprefix(list) 返回list中,所有path共有的最长的路径,从左向右,相同字符
os.path.exists(path) 如果path存在,返回True;如果path不存在,返回False
os.path.isabs(path) 如果path是绝对路径,返回True
os.path.isfile(path) 如果path是一个存在的文件,返回True。否则返回False
os.path.isdir(path) 如果path是一个存在的目录,则返回True。否则返回False
os.path.join(path1[, path2[, ...]]) 将多个路径组合后返回,第一个绝对路径之前的参数将被忽略
os.path.normcase(path) 在Linux下,该函数会原样返回path,在windows平台上会将路径中所有字符转换为小写,并将所有斜杠转换为反斜杠
>> os.path.normcase('c:/windows\system32\')
'c:\windows\system32\'
os.path.normpath(path) 规范化路径
>> os.path.normpath('c://windows\System32\../Temp/')
'c:\windows\Temp'
os.path.splitdrive(path) 拆分驱动器名和路径,主要对win,对linux元组第一个总是空的
>> os.path.splitdrive('c:\windows')
('c:', '\windows')
os.path.splitext(path) 分离文件名与扩展名;默认返回(fname,fextension)元组,可做分片操作 ,以“.”为分隔符
>> os.path.splitext('/root/py/c.py')
('/root/py/c', '.py')
os.path.getsize(path) 返回path的大小(字节)
os.path.getatime(path) 返回path所指向的文件或者目录的最后存取时间
os.path.getmtime(path) 返回path所指向的文件或者目录的最后修改时间
os.path.walk(top,func,arg)
top表示需要遍历的目录树的路径func表示回调函数,对遍历路径进行处理.所谓回调函数,是作为某个函数的参数使用,当某个时间触发时,程序将调用定义好的回调函数处理某个任务.回调函数必须提供3个参数:第1个参数为walk()的参数tag,第2个参数表示目录列表,第3个参数表示文件列表arg是传递给回调参数func的元组.回调函数的一个参数必须是arg,为回调函数提供处理参数.参数arg可以为空
>> import os
>> def VisitDir(arg,dirname,names):
... for filespath in names:
... print os.path.join(dirname,filespath)
...
>> path='/root/py/wd/chat'
>> os.path.walk(path,VisitDir,())
/root/py/wd/chat/chat_server.py
/root/py/wd/chat/chat_client.py
/root/py/wd/chat/test
/root/py/wd/chat/test/linuxeye
/root/py/wd/chat/test/test2
/root/py/wd/chat/test/test3
/root/py/wd/chat/test/test2/asdf
/root/py/wd/chat/test/test3/sdfaxx
os.path.walk()与os.walk()产生的文件名列表并不相同。os.path.walk()产生目录树下的目录路径和文件路径,而os.walk()只产生文件路径

os.path.abspath("1.txt") == os.path.join(os.getcwd(), "1.txt")
os.path.split(os.getcwd()) 用于分开一个目录名称中的目录部分和文件名称部分。
os.path.join(os.getcwd(), os.pardir, 'a', 'a.doc') 全成路径名称.
os.pardir 表示当前平台下上一级目录的字符 ..
os.path.getctime("/root/1.txt") 返回1.txt的ctime(创建时间)时间戳
os.path.exists(os.getcwd()) 判断文件是否存在
os.path.expanduser('~/dir') 把~扩展成用户根目录
os.path.expandvars('$PATH') 扩展环境变量PATH
os.path.isfile(os.getcwd()) 判断是否是文件名,1是0否
os.path.isdir('c:\Python26\temp') 判断是否是目录,1是0否
os.path.islink('/home/huaying/111.sql') 是否是符号连接 windows下不可用
os.path.ismout(os.getcwd()) 是否是文件系统安装点 windows下不可用
os.path.samefile(os.getcwd(), '/home/huaying') 看看两个文件名是不是指的是同一个文件
os.path.walk('/home/flying', test_fun, "a.c") 遍历/home/flying下所有子目录包括本目录,对于每个目录都会调用函数test_fun

例:在某个目录中,和他所有的子目录中查找名称是a.c的文件或目录:
def test_fun(filename, dirname, names): //filename即是walk中的a.c dirname是访问的目录名称
if filename in names: //names是一个list,包含dirname目录下的所有内容
print os.path.join(dirname, filename)
os.path.walk('/home/flying', test_fun, "a.c")

##文件操作
###打开文件
f = open("filename", "r") r只读 w写 rw读写 rb读二进制 wb写二进制 w+写追加
###读写文件
f.write("a") f.write(str) 写一字符串
f.writeline() f.readlines() 与下read类同
f.read() 全读出来 f.read(size) 表示从文件中读取size个字符
f.readline() 读一行,到文件结尾,返回空串.
f.readlines() 读取全部,返回一个list. list每个元素表示一行,包含"\n"\
f.tell() 返回当前文件读取位置
f.seek(off, where) 定位文件读写位置. off表示偏移量,正数向文件尾移动,负数表示向开头移动。where为0表示从开始算起,1表示从当前位置算,2表示从结尾算.
f.flush() 刷新缓存
###关闭文件
f.close()

##正则表达式 import re
###简单的regexp
p = re.compile("abc")
if p.match("abc") : print "match"
上例中首先生成一个pattern(模式),如果和某个字符串匹配,就返回一个match object
除某些特殊字符metacharacter元字符,大多数字符都和自身匹配。这些特殊字符是 。^ $ * + ? { [ ] \ | ( )

###字符集合(用[]表示)
列出字符,如[abc]表示匹配a或b或c,大多数metacharacter在[]中只表示和本身匹配。例:
a = ".^$*+?{\|()" 大多数metachar在[]中都和本身匹配,但"^[]\"不同
p = re.compile("["+a+"]")
for i in a:
if p.match(i):
print "[%s] is match" %i
else:
print "[%s] is not match" %i
在[]中包含[]本身,表示"["或者"]"匹配,用[和]表示。
^出现在[]的开头,表示取反,[^abc]表示除了a,b,c之外的所有字符,^没有出现在开头,即于身身匹配。-可表示范围.[a-zA-Z]匹配任何一个英文字母。[0-9]匹配任何数字。
\在[]中的妙用。
\d [0-9]
\D [^0-9]
\s [ \t\n\r\f\v]
\S [^ \t\n\r\f\v]
\w [a-zA-Z0-9]
\W [^a-zA-Z0-9
]
\t 表示和tab匹配, 其他的都和字符串的表示法一致
\x20 表示和十六进制ascii 0x20匹配
有了\,可以在[]中表示任何字符。注:单独的一个"."如果没有出现[]中,表示出了换行\n以外的匹配任何字符,类似[^\n].

###regexp的重复
{m,n}表示出现m个以上(含m个),n个以下(含n个). 如ab{1,3}c和abc,abbc,abbbc匹配,不会与ac,abbbc匹配。m是下界,n是上界。m省略表下界是0,n省略,表上界无限大。表示{,} +表示{1,} ?表示{0,1}
最大匹配和最小匹配 python都是最大匹配,如果要最小匹配,在
,+,?,{m,n}后面加一个?.
match object的end可以得到匹配的最后一个字符的位置。
re.compile("a").match('aaaa').end() 4 最大匹配
re.compile("a
?").match('aaaa').end() 0 最小匹配

###使用原始字符串
字符串表示方法中用\表示字符.大量使用影响可读性。
解决方法:在字符串前面加一个r表示raw格式。
a = r"\a" print a 结果是\a
a = r"\"a" print a 结果是\"a

###使用re模块
先用re.compile得到一个RegexObject 表示一个regexp
后用pattern的match,search的方法,得到MatchObject
再用match object得到匹配的位置,匹配的字符串等信息

###RegxObject常用函数:

>> re.compile("a").match("abab") 如果abab的开头和re.compile("a")匹配,得到MatchObject
<_sre.SRE_Match object at 0x81d43c8>
>> print re.compile("a").match("bbab")
None 注:从str的开头开始匹配
>> re.compile("a").search("abab") 在abab中搜索第一个和re_obj匹配的部分
<_sre.SRE_Match object at 0x81d43c8>
>> print re.compile("a").search("bbab")
<_sre.SRE_Match object at 0x8184e18> 和match()不同,不必从开头匹配
re_obj.findall(str) 返回str中搜索所有和re_obj匹配的部分.
返回一个tuple,其中元素是匹配的字符串.

###MatchObject的常用函数
m.start() 返回起始位置,
m.end()返回结束位置(不包含该位置的字符).
m.span() 返回一个tuple表示(m.start(), m.end())
m.pos(), m.endpos(), m.re(), m.string()
m.re().search(m.string(), m.pos(), m.endpos()) 会得到m本身
m.finditer()可以返回一个iterator,用来遍历所有找到的MatchObject.
for m in re.compile("[ab]").finditer("tatbxaxb"):
print m.span()

###高级regexp
| 表示联合多个regexp. A B两个regexp,A|B表示和A匹配或者跟B匹配.
^ 表示只匹配一行的开始行首,^只有在开头才有此特殊意义。
$ 表示只匹配一行的结尾
\A 表示只匹配第一行字符串的开头 ^匹配每一行的行首
\Z 表示只匹配行一行字符串的结尾 $匹配第一行的行尾
\b 只匹配词的边界 例:\binfo\b 只会匹配"info" 不会匹配information
\B 表示匹配非单词边界

###例子

>> print re.compile(r"\binfo\b").match("info ") #使用raw格式 \b表示单词边界
<_sre.SRE_Match object at 0x817aa98>
>> print re.compile("\binfo\b").match("info ") #没有使用raw \b表示退格符号
None
>> print re.compile("\binfo\b").match("\binfo\b ")
<_sre.SRE_Match object at 0x8174948>










本文转自 chengxuyonghu 51CTO博客,原文链接:http://blog.51cto.com/6226001001/2059898,如需转载请自行联系原作者
目录
相关文章
|
2月前
|
XML 存储 数据处理
python绘制热力图-数据处理-VOC数据类别标签分布及数量统计(附代码)
python绘制热力图-数据处理-VOC数据类别标签分布及数量统计(附代码)
55 0
|
21小时前
|
监控 Python
Python监控主机是否存活,并发报警邮件
Python监控主机是否存活,并发报警邮件
|
12天前
|
机器学习/深度学习 数据可视化 数据挖掘
用Python进行健康数据分析:挖掘医疗统计中的信息
【4月更文挑战第12天】Python在医疗健康数据分析中扮演重要角色,具备数据处理、机器学习、可视化及丰富生态的优势。基本流程包括数据获取、预处理、探索、模型选择与训练、评估优化及结果可视化。应用案例包括疾病预测、药物效果分析和医疗资源优化,例如使用RandomForestClassifier进行疾病预测,Logit模型分析药物效果,以及linprog优化医疗资源配置。
|
17天前
|
测试技术 Python
288统计出现最多次的字母(PYTHON)
288统计出现最多次的字母(PYTHON)
|
22天前
|
存储 监控 异构计算
【Python】GPU内存监控脚本
【Python】GPU内存监控脚本
|
1月前
|
存储 数据管理 Serverless
Python实现:教你轻松统计文件夹下文件个数
Python实现:教你轻松统计文件夹下文件个数
27 0
|
1月前
|
存储 数据采集 数据挖掘
python数据分析——数据分类汇总与统计
数据分类汇总与统计是指将大量的数据按照不同的分类方式进行整理和归纳,然后对这些数据进行统计分析,以便于更好地了解数据的特点和规律。
59 1
|
1月前
|
机器学习/深度学习 算法 数据挖掘
python数据分析——数据分析的统计推断
数据分析的统计推断是科学研究中的重要环节,它通过对样本数据的分析,对总体参数进行估计,并对假设进行检验。这一过程旨在从数据中提取有意义的信息,为决策提供科学依据。 在统计推断中,我们通常会遇到两类问题:参数估计和假设检验。参数估计是通过样本数据对总体参数进行点估计或区间估计。点估计是对总体参数的具体数值进行预测,而区间估计则是给出一个包含总体参数的置信区间。这两种估计方法都基于大数定律和中心极限定理,保证了估计的准确性和可靠性。
45 0
|
1月前
|
JSON 监控 数据安全/隐私保护
如何利用Python编写公司计算机监控软件的基本功能
在现代企业环境中,监控公司计算机的活动是至关重要的。它可以帮助企业保护数据安全、确保员工遵守公司政策以及提高整体网络性能。为了实现这一目标,我们可以利用Python编写一个简单而强大的公司计算机监控软件,来跟踪关键活动并自动处理收集到的数据。
113 2
|
2月前
|
自然语言处理 安全 Unix
一键式Excel分词统计工具:如何轻松打包Python脚本为EXE
一键式Excel分词统计工具:如何轻松打包Python脚本为EXE
44 0