正则表达式元字符集

Catalogue

1. 正则表达式字符串匹配

^
匹配行的开始 如：'^grep'匹配所有以grep开头的行。
  
$
匹配行的结束 如：'grep$'匹配所有以grep结尾的行。
  
.
匹配一个非换行符的字符 如：'gr.p'匹配gr后接一个任意字符，然后是p。
  
*
匹配零个或多个先前字符 如：'*grep'匹配所有一个或多个空格后紧跟grep的行。 .*一起用代表任意字符。
  
[]
匹配一个指定范围内的字符，如'[Gg]rep'匹配Grep和grep。即[mn]表示匹配m或者n关键字符，相当于grep -E "m|n"。注意[]里面不要放太多关键字符，容易混乱！只要放[]里面的都是要匹配的关键字符！
  
[^]
匹配一个不在指定范围内的字符，如：'[^A-FH-Z]rep'匹配不包含A-F和H-Z的一个字母，但是包含rep并且rep不在开头（即*req）的行。
  
\(..\)
标记匹配字符，如'\(love\)'，love被标记为1。
  
\<
匹配单词的开始，如:'\
  
\>
匹配单词的结束，如'str\>'匹配包含以str结尾的单词的行。通常使用"\<关键字符\>"作为精准匹配，相当于grep -w
  
x\{m\}
重复字符x，m次，如：'o\{5\}'匹配包含5个o的行。
  
x\{m,\}
重复字符x,至少m次，如：'o\{5,\}'匹配至少有5个o的行。
  
x\{m,n\}
重复字符x，至少m次，不多于n次，如：'o\{5,10\}'匹配5--10个o的行。
  
\w
匹配文字和数字字符，也就是[A-Za-z0-9]，如：'G\w*p'匹配以G后跟零个或多个文字或数字字符，然后是p。
  
\W
\w的反置形式，匹配一个或多个非单词字符，如点号句号等。
  
\b
单词锁定符，如: \byang\b 表示只匹配yang。相当于grep -w "yang" 或者 grep "\<yang\>"
 
+
匹配一个或多个先前的字符。如：'[a-z]+able'，匹配一个或多个小写字母后跟able的串，如loveable,enable,disable等。注意：先前字符必须使用()或[]括起来，并且使用grep -E。
  
?
匹配零个或一个先前的字符。如：'(gr)?p'匹配gr后跟一个或没有字符，然后是p的行。注意：先前字符必须使用()或[]括起来，并且使用grep -E。
  
a|b|c
匹配a或b或c。如grep -E "a|b|c", 匹配a或b或c中的任意一个都可以。grep -v "a\|b\|c" 或 egrep -v "a|b|c" 过滤掉a或b或c中的任意一个进行搜索。
  
()
分组符号，如：love(able|rs)ov+匹配loveable或lovers，匹配一个或多个ov。

正则表达式字符串匹配

1	teststr = "wwcdcaon111sdsda\nw\ncwckjkkkk\npppphellowordcc!"

‘.’ 匹配\n(换行符)以外的任何字符

pattern = re.compile(r'w.c')
print pattern.findall(teststr)

['wwc']

‘*’ 前面字符出现0次以及以上

pattern = re.compile(r'w*c')
print pattern.findall(teststr)

['wwc', 'c', 'c', 'wc', 'c', 'c']

‘.*’ 除\n以外任意字符出现0次以及以上，贪婪，开始到结束所有符合规则的所有内容

pattern = re.compile(r'w.*c')
print pattern.findall(teststr)

['wwcdc', 'wc', 'wordcc']

‘.*?’ 除\n以外任意字符出现0次以及以上，非贪婪，截取开始到结束第一个符合规则的内容

pattern = re.compile(r'w.*?c')
print pattern.findall(teststr)

['wwc', 'wc', 'wordc']

‘(.*?)’ 匹配内容同（4），但是输出只保留括号中内容

pattern = re.compile(r'w(.*?)c')
print pattern.findall(teststr)

['w', '', 'ord']

在（5）的匹配结果下，re.S不会对\n进行中断，re.S 即为 . 并且包括换行符在内的任意字符（. 不包括换行符）

pattern = r'w(.*?)c'
print re.findall(pattern, teststr, re.S)

['w', '\n', '', 'ord']