正则表达式元字符集

Catalogue
  1. 1. 正则表达式字符串匹配
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
^
匹配行的开始 如:'^grep'匹配所有以grep开头的行。

$
匹配行的结束 如:'grep$'匹配所有以grep结尾的行。

.
匹配一个非换行符的字符 如:'gr.p'匹配gr后接一个任意字符,然后是p。

*
匹配零个或多个先前字符 如:'*grep'匹配所有一个或多个空格后紧跟grep的行。 .*一起用代表任意字符。

[]
匹配一个指定范围内的字符,如'[Gg]rep'匹配Grep和grep。即[mn]表示匹配m或者n关键字符,相当于grep -E "m|n"。注意[]里面不要放太多关键字符,容易混乱!只要放[]里面的都是要匹配的关键字符!

[^]
匹配一个不在指定范围内的字符,如:'[^A-FH-Z]rep'匹配不包含A-F和H-Z的一个字母,但是包含rep并且rep不在开头(即*req)的行。

\(..\)
标记匹配字符,如'\(love\)',love被标记为1。

\<
匹配单词的开始,如:'\

\>
匹配单词的结束,如'str\>'匹配包含以str结尾的单词的行。通常使用"\<关键字符\>"作为精准匹配,相当于grep -w

x\{m\}
重复字符x,m次,如:'o\{5\}'匹配包含5个o的行。

x\{m,\}
重复字符x,至少m次,如:'o\{5,\}'匹配至少有5个o的行。

x\{m,n\}
重复字符x,至少m次,不多于n次,如:'o\{5,10\}'匹配5--10个o的行。

\w
匹配文字和数字字符,也就是[A-Za-z0-9],如:'G\w*p'匹配以G后跟零个或多个文字或数字字符,然后是p。

\W
\w的反置形式,匹配一个或多个非单词字符,如点号句号等。

\b
单词锁定符,如: \byang\b 表示只匹配yang。相当于grep -w "yang" 或者 grep "\<yang\>"

+
匹配一个或多个先前的字符。如:'[a-z]+able',匹配一个或多个小写字母后跟able的串,如loveable,enable,disable等。注意:先前字符必须使用()或[]括起来,并且使用grep -E。

?
匹配零个或一个先前的字符。如:'(gr)?p'匹配gr后跟一个或没有字符,然后是p的行。注意:先前字符必须使用()或[]括起来,并且使用grep -E。

a|b|c
匹配a或b或c。如grep -E "a|b|c", 匹配a或b或c中的任意一个都可以。grep -v "a\|b\|c" 或 egrep -v "a|b|c" 过滤掉a或b或c中的任意一个进行搜索。

()
分组符号,如:love(able|rs)ov+匹配loveable或lovers,匹配一个或多个ov。

正则表达式字符串匹配

1
teststr = "wwcdcaon111sdsda\nw\ncwckjkkkk\npppphellowordcc!"
  1. ‘.’ 匹配\n(换行符)以外的任何字符
1
2
3
4
pattern = re.compile(r'w.c')
print pattern.findall(teststr)

['wwc']
  1. ‘*’ 前面字符出现0次以及以上
1
2
3
4
pattern = re.compile(r'w*c')
print pattern.findall(teststr)

['wwc', 'c', 'c', 'wc', 'c', 'c']
  1. ‘.*’ 除\n以外任意字符出现0次以及以上,贪婪,开始到结束所有符合规则的所有内容
1
2
3
4
pattern = re.compile(r'w.*c')
print pattern.findall(teststr)

['wwcdc', 'wc', 'wordcc']
  1. ‘.*?’ 除\n以外任意字符出现0次以及以上,非贪婪,截取开始到结束第一个符合规则的内容
1
2
3
4
pattern = re.compile(r'w.*?c')
print pattern.findall(teststr)

['wwc', 'wc', 'wordc']
  1. ‘(.*?)’ 匹配内容同(4),但是输出只保留括号中内容
1
2
3
4
pattern = re.compile(r'w(.*?)c')
print pattern.findall(teststr)

['w', '', 'ord']
  1. 在(5)的匹配结果下,re.S不会对\n进行中断,re.S 即为 . 并且包括换行符在内的任意字符(. 不包括换行符)
1
2
3
4
pattern = r'w(.*?)c'
print re.findall(pattern, teststr, re.S)

['w', '\n', '', 'ord']