首页 > 英文翻译

Python之re模块

更新时间:2023-07-07 21:51:14 阅读：评论：0

Python之re模块

⼀、正则表达式

re模块是python独有的匹配字符串的模块，该模块中提供的很多功能是基于正则表达式实现的，⽽正则表达式是对字符串进⾏模糊匹配，提取⾃⼰需要的字符串部分，他对所有的语⾔都通⽤。注意：

re模块是python独有的

正则表达式所有编程语⾔都可以使⽤

re模块、正则表达式是对字符串进⾏操作

因为，re模块中的⽅法⼤都借助于正则表达式，故先学习正则表达式。

（⼀）常⽤正则

1、字符组

在同⼀个位置可能出现的各种字符组成了⼀个字符组，在正则表达式中⽤[]表⽰

正则待匹配字符匹配

结果

说明

[0123456789]8True在⼀个字符组⾥枚举合法的所有字符，字符组⾥的任意⼀个字符

和"待匹配字符"相同都视为可以匹配[0123456789]a Fal由于字符组中没有"a"字符，所以不能匹配

[0-9]7

True也可以⽤-表⽰范围,[0-9]就和[0123456789]是⼀个意思[a-z]s True同样的如果要匹配所有的⼩写字母，直接⽤[a-z]就可以表⽰

[A-Z]B True[A-Z]就表⽰所有的⼤写字母

leisuretime[0-9a-fA-F]e True可以匹配数字，⼤⼩写形式的a～f，⽤来验证⼗六进制字符 2、字符

元字符匹配内容

. 匹配除换⾏符以外的任意字符

\w匹配字母或数字或下划线

\s匹配任意的空⽩符

\d匹配数字

\n匹配⼀个换⾏符

\t匹配⼀个制表符

\b匹配⼀个单词的结尾

^匹配字符串的开始

$匹配字符串的结尾

\W匹配⾮字母或数字或下划线

\D匹配⾮数字

\S匹配⾮空⽩符sneakers怎么读

a|b匹配字符a或字符b

()匹配括号内的表达式，也表⽰⼀个组

[...]匹配字符组中的字符

[^...]匹配除了字符组中字符的所有字符

3、量词

量词⽤法说明

*重复零次或更多次

+重复⼀次或更多次

?重复零次或⼀次

{n}重复n次

{n,}重复n次或更多次

{n,m}重复n到m次

（⼆）正则表达式的使⽤

1、. ^ $

正则待匹配字符匹配结果说明

a.abacad abacad匹配所有"a."的字符

^a.abacad ab只从开头匹配"a."

a.$abacad ad只匹配结尾的"a.$"

2、* + ? { }

正则待匹配字

符

匹配结果说明

a.?abefacga

?表⽰重复零次或⼀次，即只匹配"a"后⾯⼀

个任意字符。

a.*abefacga

abefacg

*表⽰重复零次或多次，即匹配"a"后⾯0或多个任意字符。

a.+abefacga

abefacg

+表⽰重复⼀次或多次，即只匹配"a"后⾯1个或多个任意字符。

a. {1,2}abefacga

abe

acg

by the wayad

{1,2}匹配1到2次任意字符。

nrb

注意：前⾯的*,+,?等都是贪婪匹配，也就是尽可能匹配，后⾯加?号使其变成惰性匹配

正则待匹配字符匹配结果说明

a.*?abefacgad a

惰性匹配

3、字符集［］［^］

正则待匹配字符匹配结果说明

a[befcgd]*abefacgad abef

acg

表⽰匹配"a"后⾯[befcgd]的字符任意次

a[^f]*abefacgad

abe

acgad表⽰匹配⼀个不是"f"的字符任意次

[\d]412a3bc 4

表⽰匹配任意⼀个数字，匹配到4个结果

[\d]+412a3bc 412

3表⽰匹配任意个数字，匹配到2个结果

4、分组 ()与或｜［^］

⾝份证号码是⼀个长度为15或18个字符的字符串，如果是15位则全部由数字组成，⾸位不能为0；如果是18位，则前17位全部是数字，末位可能是数字或x，下⾯我们尝试⽤正则来表⽰：

正则待匹配字符匹配结果说明

^[1-9]\d{13,16}

[0-9x]$110101198

001017032

110101198

001017032

表⽰可以匹配⼀个正确的⾝份证号

^[1-9]\d{13,16}

[0-9x]$110101198

0010170

110101198

0010170表⽰也可以匹配这串数字，但这并不是⼀个正确的⾝份证号码，它是⼀个16位的数字

^[1-9]\d{14} (\d{2}[0-9x])?$110101198

0010170

Fal现在不会匹配错误的⾝份证号了

()表⽰分组，将\d{2}[0-9x]分成⼀组，就可以整体约束他们出现的次数为0-1次

^([1-9]\d{16}[0-9x]|[1-9]\d{14})$110105199

812067023

110105199

812067023表⽰先匹配[1-9]\d{16}[0-9x]如果没有匹配上就匹配[1-9]\d{14}

5、转义符 \看气质

在正则表达式中，有很多有特殊意义的是元字符，⽐如\n和\s等，如果要在正则中匹配正常的"\n"⽽不是"换⾏符"就需要对"\"进⾏转义，

变成'\\'。

在python中，⽆论是正则表达式，还是待匹配的内容，都是以字符串的形式出现的，在字符串中\也有特殊的含义，本⾝还需要转义。所以如果匹配⼀次"\n"，字符串中要写成'\\n'，那么正则⾥就要写成"\\\\n"，这样就太⿇烦了。这个时候我们就⽤到了r'\n'这个概念，此时的正则是r'\\n'就可以了。

正则待匹配字符匹配

结果

说明

\n\n Fal因为在正则表达式中\是有特殊意义的字符，所以要匹配\n本⾝，⽤表达式\n⽆法匹配

\\n\n True转义\之后变成\\，即可匹配

"\\\\n"'\\n' True如果在python中，字符串中的'\'也需要转义，所以每⼀个字符串'\'⼜需要转义⼀次

r'\\n'r'\n' True在字符串之前加r，让整个字符串不转义

6、贪婪匹配

贪婪匹配：在满⾜匹配时，匹配尽可能长的字符串，默认情况下，采⽤贪婪匹配

正则待匹配字符匹配结果说明

<.*><script>...

<script>...

默认为贪婪匹配模式，会匹配尽量长的字符串

<.*?><script>...

consumption

加上？为将贪婪匹配模式转为⾮贪婪匹配模式，会匹配尽量短的字符串

⼏个常⽤的⾮贪婪匹配Pattern

*? 重复任意次，但尽可能少重复

+? 重复1次或更多次，但尽可能少重复

?? 重复0次或1次，但尽可能少重复

{n,m}? 重复n到m次，但尽可能少重复

{n,}? 重复n次以上，但尽可能少重复

.*?的⽤法

是任意字符

*是取 0 ⾄⽆限长度

? 是⾮贪婪模式。

何在⼀起就是取尽量少的任意字符，⼀般不会这么单独写，他⼤多⽤在：

.*?x

就是取前⾯任意长度的字符，直到⼀个x 出现

⼆、re 模块

（⼀）常量、属性

1、re.A（re.ASCII）

让\w，\W，\b，\B，\d，\D，\s和\S 执⾏ASCII-只匹配完整的Unicode匹配代替。这仅对Unicode模式有意义，⽽对于字节模式则忽略。2、re.I（re.IGNORECASE）

执⾏不区分⼤⼩写的匹配；类似的表达式也[A-Z]将匹配⼩写字母。

3、re.L（re.LOCALE）

让\w，\W，\b，\B和区分⼤⼩写的匹配取决于当前的语⾔环境。该标志只能与字节模式⼀起使⽤。不建议使⽤此标志，因为语⾔环境机制⾮常不可靠，它⼀次只能处理⼀种“区域性”，并且仅适⽤于8位语⾔环境。默认情况下，Python 3中已为Unicode（str）模式启⽤了Unicode匹配，并且能够处理不同的语⾔环境/语⾔。

4、re.M（re.MULTILINE）

指定时，模式字符'^'在字符串的开头和每⾏的开头（紧随每个换⾏符之后）匹配；模式字符''在字符串的末尾和每⾏的末尾（紧接在每个换⾏符之前）匹配。默认情况下，'^' 仅在字符串的开头，字符串''的末尾和字符串末尾的换⾏符（如果有）之前⽴即匹配。

5、re.S（re.DOTALL）

使'.'特殊字符与任何字符都匹配，包括换⾏符；没有此标志，'.'将匹配除换⾏符以外的任何内容。

（⼆）常⽤⽅法

1、re.compile（pattern，flags = 0 ）

将正则表达式模式编译为正则表达式对象，可使⽤match()，arch()以及下⾯所述的其他⽅法将其⽤于匹配

>>> prog = re.compile('\d{2}') # 正则对象

>>> prog.arch('12abc')

<_sre.SRE_Match object; span=(0, 2), match='12'>

>>> prog.arch('12abc').group() # 通过调⽤group()⽅法得到匹配的字符串，如果字符串没有匹配，则返回None。

'12'

>>> prog.match('123abc')

<_sre.SRE_Match object; span=(0, 2), match='12'>

>>> prog.match('123abc').group()

'12'

>>>

2、re.arch（pattern，string，flags = 0 ）

扫描字符串以查找正则表达式模式产⽣匹配项的第⼀个位置，然后返回相应的match对象。None如果字符串中没有位置与模式匹配，则返回；否则返回fal。请注意，这与在字符串中的某个点找到零长度匹配不同。

#在这个字符串进⾏匹配，只会匹配⼀个对象

>>> re.arch('\w+','abcde').group()

'abcde'

>>> re.arch('a','abcde').group()

'a'

>>>

3、re.match（pattern，string，flags = 0 ）

如果字符串开头的零个或多个字符与正则表达式模式匹配，则返回相应的匹配对象。None如果字符串与模式不匹配，则返回；否则返回fal。请注意，这与零长度匹配不同。

# 同arch，不过在字符串开始处进⾏匹配，只会匹配⼀个对象stumble

陌路人英文版>>> re.match('a','abcade').group()

'a'

>>> re.match('\w+','abc123de').group()

'abc123de'

>>> re.match('\D+','abc123de').group() #⾮数字

'abc'

>>>

4、re.fullmatch（pattern，string，flags = 0 ）

如果整个字符串与正则表达式模式匹配，则返回相应的match对象。None如果字符串与模式不匹配，则返回；否则返回fal。请注意，这与零长度匹配不同。

>>> re.fullmatch('\w+','abcade').group()

'abcade'

>>> re.fullmatch('abcade','abcade').group()

'abcade'

>>>

5、re.split（pattern，string，maxsplit = 0，flags = 0 ）

通过出现模式来拆分字符串。如果在pattern中使⽤了捕获括号，那么模式中所有组的⽂本也将作为结果列表的⼀部分返回。如果maxsplit不为零，则最多会发⽣maxsplit分割，并将字符串的其余部分作为列表的最后⼀个元素返回。

>>> re.split('[ab]', 'abcd') # 先按'a'分割得到''和'bcd'，在对''和'bcd'分别按'b'分割

['', '', 'cd']

>>> re.split(r'\W+', 'Words, words, words.')

dauntless['Words', 'words', 'words', '']

>>> re.split(r'(\W+)', 'Words, words, words.')

['Words', ', ', 'words', ', ', 'words', '.', '']

>>> re.split(r'\W+', 'Words, words, words.', 1)

['Words', 'words, words.']

>>> re.split('[a-f]+', '0a3B9', flags=re.IGNORECASE)

['0', '3', '9']

如果分隔符中有捕获组，并且该匹配组在字符串的开头匹配，则结果将从空字符串开始。字符串的末尾也是如此：

>>> re.split(r'(\W+)', '...words, ')

['', '...', 'words', ', ', 'words', '...', '']

6、re.findall（pattern，string，flags = 0 ）

以string列表形式返回string中pattern的所有⾮重叠匹配项。从左到右扫描该字符串，并以找到的顺序返回匹配项。如果该模式中存在⼀个或多个组，则返回⼀个组列表；否则，返回⼀个列表。如果模式包含多个组，则这将是⼀个元组列表。空匹配项包含在结果中。

>>> re.findall('a', 'This is a beautiful place!')

['a', 'a', 'a']

>>>

7、re.finditer（pattern，string，flags = 0 ）

返回⼀个迭代器，该迭代器在string类型的RE 模式的所有⾮重叠匹配中产⽣匹配对象。从左到右扫描该字符串，并以找到的顺序返回匹配项。空匹配项包含在结果中。

在线翻译器百度在线翻译>>> re.finditer('[ab]', 'This is a beautiful place!')

<callable_iterator object at 0x0000000000DCDA90> #迭代器对象

>>> ret=re.finditer('[ab]', 'This is a beautiful place!')

>>> next(ret).group() #查看下⼀个匹配值

'a'

>>> [i.group() for i in ret] #查看剩下所有匹配的值

['b', 'a', 'a']

>>>

8、re.sub（pattern，repl，string，count = 0，flags = 0 ）

返回通过⽤替换repl替换字符串中最左边的不重叠模式所获得的字符串。如果找不到该模式，则返回的字符串不变。 repl可以是字符串或函数；如果是字符串，则处理其中的任何反斜杠转义。即，将其转换为单个换⾏符，将其转换为回车，依此类推。count参数表⽰将匹配到的内容进⾏替换的次数

>>> re.sub('\d', 'S', 'abc12jh45li78', 2) #将匹配到的数字替换成S，替换2个

'abcSSjh45li78'

>>> re.sub('\d', 'S', 'abc12jh45li78') #将匹配到所有的数字替换成S

'abcSSjhSSliSS'

>>>

9、re.subn（pattern，repl，string，count = 0，flags = 0 ）

执⾏与相同的操作sub()，但返回⼀个元组。(new_string, number_of_subs_made)

>>> re.subn('\d', 'S', 'abc12jh45li78', 3)

('abcSSjhS5li78', 3)

>>>

10、re.escape(pattern)

escape中的所有字符图案，除了ASCII字母，数字和'_'。如果要匹配可能包含正则表达式元字符的任意⽂字字符串，这将很有⽤。

>>> re.escape('\n')

'python\\.exe\\\n'

>>>

11、arch（）与match（）⽅法

Python提供了两种基于正则表达式的原始操作： re.match()仅在字符串的开头匹配，re.arch()检查匹配项，在字符串中的任何位置检查匹配项（这是Perl的默认设置）。

本文发布于:2023-07-07 21:51:14，感谢您对本站的认可！

本文链接：https://www.wtabcd.cn/fanwen/fan/90/170370.html

上一篇：轻松日记商务职场篇第238期：原地踏步

下一篇：python判断redis中key是否存在_Redis中关于Key的模糊查找

标签：匹配字符串字符模式返回结果正则

留言与评论（共有 0 条评论）