首页 > 英文翻译

Python中正则表达式的详细教程

更新时间:2023-07-07 20:28:31 阅读：评论：0

Python中正则表达式的详细教程

1.了解正则表达式

正则表达式是对字符串操作的⼀种逻辑公式，就是⽤事先定义好的⼀些特定字符、及这些特定字符的组合，组成⼀个“规则字符串”，这个“规则字符串”⽤来表达对字符串的⼀种过滤逻辑。

正则表达式是⽤来匹配字符串⾮常强⼤的⼯具，在其他编程语⾔中同样有正则表达式的概念，Python同样不例外，利⽤了正则表达式，我们想要从返回的页⾯内容提取出我们想要的内容就易如反掌了。

正则表达式的⼤致匹配过程是：

1.依次拿出表达式和⽂本中的字符⽐较，

2.如果每⼀个字符都能匹配，则匹配成功；⼀旦有匹配不成功的字符则匹配失败。

3.如果表达式中有量词或边界，这个过程会稍微有⼀些不同。

2.正则表达式的语法规则

下⾯是Python中正则表达式的⼀些匹配规则，图⽚资料来⾃CSDN

3.正则表达式相关注解

（1）数量词的贪婪模式与⾮贪婪模式

正则表达式通常⽤于在⽂本中查找匹配的字符串。Python⾥数量词默认是贪婪的（在少数语⾔⾥也可能是默认⾮贪婪），总是尝试匹配尽可能多的字符；⾮贪婪的则相反，总是尝试匹配尽可能少的字符。例如：正则表达式”ab*”如果⽤于查

找”abbbc”，将找到”abbb”。⽽如果使⽤⾮贪婪的数量词”ab*?”，将找到”a”。

注：我们⼀般使⽤⾮贪婪模式来提取。

（2）反斜杠问题

与⼤多数编程语⾔相同，正则表达式⾥使⽤”\”作为转义字符，这就可能造成反斜杠困扰。假如你需要匹配⽂本中的字符”\”，那么使⽤编程语⾔表⽰的正则表达式⾥将需要4个反斜杠”\\\\”：前两个和后两个分别⽤于在编程语⾔⾥转义成反斜杠，转换成两个反斜杠后再在正则表达式⾥转义成⼀个反斜杠。

Python⾥的原⽣字符串很好地解决了这个问题，这个例⼦中的正则表达式可以使⽤r”\\”表⽰。同样，匹配⼀个数字的”\\d”可以写成r”\d”。有了原⽣字符串，妈妈也不⽤担⼼是不是漏写了反斜杠，写出来的表达式也更直观勒。

欧美girlsandpets最新>reliable什么意思

4.Python Re模块

Python ⾃带了re模块，它提供了对正则表达式的⽀持。主要⽤到的⽅法列举如下

#返回pattern对象

#以下为匹配所⽤函数

re.match(pattern, string[, flags])

re.arch(pattern, string[, flags])

re.split(pattern, string[, maxsplit])

re.findall(pattern, string[, flags])

re.finditer(pattern, string[, flags])

re.sub(pattern, repl, string[, count])

re.subn(pattern, repl, string[, count])

在介绍这⼏个⽅法之前，我们先来介绍⼀下pattern的概念，pattern可以理解为⼀个匹配模式，那么我们怎么获得这个匹配模式呢？很简单，我们需要利⽤re.compile⽅法就可以。例如

pattern = re.compile(r'hello')

在参数中我们传⼊了原⽣字符串对象，通过compile⽅法编译⽣成⼀个pattern对象，然后我们利⽤这个对象来进⾏进⼀步的匹配。

另外⼤家可能注意到了另⼀个参数 flags，在这⾥解释⼀下这个参数的含义：

参数flag是匹配模式，取值可以使⽤按位或运算符'|'表⽰同时⽣效，⽐如re.I | re.M。

可选值有：

re.I(全拼：IGNORECASE): 忽略⼤⼩写（括号内是完整写法，下同）

re.M(全拼：MULTILINE): 多⾏模式，改变'^'和'$'的⾏为（参见上图）

re.S(全拼：DOTALL): 点任意匹配模式，改变'.'的⾏为

re.L(全拼：LOCALE): 使预定字符类 \w \W \b \B \s \S 取决于当前区域设定

re.U(全拼：UNICODE): 使预定字符类 \w \W \b \B \s \S \d \D 取决于unicode定义的字符属性

re.X(全拼：VERBOSE): 详细模式。这个模式下正则表达式可以是多⾏，忽略空⽩字符，并可以加⼊注释。

私人外教一对一在刚才所说的另外⼏个⽅法例如 re.match ⾥我们就需要⽤到这个pattern了，下⾯我们⼀⼀介绍。

注：以下七个⽅法中的flags同样是代表匹配模式的意思，如果在pattern⽣成时已经指明了flags，那么在下⾯的⽅法中就不需要传⼊这个参数了。

（1）re.match(pattern, string[, flags])

这个⽅法将会从string（我们要匹配的字符串）的开头开始，尝试匹配pattern，⼀直向后匹配，如果遇到⽆法匹配的字符，⽴即返回 None，如果匹配未结束已经到达string的末尾，也会返回None。两个

结果均表⽰匹配失败，否则匹配pattern成功，同时匹配终⽌，不再对 string向后匹配。下⾯我们通过⼀个例⼦理解⼀下

__author__ = 'CQC'

# -*- coding: utf-8 -*-

#导⼊re模块

import re

# 将正则表达式编译成Pattern对象，注意hello前⾯的r的意思是“原⽣字符串”

pattern = re.compile(r'hello')

# 使⽤re.match匹配⽂本，获得匹配结果，⽆法匹配时将返回None

result1 = re.match(pattern,'hello')

result2 = re.match(pattern,'helloo CQC!')

result3 = re.match(pattern,'helo CQC!')

result4 = re.match(pattern,'hello CQC!')

madison#如果1匹配成功

if result1:

新东方图书网

# 使⽤Match获得分组信息

up()

el:

print '1匹配失败！'

#如果2匹配成功

if result2:

# 使⽤Match获得分组信息

up()

el:

print '2匹配失败！'

#如果3匹配成功

if result3:

# 使⽤Match获得分组信息

up()

el:

print '3匹配失败！'

#如果4匹配成功

if result4:

# 使⽤Match获得分组信息

汉英转换器

up()

el:

print '4匹配失败！'

运⾏结果

hello

3匹配失败！

hello

匹配分析

borrower1.第⼀个匹配，pattern正则表达式为'hello'，我们匹配的⽬标字符串string也为hello，从头⾄尾完全匹配，匹配成功。

2.第⼆个匹配，string为helloo CQC，从string头开始匹配pattern完全可以匹配，pattern匹配结束，同时匹配终⽌，后⾯的o CQC不再匹配，返回匹配成功的信息。

3.第三个匹配，string为helo CQC，从string头开始匹配pattern，发现到 ‘o' 时⽆法完成匹配，匹配终⽌，返回None

4.第四个匹配，同第⼆个匹配原理，即使遇到了空格符也不会受影响。

我们还看到最后打印出了up()，这个是什么意思呢？下⾯我们说⼀下关于match对象的的属性和⽅法

Match对象是⼀次匹配的结果，包含了很多关于此次匹配的信息，可以使⽤Match提供的可读属性或⽅法来获取这些信息。属性：

1.string: 匹配时使⽤的⽂本。

<: 匹配时使⽤的Pattern对象。

3.pos: ⽂本中正则表达式开始搜索的索引。值与Pattern.match()和Pattern.ach()⽅法的同名参数相同。

5.lastindex: 最后⼀个被捕获的分组在⽂本中的索引。如果没有被捕获的分组，将为None。

6.lastgroup: 最后⼀个被捕获的分组的别名。如果这个分组没有别名或者没有被捕获的分组，将为None。

⽅法：

获得⼀个或多个分组截获的字符串；指定多个参数时将以元组形式返回。group1可以使⽤编号也可以使⽤别名；编号0代表整个匹配的⼦串；不填写参数时，返回group(0)；没有截获字符串的组返回None；截获了多次的组返回最后⼀次截获的⼦串。

以元组形式返回全部分组截获的字符串。相当于调⽤group(1,2,…last)。default表⽰没有截获字符串的组以这个值替代，默认为None。

返回以有别名的组的别名为键、以该组截获的⼦串为值的字典，没有别名的组不包含在内。default含义同上。

4.start([group]):

返回指定的组截获的⼦串在string中的起始索引（⼦串第⼀个字符的索引）。group默认值为0。

返回指定的组截获的⼦串在string中的结束索引（⼦串最后⼀个字符的索引+1）。group默认值为0。

6.span([group]):

返回(start(group), end(group))。

将匹配到的分组代⼊template中然后返回。template中可以使⽤\id或\g、\g引⽤分组，但不能使⽤编号0。\id与\g是等价的；但\10将被认为是第10个分组，如果你想表达\1之后是字符'0'，只能使⽤\g0。

下⾯我们⽤⼀个例⼦来体会⼀下

# -*- coding: utf-8 -*-

#⼀个简单的match实例

import re

# 匹配如下内容：单词+空格+单词+任意字符

m = re.match(r'(\w+) (\w+)(?P.*)', 'hello world!')

print "m.string:", m.string

print "m.re:", m.re

print "m.pos:", m.pos

print "m.endpos:", m.endpos

print "m.lastindex:", m.lastindex

print "m.lastgroup:", m.lastgroup

print "m.group():", m.group()

print "m.group(1,2):", m.group(1, 2)

print "m.groups():", m.groups()

print "m.groupdict():", m.groupdict()

print "m.start(2):", m.start(2)

print "m.end(2):", m.end(2)

print "m.span(2):", m.span(2)

print pand(r'\g \g\g'):", m.expand(r'\2 \1\3')

### output ###

# m.string: hello world!

spermatozoon# m.re:

# m.pos: 0

# m.endpos: 12

# m.lastindex: 3

# m.lastgroup: sign

# m.group(1,2): ('hello', 'world')

# m.groups(): ('hello', 'world', '!')

# m.groupdict(): {'sign': '!'}

# m.start(2): 6

# m.end(2): 11

# m.span(2): (6, 11)

# m.expand(r'\2 \1\3'): world hello!

（2）re.arch(pattern, string[, flags])

arch⽅法与match⽅法极其类似，区别在于match()函数只检测re是不是在string的开始位置匹配，arch()会扫描整个string 查找匹配，match（）只有在0位置匹配成功的话才有返回，如果不是开始位置匹配成功的话，match()就返回None。同

样，arch⽅法的返回对象同样match()返回对象的⽅法和属性。我们⽤⼀个例⼦感受⼀下

#导⼊re模块

import re

# 将正则表达式编译成Pattern对象

pattern = re.compile(r'world')

# 使⽤arch()查找匹配的⼦串，不存在能匹配的⼦串时将返回None

# 这个例⼦中使⽤match()⽆法成功匹配

match = re.arch(pattern,'hello world!')

if match:

# 使⽤Match获得分组信息

up()

### 输出 ###

# world

（3）re.split(pattern, string[, maxsplit])

按照能够匹配的⼦串将string分割后返回列表。maxsplit⽤于指定最⼤分割次数，不指定将全部分割。我们通过下⾯的例⼦感受⼀下。

import re

pattern = re.compile(r'\d+')

print re.split(pattern,'one1two2three3four4')

### 输出 ###

# ['one', 'two', 'three', 'four', '']

（4）re.findall(pattern, string[, flags])

搜索string，以列表形式返回全部能匹配的⼦串。我们通过这个例⼦来感受⼀下

import re

pattern = re.compile(r'\d+')

print re.findall(pattern,'one1two2three3four4')

### 输出 ###

# ['1', '2', '3', '4']

（5）re.finditer(pattern, string[, flags])

搜索string，返回⼀个顺序访问每⼀个匹配结果（Match对象）的迭代器。我们通过下⾯的例⼦来感受⼀下

import re

pattern = re.compile(r'\d+')

for m in re.finditer(pattern,'one1two2three3four4'):

up(),

### 输出 ###

# 1 2 3 4伦敦奥运会闭幕式辣妹组合

（6）re.sub(pattern, repl, string[, count])

使⽤repl替换string中每⼀个匹配的⼦串后返回替换后的字符串。

当repl是⼀个字符串时，可以使⽤\id或\g、\g引⽤分组，但不能使⽤编号0。

当repl是⼀个⽅法时，这个⽅法应当只接受⼀个参数（Match对象），并返回⼀个字符串⽤于替换（返回的字符串中不能再引⽤分组）。

count⽤于指定最多替换次数，不指定时全部替换。

import re

pattern = re.compile(r'(\w+) (\w+)')

s = 'i say, hello world!'

print re.sub(pattern,r'\2 \1', s)

def func(m):

up(1).title() + ' ' + m.group(2).title()

print re.sub(pattern,func, s)

### output ###

# say i, world hello!

# I Say, Hello World!

（7）re.subn(pattern, repl, string[, count])

berlin返回 (sub(repl, string[, count]), 替换次数)。

import re

pattern = re.compile(r'(\w+) (\w+)')

s = 'i say, hello world!'

print re.subn(pattern,r'\2 \1', s)

def func(m):

up(1).title() + ' ' + m.group(2).title()

print re.subn(pattern,func, s)

### output ###

# ('say i, world hello!', 2)

# ('I Say, Hello World!', 2)

5.Python Re模块的另⼀种使⽤⽅式

在上⾯我们介绍了7个⼯具⽅法，例如match，arch等等，不过调⽤⽅式都是 re.match，re.arch的⽅式，其实还有另外⼀种调⽤⽅式，可以通过pattern.match，pattern.arch调⽤，这样调⽤便不⽤将pattern作为第⼀个参数传⼊了，⼤家想怎样调⽤皆可。

函数API列表

match(string[, pos[, endpos]]) | re.match(pattern, string[, flags])

arch(string[, pos[, endpos]]) | re.arch(pattern, string[, flags])

split(string[, maxsplit]) | re.split(pattern, string[, maxsplit])

findall(string[, pos[, endpos]]) | re.findall(pattern, string[, flags])

finditer(string[, pos[, endpos]]) | re.finditer(pattern, string[, flags])

sub(repl, string[, count]) | re.sub(pattern, repl, string[, count])

subn(repl, string[, count]) |re.sub(pattern, repl, string[, count])

具体的调⽤⽅法不必详说了，原理都类似，只是参数的变化不同。⼩伙伴们尝试⼀下吧~

⼩伙伴们加油，即使这⼀节看得云⾥雾⾥的也没关系，接下来我们会通过⼀些实战例⼦来帮助⼤家熟练掌握正则表达式的。

本文发布于:2023-07-07 20:28:31，感谢您对本站的认可！

本文链接：https://www.wtabcd.cn/fanwen/fan/90/170288.html

上一篇：landscape的意思中文翻译

下一篇：外贸函电-建立业务关系

标签：匹配返回字符串

留言与评论（共有 0 条评论）