Java正则表达式教程及示范代码

更新时间:2023-07-28 06:22:00 阅读: 评论:0

Java正则表达式教程及示范代码
正则表达式用来指定字符串模式。当你需要定位匹配某种模式的字符串时就可以使用正则表达式。例如,我们下面的一个例程就是在一个HTML文件中通过查找字符串模式<a href="...">来定位所有的超链接。

    当然,为了指定一种模式,使用...这种记号是不够精确的。你需要精确地指定什么样的字符排列是一个合法的匹配。当描述某种模式时,你需要使用一种特殊的语法。

    这里有一个简单例子。正则表达式
[Jj]ava.+
匹配下列形式的任何字符串:
首字母是J高级工艺美术师j 
后续的三个字母是ava 
字符串的剩余部分由一个或多个任意字符组成 

    例如,字符串javaness”匹配这个特殊的正则表达式,但是字符串Core Java”却不匹配。

    如你所见,你需要了解一点语法来理解正则表达式的含意。幸运的是对于大多数的用途,使用少量的简单构造(straightforward constructs)就已足够。
字符类是可选自符的集合,用‘[’封装,比如[Jj],[0-9],[A-Za-z][^0-9]。这里的-表示范围(Unicode落在两个边界之间的所有字符),^表示求补(指定字符外的所有字符)。 企业新闻稿
河南高考成绩有许多预定以的字符类,像\d(数字)或\p{Sc}Unicode货币符号),见表12-812-9 
大多数字符与它们自身匹配,像上例中的ava字符。 
符号.匹配任何字符(可能行终止符(line terminators)除外,这依赖于标识设置(flag ttings)) 
\用作转义符,比如\.匹配一个句点,\\匹配一个反斜杠。 
 ^$分别匹配行头和行尾 
如果XY都是正则表达式,则XY表示X的匹配后面跟着女性经常吃大蒜的好处Y的匹配X|Y表示任何XY的匹配 
可以将量词(quantifier)用到表达式中,X+ 表示X重复1次或多次,X* 表示X重复0次或多次,X? 表示X重复0次或1 
 默认地,一个量词总是与使总体成功匹配的最长的可能重复匹配。可以加上后缀?(称为reluctantstingy 匹配,用以匹配最小的重复数),和+(称为posssive或贪婪匹配,用以即使在总体匹配失败的情况下也匹配最大的重复数)来更改这种属性。 
例如,字符串cab匹配[a-z]*ab,但不匹配[a-z]*+ab。第一种情况下,[a-z]*只匹配字符c,因此字符ab正好与模式的剩余部分匹配。但是贪婪版本[a-z]*+就与字符cab匹配,模式的剩余部分ab就匹配失败(,这样总体也就匹配失败)。
可以使用分组来定义子表达式。将分组封装在()中,如([+-]?)([0-9]+)。然后你可以让模式匹配符(the pattern matcher)返回每个分组的匹配,或者使用\n来回引分组(refer back to a group with \n),其中n是组号(以\1起始) 

    这里有一个稍微有点复杂却又很有用的正则表达式--它用来描述十进制和十六进制的整数。
[+-]?[0-9]+|0[Xx][0-9A-Fa-f]+

    不幸的是,在使用正则表达式的各种程序和库之间,它的语法还没有完全标准化。对基本的构造上已达成了共识,但在细节方面有许多令人是真名士自风流抓狂的区别(many maddening differences)。Java的正则表达式类使用了与Perl语言类似的语法,但也不尽相同。表12-8显示了新人介绍Java语法的所有正则表达式构造。要了解更多关于正则表达式的信息,请参考Pattern类的API文档,或者Jeffrey E. F. Friedl的著作《Mastering Regular Expressions(O'Reilly and Associates, 1997)(刚去第二书店查了一下,东南大学出版社已经引入了其第二版,影印)


12-8 正则表达式语法
语法                                                          解释
字符
c                                                            字符c
\unnnn, \xnn, \0n, \0nn, \0nnn          带有十六或八进制值的代码单元
\0n                                           八进制0n代表的字符(0<=n<=7
\0nn                                         八进制0nn代表的字符(0<=n<=7)
\0mnn                                     八进制0mnn代表的字符(0<=m<=3,0<=n<=7)
\xnn                                         十六进制 0xnn所代表的字符
\uhhhh                                    十六进制 0xhhhh所代表的字符
\t, \n, \r, \f, \a, \e                                    控制字符,依次是制表符,换行符,回车符,换页符,报警符和转义符
\cc                                                         控制字符中出现的相应字符c
字符类
[C1C2. . .]                       C1C2……中的任何字符。Ci可以是字符,字符范围(C1-C2)或者字符类。
[^. . .]                                生物考试反思字符类的补集
[ . . . && . . .]                    两个字符类的交集
预定义字符类
.                                        除行终止符外的任何字符(如果DOTALL标志置位,则表示任何字符)
\d                                      数字[0-9]
\D                                    非数字[^0-9]
\s                                     空白字符[\t\n\r\f\x0B]
\S                                     非空白字符
\w                                    单词字符[a-zA-Z0-9_]
\W                                   非单词字符
\p{name}                        一个指定的字符类,见表12-9
\P{name}                       指定字符类的补集
边界匹配符
^ $                                   输入的开头和结尾(在多行模式(multiline mode)下是行的开头和结尾)
\b                                    单词边界
\B                                    非单词边界
\A                                     输入的开头
\z                                     输入的结尾
\Z                                    除最后行终止符之外的输入结尾
\G                                   上个匹配的结尾
量词
X?                                    可选的X(即X可能出现,也可能不出现)
X*                                    X,可以重复0次或多次
X+                                    X,可以重复1次或多次
X{n} X{n,} X{n,m}          X重复n次,至少重复n次,重复nm
量词后缀
?                                   设默认(贪婪)匹配为reluctant匹配
+                                   设默认(贪婪)匹配为posssive匹配
集合操作
XY                                  X的匹配后面跟着Y的匹配
X|Y                                 XY的匹配
分组
(X)                                匹配X并且在一个自动计数的分组中捕获它
\n                                  与第n个分组的匹配

本文发布于:2023-07-28 06:22:00,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/82/1121290.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:匹配   字符   模式   分组
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图