Java学习之字符串和正则表达式
简介
可以证明,字符串操作是计算机程序设计中最常见的行为 不可变String String对象是不可变的,通过JDK文档可以发现,每一个看似会修改String值的操作,实际上都是创建了一个新的String对象,以包含修改后的字符串内容,而最初的String对象则丝毫未动。
重载"+" 与StringBuilder String对象是不可变的额,你可以给String对象加任意多的别名。因为String具有只读特性,所以指向它的任何引用都不可能改变它的值,因此,也就不会对其他的引用有什么影响。 不可变性会带来一定的效率问题。为String对象重载的”+“操作符就是一个例子,用于String的”+“与”+=“被重载为用来连接两个字符串
看下面代码

上面代码一开始声明了一个Hello字符串,后面与World字符串进行了连接赋值给了str2.所以最后会打印Hello World的字段 现在看看代码到底是如何工作的

上面是对源代码进行反编译后的汇编语句。我们暂时不必读懂,可以参考后面的注释。
我们可以发现所谓的String字符串拼接实际上就是创建一个空的StringBuilder对象,并将对所有通过”+“进行拼接的字符串进行append操作,最后通过toString方法将拼接好的字符串赋值给str2引用。 注意:虽然编译器会将字符串的拼接优化为StringBuilder的操作,但是这不意味着我们可以滥用”+“,这会我们带来不少的资源浪费。
现在看下面的代码:

上面代码中,前者通过”+=“来循环拼接字符串,这意味着每一次循环,都会创建一个新的SringBuilder对象,这会极大浪费系统的性能,虽然垃圾回收机制可以回收存储资源,但是创建对象是非常浪费资源的是比较慢的,所以相比之下,后者的使用效率会更高。
String上的操作

格式化输出 Formatter 在java中所有新的格式化功能都由java.util.Formatter类处理。可以将这个类当作一个翻译器,它将你的格式化字符串与数据翻译成需要的结果。当你创建一个Formatter对象的时候,需要向其构造器传递一些信息,告诉它最终的结果将向哪里输出: 正则表达式 正则表达式是一种灵活而强大的文本处理工具。通过正则表达式我们就能以编程的方式构造复杂的文本模式,并对输入的字符串进行搜索。


一般来说,正则表达式就是以某种方式来描述字符串,因此,你可以说”如果一个字符串包含这样那样的东西,那么它就是我要找的“
创建正则表达式



量词中的贪婪型、勉强型和占有型 量词描述了一个模式吸收输入文本的方式

贪婪型 贪婪型就是我们前面提到的量词表中的形式,贪婪型会根据表达式去尽最大范围去匹配

通过前面正则符号的学习我们可以知道”.“代表任意字符,而”+“则代表一个或多个字符,组合起来就表示匹配一个或多个任意字符。我们看到例子中的正则表达式”<.+>“表示会匹配一对尖括号<>,尖括号中间会有一个或多个任意字符。所以,通常来说我们会认为例子中的符号会被匹配到量词,因为有两个尖括号是符合条件的。但是事实上我们看到输出结果只匹配到了一个。

所以我们现在可以理解贪婪型中的尽最大范围匹配是什么含义了 勉强型 勉强型就是在贪婪型的基础上增加了”?“符号,通过前面的学习我们知道”?”代表0个或1个符号,但是如果前面已经出现了量词,那它将不再作为原来的含义使用。 勉强型的含义刚好以贪婪型相反,它会近最小的匹配返回去匹配 在上面例子中我们发现例子中的test字符串被匹配到了两次,这不就是我们希望的结果吗,事实上,勉强型就是会在遇到匹配的结果就不再扩大范围,直接完成对象匹配,然后完成对应操作后再往后继续重新开始匹配 独占型 独占型比较相比前两者难理解,其实独占型与贪婪型基本上是一样的,都是尽最大范围去匹配,只是独占型没有回退功能,所以如果一旦由于把范围扩的太大,会造成原先匹配到的对象都丢失的情况。
这样说比较抽象。我们对正则匹配的方式进行深度的说明 下面图中绿色代表匹配,黄色代表不匹配 通过上面的图我们可以发现到第四步,我们的“.++”把后面所有的字符都给匹配掉了,所以在第五步时,我们的“>”没有可以匹配的字符了,这时候就会匹配失败,如果时我们的独占型,就会到此结束。但是如果是贪婪型,将会把之前匹配完成的结果进行回退,一直退到符合匹配条件的或者全部都不匹配为止。 CharSequeue CharSequeue是一个从
CharBuffer、String、StringBuffer,StringBuilder类之中抽象出来的字符序列的一般化定义。这些类都实现了该接口。大多数正则表达式操作都会接收这个接口作为参数
。由于这个接口在1.8之后有大量的方法体,所以有需要可以自己去看看源码 Pattern和Matcher 一般来说,比起功能有限的String类,我们更愿意构造功能强大的正则表达式对象。只需要导入java.util.regex包,然后用static Pattern.compile()方法来编译正则表达式即可。它会根据你的String类型的正则摆动式生成一个Pattern对象。接下来,把你想要检索的字符串传入Pattern的matcher()方法。该方法会生成一个Macther对象,它会有许多的功能可用。
我们看下面的代码 组 组是用括号划分的正则表达式,可以根据组的编号来引用某个组。组号为0表示整个表达式,组号为1表示被第一对括号括起的组,依此推类 看下面表达式 下面介绍一下Matcher对象常用的一些方法 find():查找多个匹配,每次调用查找一次,每次只找一个匹配项,但下次查找会从前一次匹配的结束位置的后一位开始查找,假设我们要查找ava,目标字段是avava那只能find到一次 lookingAt():只在正则表达式与输入开始处就开始匹配时才会成功。举个例子:表达式ava,遇到java会匹配失败,但是遇上ava或者avaj都能够匹配成功 matches():只在正则表达式与输入开始处就开始匹配并且表达式和输入完全匹配时才会成功。举个例子:表达式ava,遇到java和avaj会匹配失败,只有遇上ava才能够匹配成功 注意,如果我们希望像上面代码示例中一样获取组信息,需要先调用上面三个匹配方法,否则就会异常。
Pattern标记 Pattern类的compile方法还有另一个版本,它接受一个标记参数以调整匹配的行为 扫描输入 我们通常通过Scanner对象完成对各种输入流的类型读写,否则什么都要自己通过分解String然后进行各种类型的parse会是一件很大的工程。 这里只做一点简单的额介绍,有需要可以自己去看一下源码有哪些方法可用 Scanner定界符 默认情况下,Scanner根据空白字符对输入进行分词,但是我们也可以使用正则表达式指定我们需要的定界符。 通过上面例子我们能够看出原字符串中是以“, ”作为分割符的,所以我们通过useDelimiter(",\s*")指定了新的分界符号。 正则表达式扫描 Scanner除了扫描基本类型以外,还能够使用自定义的正则表达式进行扫描。这在扫描复杂数据时非常有用,下面例子将扫描一个防火墙日志文件中记录的威胁数据
上面代码中,我们希望从数据中筛选出我们需要的威胁记录,并从中提取出ip和时间。注意,hasNext(pattern)和scanner.next(pattern)仅仅针对下一个输入分词进行匹配,也就说,根据我们的正则表达式,在第三行数据会匹配失败,此时不会往下继续匹配,需要通过next()跳到下一个分词
转自网络,侵删