欢迎光临散文网 会员登陆 & 注册

effective java 3 - 第7章 lambda和stream[46] 优先选择无副作用的函数

2023-03-01 21:29 作者:CC挑灯夜读_谷  | 我要投稿

    如果刚接触Stream,可能比较难以掌握其中的窍门。就算只是用Stream pipeline 来表达计算就困难重重。当你好不容易成功了,运行程序之后,却可能感到这么做并没有享受到多大益处。Stream 并不只是一个API ,它是一种基于函数编程的模型。为了获得Stream 带来的描述性和速度,有时还有并行性,必须采用范型以及API。

    Stream 范型最重要的部分是把计算构造成一系列变型,每一级结果都尽可能靠近上一级结果的纯函数(pure function)。纯函数是指其结果只取决于输入的函数:它不依赖任何可变的状态,也不更新任何状态。为了做到这一点,传入Stream 操作的任何函数对象,无论是中间操作还是终止操作,都应该是无副作用的。

    有时会看到如下代码片段,它构建了一张表格,显示这些单词在一个文本文件中出现的频率:

    以上代码有什么问题吗?它毕竟使用了Stream、Lambda和方法引用,并且得出了正确的答案。简而言之,这根本不是Stream 代码;只不过是伪装成Stream 代码的迭代式代码。它并没有享受到Stream API 带来的优势,代码反而更长了点,可读性也差了点,并且比相应的迭代化代码更难维护。因为这段代码利用一个改变外部状态(频率表)的Lambda,完成了在终止操作的forEach中的所有操作forEach操作的任务不只展示由Stream 执行的计算结果,这在代码中并非好事,改变状态的Lambda 也是如此。那么这段代码应该是什么样的呢?

    这个代码片段的作用与前一个例子一样,只是正确使用了Stream API,变得更加简洁、清晰。那么为什么有人会以其他的方式编写呢?这是为了使用他们已经熟悉的工具。Java程序员都知道如何使用for-each循环,终止操作的forEach也与之类似。但forEach操作是终止操作中最没有威力的,也是对Stream 最不友好的。它是显式迭代,因而不适合并行。forEach操作应该只用于报告Stream 计算的结果,而不是执行计算。有时候,也可以将forEach用于其他目的,比如将Stream 计算的结果添加到之前已经存在的集合中去。

    改进过的代码使用了一个收集器(collector),为了使用Stream,这是必须了解的一个新概念。Collectors API 很吓人:它有39种方法,其中有些方法还带有5个类型参数!好消息是,你不必完成搞懂这个API 就能享受它带来的好处。对于初学者,可以忽略Collector接口,并把收集器当做封装缩减策略的一个黑盒子对象。在这里,缩减的意思是将Stream的元素合并到单个对象中去。收集器产生的对象一般是一个集合(即名称收集器)。

    将Stream 的元素集中到一个真正的Collection 里去的收集器比较简单。有三个这样的收集器:toList() , toSet() 和 toCollection(collectionFactory)。它们分别返回一个列表,一个集合和程序员指定的集合类型。了解了这些,就可以编写Stream pipeline,从频率表中提取排名前十的单词列表了:

    

    注意,这里没有给toList方法配上它的Collectors 类。静态导入 Collectors 的所有成员是惯例也是明智的,因为这样可以提升Stream pipeline 的可读性。

    这段代码中唯一有技巧的部分是传给sorted的比较器 comparing(freq::get).reversed()。comparing方法是一个比较器构造方法(详见第14条),它带有一个键提取函数。函数读取一个单词,“提取”实际上是一个表查找:有限制的方法引用 freq::get在频率表中查找单词,并返回该单词在文件中出现的次数。最后,在比较器上调用reversed,按频率高低对单词进行排序。后面的事情就简单了,只要限制Stream 为10个单词,并将它们集中到一个列表中即可。

    上一段代码是利用Scanner 的 Stream 方法来获得Stream。这个方法是在Java 9 中增加的。如果使用的是更早的版本,可以把实现 Iterator 的扫描器,翻译成使用了类似于第47条中适配器的Stream (streamOf(Iterable<E>))。

    Collectors中的另外36种方法又是什么样的呢?它们大多数是为了便于将Stream 映射到集合中,这远比集中到真实的集合中要复杂得多。每个Stream 元素都有一个关联的键和值,多个Stream 元素可以关联同一个键。

    最简单的映射收集器是toMap(keyMapper,valueMapper),它带有两个函数,其中一个是将Stream 元素映射到键,另一个是将它映射到值。我们采用第34条 fromString 实现中的收集器,将枚举的字符串形式映射到枚举本身:

    

    如果Stream 中的每个元素都映射到一个唯一的键,那么这个形式简单的toMap是很完美的。如果多个Stream 元素映射到同一个键,pipeline就会抛出一个IllegalStateException异常将它终止。

    toMap 更复杂的形式,以及groupingBy方法,提供了更多处理这类冲突的策略。其中一种方式是除了给toMap 方法提供了键和值映射器之外,还提供一个合并函数(merge function)。合并函数是一个BinaryOprator<V>,这里的 V 是映射的值类型。合并函数将与键关联的任何其他值与现有值合并起来,因此,将入合并函数是乘法,得到的值就是与该值映射的键关联的所有值的积。

    带有三个参数的toMap 形式,对于完成从键到与键关联的被选元素的映射也是非常有用的。假设有一个Stream,代表不同歌唱家的长篇,我们想得到一个从歌唱家到最畅销唱片之间的映射。下面这个收集器就可以完成这项任务。

    

    注意,这个比较器使用了静态工厂方法maxBy,这是从BinaryOperator 静态导入的。该方法将Comparator<T> 转换成一个BinaryOperator<T> ,用于计算指定比较器产生的最大值。在这个例子中,比较器是由比较器构造方法comparing 返回的,它有一个键提取函数Album::sales 。这看起来有点绕,但是代码的可读性良好。不严格地说,它的意思是“将唱片的stream 转换成一个映射,将每个歌唱家映射到销量最佳的唱片”。这就非常接近问题陈述了。

    带有三个参数的toMap形式还有另一种用途,即生成一个收集器,当有冲突时强制“保留最后更新(last-write-wins)”。对于许多Stream 而言,结果是不确定的,但如果与映射函数的剑关联的所有值都相同,或者都是可接受的,那么下面这个收集器的行为就正是你所要的:

    toMap的第三个也是最后一个形式是,带有第四个参数,这是一个映射工厂,在使用时要指定特殊的映射实现,如EnumMap 或者 TreeMap。

    toMap 的前三种版本还有还有另外的变换形式,命名为 toConcurrentMap,能有效地并行运行,并生成ConcurrentHashMap 实例。

    除了toMap 方法,Collectors API 还提供了 groupingBy方法,它返回收集器以生成映射,根据分类函数将元素分门别类。分类函数带有一个元素,并返回其所属的类别。这个类别就是元素的映射键。groupingBy方法最简单的版本是只有一个分类器,并返回一个映射,映射值为每个类别中所有元素的列表。下列代码就是在地45条的Anagram 程序中用于生成映射(从按字母排序的单词,映射到字母排序相同的单词列表)的收集器:

    words.collect(groupingBy(wrod -> alphabetize(word)));

    如果要让groupingBy 返回一个收集器,用它生成一个值而不是列表的映射,除了分类器之外,还可以指定一个下游收集器(downstream collector)。下游收集器从包含某个类别中所有元素的Stream中生成一个值。这个参数最简单的用法是传入 toSet(),其结果生成一个映射,这个映射值为元素集合而非列表。

    另一种方法是传入toCollection(collectionFactory) ,允许创建存放各元素类别的集合。这样就可以自由选择自己想要的任何集合类型了。带两个参数的groupingBy 版本的另一种简单用法是,传入 counting() 作为下游收集器。这样会生成一个映射,它将每个类别与该类别中的元素数量关联起来,而不是包含元素的集合。这正是在本条目开头处频率表范例中见到的:

    

    groupingBy的第三个版本,除了下游收集器之外,还可以指定一个映射工厂。注意,这个方法违背了标准的可伸缩列表模式:参数mapFactory 要在donwStream 参数之前,而不是在它之后。groupingBy 的这个版本可以控制所包围的映射,以及所包围的集合,因此,比如可以定义一个收集器,让它返回值为 TreeSet的 TreeMap。

    groupingByConcurrent 方法提供了groupingBy 所有三种重载的变体。这些变体可以有效地并发运行,生成ConcurrentHashMap实例。还有一种比较少用到的 groupingBy变体叫作 partitioningBy。除了分类方法之外,它还带一个断言(predicate),并返回一个键位Boolean 的映射。这个方法有两个重载,其中一个除了带有断言外,还带有下游收集器。

    counting方法返回的收集器仅作用于下游收集器。通过在Stream 上的count方法,直接就有相同的功能,因此压根没有理由使用 collect(counting())。这个属性还有15种Collectors方法。其中包含9种方法其名称以summing、averaging和summarizing开头开头(相应的stream基本类型上就有相同的功能)。它们还包括reducing、filtering、mapping、flatMapping、和collectingAndThen方法。大多数程序员都能安全地避开这里的大多数方法。从设计的角度来看,这些收集器试图部分复制收集器中Stream的功能,以便下游收集器可以成为“ministream”。

    目前已经提到了3个Collectors方法。虽然它们都在Collectors中,但是并不包含集合。前两个是minBy和maxBy,它们有一个比较器,并返回由比较器确定的Stream中的最少元素或者最多元素。它们是Stream 接口中min和max方法的粗略概述,也是BinaryOperator 中同名方法返回的二进制操作符,与收集器相类似。回顾一下在最畅销唱片范例中用过的BinaryOperator.maxBy方法。

    最后一个Collectors方法是joining,它只在CharSequence 实例的Stream 中操作,例如字符串。它以参数的形式返回一个简单地合并元素的收集器。其中一种参数形式带有一个名为delimiter(分界符)的CharSequence参数,它返回一个连接Stream元素并在相邻元素之间插入分隔符的收集器。如果传入一个逗号作为分隔符,收集器就会返回一个用逗号隔开的值字符串(但要注意,如果Stream中的任何元素种包含逗号,这个字符串就会引起歧义)。 这三种参数形式,除了分隔符之外,还有一个前缀和一个后缀。最终的收集器生成的字符串,会像在打印集合时所得到的那样,如[came, saw, conquered ]。

    总而言之,编写Stream pipeline的本质是无副作用的函数对象。这适用于传入Stream及相关对象的所有函数对象。终止操作中的forEach应该只用来报告由Stream 执行的计算结果,而不是让它执行计算。为了正确地使用Stream ,必须了解收集器。最重要的收集器工厂是toList、toSet、toMap、groupingBy和joining。

effective java 3 - 第7章 lambda和stream[46] 优先选择无副作用的函数的评论 (共 条)

分享到微博请遵守国家法律