欢迎光临散文网 会员登陆 & 注册

Flink全量聚合函数:apply和process这两种实现方法有什么区别?

2023-08-14 14:30 作者:ingemar-  | 我要投稿

指在窗口触发的时候才会对窗口内的所有数据进行一次计算(等窗口的数据到齐,才开始进行聚合计算,可实现对窗口内的数据进行排序等需求)

实现方法

  • apply(windowFunction)

  • process(processWindowFunction)

apply和process的区别


apply和process都是处理全量计算,但工作中正常用process。

process更加底层,更加强大,有open/close生命周期方法,又可获取RuntimeContext。


ProcessWindowFunction/ProcessAllWindowFunction


全量聚合:窗口需要维护全部原始数据,窗口触发进行全量聚合

ProcessWindowFunction一次性迭代整个窗口里的所有元素,比较重要的一个对象是Context,可以获取到事件和状态信息,这样我们就可以实现更加灵活的控制,这实际上是process的主要特点吧。该算子会浪费很多性能吧,主要原因是不增量计算,要缓存整个窗口然后再去处理,所以要设计好内存。

牛叉的地方是ProcessWindowFunction可以结合 ReduceFunction, AggregateFunction,或者 FoldFunction来做增量计算(推荐用法)

请注意,使用ProcessWindowFunction诸如 count 之类的简单聚合效率很低。


Flink全量聚合函数:apply和process这两种实现方法有什么区别?的评论 (共 条)

分享到微博请遵守国家法律