欢迎光临散文网 会员登陆 & 注册

怎么保证Flink可以高效地读取数据源中的数据?

2023-07-10 11:20 作者:ingemar-  | 我要投稿

在现实生产环境中,为了保证Flink可以高效地读取数据源中的数据,通常是跟一些分布式消息中件结合使用,例如Apache Kafka。Kafka的特点是分布式、多副本、高可用、高吞吐、可以记录偏移量等。Flink和Kafka整合可以高效的读取数据,并且可以保证Exactly Once(精确一次性语义)


依赖


Apache Flink 集成了通用的 Kafka 连接器,它会尽力与 Kafka client 的最新版本保持同步。该连接器使用的 Kafka client 版本可能会在 Flink 版本之间发生变化。当前 Kafka client 向后兼容 0.10.0 或更高版本的 Kafka broker。有关 Kafka 兼容性的更多细节,请参考 Kafka 官方文档。


Kafka Consumer


Flink 的 Kafka consumer 称为 FlinkKafkaConsumer。它提供对一个或多个 Kafka topics 的访问。

构造函数接受以下参数:

  • Topic 名称或者名称列表

  • 用于反序列化 Kafka 数据的 DeserializationSchema 或者 KafkaDeserializationSchema

  • Kafka 消费者的属性。需要以下属性:

  • “bootstrap.servers”(以逗号分隔的 Kafka broker 列表)

  • “group.id” 消费组 ID


怎么保证Flink可以高效地读取数据源中的数据?的评论 (共 条)

分享到微博请遵守国家法律