欢迎来到我司精密电阻产品网站!
Kafka框架的工作原理和工作流程
精密电阻 2024-12-22

Kafka在大数据技术生态系统中是众所周知的消息传递系统。

面对活跃的流数据,它提供高吞吐量的服务。

在实时大数据处理场景中,可以说是一个很好的武器。

有应用程序。

在当今的大数据开发技术共享中,我们将主要讨论Kafka框架的工作原理。

Kafka概述了官方定义。

Kakfa是基于发布/订阅模型的分布式消息队列,主要用于大数据的实时处理领域。

一般而言,消息队列有两种模式:①点对点模式:消息生产者将消息发送到消息队列,然后消息使用者将其从队列中取出并使用消息。

使用完消息后,不存储队列。

②发布/订阅模式(一对多,使用者使用数据后,消息不会清除):消息生产者将消息发布到主题,多个消息使用者(订阅)同时使用消息。

Kafka是典型的发布/订阅模型,它更适合于实时大数据场景中的消息传递服务。

Kafka基础结构Kafka的基础结构主要由经纪人,生产者和消费者团体组成,目前包括ZooKeeper。

生产者负责发送消息,代理负责缓冲消息,可以在代理中创建主题,每个主题都有分区和复制的概念。

使用者组负责处理消息,并且同一使用者组中的使用者不能使用同一分区中的数据。

消费群体主要是为了提高消费能力。

例如,一个使用者过去消耗了100条数据,但是现在有两个使用者消耗了100条数据,这可以增加消耗功率。

因此,消费者组中的消费者数量应少于分区的数量,否则会有没有分区就可以消费的消费者,造成资源浪费。

注意:不同使用者组中的使用者可以使用相同的分区数据。

如果Kakfa需要组件集群,则只需在ZooKeeper中注册。

ZooKeeper还会保留消息使用进度或偏移量或使用位置:将0.9之前的版本的偏移量存储在ZooKeeper中。

0.9之后的版本偏移量存储在Kafka中。

Kafka定义了一个系统主题,专门用于存储偏移数据。

这主要是由于偏移量的频繁更改,这给ZooKeeper带来了更大的压力,并且Kafka自己的处理也更加复杂。

Kafka无法保证消息的全局顺序,而只能保证分区中消息的顺序,因为使用者在不同的分区中随机使用消息。

Kafka工作流程Kafka中的消息按主题进行分类,生产者生成的消息和消费者使用的消息均以主题为导向。

主题是一个逻辑概念,分区是一个物理概念。

每个分区都有复制的概念。

每个分区对应一个日志文件。

生产者生成的数据存储在日志文件中。

生产者生成的数据将连续添加到日志文件的末尾。

每个数据段都有其自己的偏移量,使用者将实时记录他们已消耗的偏移量,以便在发生错误时从上一个位置继续消耗,此偏移量将保存在索引文件中。

Kafka的偏移量在分区中排序,但在不同的分区中不排序。

Kafka不保证数据的全局顺序。

关于大数据的发展,介绍卡夫卡的工作原理,以上内容是对每个人的简要介绍。

Kafka在大数据技术生态系统中具有很高的知名度,尤其是拥有丰富数据资源的公司更喜欢使用Kafka。