Minimizando a Latência em aplicativos de Streaming do Kafka com Chamadas Externas

26 Ekim 2024 Luciano Bertene

Kafkaé amplamente adotado para construir aplicativos de streaming em tempo real devido à sua tolerância a falhas, escalabilidade e capacidade de processar grandes volumes de dados. No entanto, em geral, os consumidores de streaming do Kafka funcionam melhor apenas em um ambiente onde não precisam chamar APIs ou bancos de dados externos.

Em uma situação em que um consumidor do Kafka deve fazer uma chamada de API ou banco de dados síncrona, a latência introduzida por saltos de rede ou operações de E/S aumenta e acumula facilmente (especialmente quando o pipeline de streaming está executando uma carga inicial de um grande volume de dados antes de iniciar o CDC).

Isso pode desacelerar significativamente o pipeline de streaming e resultar no estouro de recursos do sistema, impactando a taxa de transferência do pipeline. Em situações extremas, isso pode até se tornar insustentável, pois os consumidores do Kafka podem não ser capazes de comprometer compensações devido ao aumento da latência antes da próxima chamada de pesquisa e serem continuamente rebalanceados pelo corretor, praticamente não processando nada, mas consumindo incrementalmente mais recursos do sistema com o passar do tempo.

Este é um problema real enfrentado por muitos aplicativos de streaming. Neste artigo, exploraremos algumas estratégias eficazes para minimizar a latência em aplicativos de streaming do Kafka onde chamadas externas de API ou banco de dados são inevitáveis. Também compararemos essas estratégias com a abordagem alternativa de separar as partes do pipeline que exigem essas interações externas em um consumidor separado baseado em publicação/assinatura.

Estratégias para Minimizar a Latência

Uso de Caching

Uma das maneiras mais eficazes de minimizar a latência em aplicativos de streaming do Kafka que precisam fazer chamadas externas é implementar um sistema de cache. Ao armazenar em cache os resultados das chamadas externas, os consumidores do Kafka podem evitar fazer essas chamadas sempre que possível, reduzindo significativamente a latência.

Existem várias abordagens de cache que podem ser implementadas, dependendo das necessidades do seu aplicativo:

Cache Local: Cada instância do consumidor do Kafka pode manter seu próprio cache local dos resultados das chamadas externas. Isso é útil quando os dados acessados com frequência são específicos de cada instância do consumidor.
Cache Distribuído: Um cache distribuído, como o Redis ou o Memcached, pode ser usado para compartilhar os resultados das chamadas externas entre todas as instâncias do consumidor. Isso é útil quando os dados acessados com frequência são comuns a todas as instâncias do consumidor.
Cache de Nível de Aplicativo: Você também pode implementar um cache de nível de aplicativo, onde os resultados das chamadas externas são armazenados em um banco de dados ou armazenamento de objetos, como o Amazon S3. Isso é útil quando os dados acessados com frequência precisam ser persistidos além do ciclo de vida do consumidor.

A escolha da abordagem de cache dependerá das características do seu aplicativo, como o padrão de acesso aos dados, a frequência das atualizações e os requisitos de persistência.

Uso de Processamento Assíncrono

Outra estratégia para minimizar a latência é usar processamento assíncrono para lidar com as chamadas externas. Em vez de fazer as chamadas de forma síncrona durante o processamento do fluxo de dados, você pode enviar as solicitações para uma fila de mensagens, como o RabbitMQ ou o Amazon SQS, e processá-las de forma assíncrona em um conjunto separado de workers.

Essa abordagem tem várias vantagens:

Redução da Latência: Os consumidores do Kafka podem continuar processando o fluxo de dados sem esperar pelo resultado das chamadas externas, reduzindo significativamente a latência.
Escalabilidade: Os workers responsáveis pelo processamento assíncrono das chamadas externas podem ser dimensionados independentemente dos consumidores do Kafka, permitindo uma escalabilidade mais eficiente.
Tolerância a Falhas: Se uma chamada externa falhar, o worker pode tentar novamente, sem afetar o processamento do fluxo de dados pelos consumidores do Kafka.

Para implementar essa abordagem, você precisará de um mecanismo de fila de mensagens e de um conjunto de workers que processem as solicitações de forma assíncrona.

Uso de Processamento em Lote

Outra estratégia para minimizar a latência é processar as chamadas externas em lotes, em vez de fazê-las individualmente. Ao agrupar várias chamadas em um único lote, você pode reduzir a sobrecarga de rede e de processamento, melhorando a eficiência geral do pipeline de streaming.

Essa abordagem funciona bem quando:

Múltiplas Chamadas para o Mesmo Destino: Se os consumidores do Kafka precisarem fazer várias chamadas para o mesmo destino (por exemplo, a mesma API ou o mesmo banco de dados), é possível agrupar essas chamadas em um único lote.
Chamadas com Baixa Latência Individual: Se as chamadas externas individuais tiverem baixa latência, o custo de agrupá-las em um lote será compensado pelos ganhos de eficiência.

Para implementar o processamento em lote, você pode usar uma abordagem semelhante ao processamento assíncrono, enviando as chamadas para uma fila de mensagens e processando-as em lotes em um conjunto separado de workers.

Uso de Paralelismo

Outra estratégia para minimizar a latência é aproveitar o paralelismo. Em vez de processar as chamadas externas de forma sequencial, você pode dividir o trabalho em múltiplas threads ou processos e processá-las em paralelo.

Essa abordagem funciona bem quando:

Chamadas Independentes: Se as chamadas externas forem independentes umas das outras, você pode processá-las em paralelo sem problemas de concorrência.
Recursos Computacionais Disponíveis: Se o seu sistema tiver recursos computacionais suficientes (CPU, memória, etc.) para suportar o paralelismo, você poderá obter ganhos significativos de desempenho.

Para implementar o paralelismo, você pode usar recursos nativos da linguagem de programação, como threads ou processos, ou usar soluções mais avançadas, como o uso de um mecanismo de processamento paralelo, como o Apache Spark ou o Apache Flink.

Comparação com a Abordagem de Consumidor Separado

Uma abordagem alternativa para lidar com chamadas externas em aplicativos de streaming do Kafka é separar as partes do pipeline que exigem essas interações externas em um consumidor separado baseado em publicação/assinatura.

Nessa abordagem, o pipeline de streaming do Kafka é dividido em duas partes:

Consumidor Principal: Responsável por processar o fluxo de dados do Kafka e publicar eventos intermediários em um tópico separado.
Consumidor Externo: Responsável por consumir os eventos intermediários, fazer as chamadas externas necessárias e publicar os resultados finais em um tópico de saída.

Essa abordagem tem algumas vantagens:

Separação de Preocupações: Ao separar as responsabilidades, você pode isolar a lógica de processamento do fluxo de dados da lógica de interação com sistemas externos, simplificando o design do seu aplicativo.
Escalabilidade Independente: Os consumidores principal e externo podem ser dimensionados independentemente, permitindo uma escalabilidade mais eficiente.
Tolerância a Falhas: Se o consumidor externo falhar, o consumidor principal pode continuar processando o fluxo de dados, aumentando a tolerância a falhas do sistema.

No entanto, essa abordagem também tem algumas desvantagens:

Complexidade Adicional: Dividir o pipeline em dois consumidores adicionará complexidade ao seu aplicativo, pois você precisará lidar com a coordenação entre eles.
Latência Adicional: O fato de ter dois consumidores em série pode introduzir latência adicional no pipeline de streaming.

Portanto, a escolha entre as estratégias de minimização de latência e a abordagem de consumidor separado dependerá das características específicas do seu aplicativo, dos requisitos de desempenho e da complexidade que você está disposto a aceitar.

Conclusão

Neste artigo, exploramos algumas estratégias eficazes para minimizar a latência em aplicativos de streaming do Kafka onde chamadas externas de API ou banco de dados são inevitáveis. Essas estratégias incluem o uso de caching, processamento assíncrono, processamento em lote e paralelismo.

Também comparamos essas estratégias com a abordagem alternativa de separar as partes do pipeline que exigem interações externas em um consumidor separado baseado em publicação/assinatura. Cada abordagem tem suas próprias vantagens e desvantagens, e a escolha dependerá das características específicas do seu aplicativo.

Independentemente da abordagem escolhida, é importante ter em mente que a minimização da latência em aplicativos de streaming do Kafka é um desafio complexo que requer uma análise cuidadosa das necessidades do seu aplicativo e a adoção de estratégias adequadas. Ao implementar essas técnicas, você poderá construir aplicativos de streaming do Kafka mais eficientes e resilientes, capazes de lidar com chamadas externas sem comprometer o desempenho geral do pipeline.