Equipe de operações de banco de dados da OVHcloud construiu uma infraestrutura de banco de dados escalável e confiável

16 de outubro de 2024 Luciano Bertene

A equipe de operações de banco de dados da OVHcloud transformou a maneira como gerencia e otimiza sua infraestrutura. Desde melhorar a observabilidade até dimensionar hardware e reduzir consultas lentas em 50%, ela construiu com sucesso um serviço de banco de dados escalável e confiável que atende às necessidades de suas equipes internas de produtos.

O Desafio: Uma demanda crescente por Bancos de Dados Escaláveis

A OVHcloud oferece uma vasta gama de serviços de nuvem, e as equipes internas de produtos que desenvolvem esses serviços dependem muito da infraestrutura fornecida pela equipe de operações de banco de dados. Com mais de 100 clusters de banco de dados em produção, a infraestrutura da OVHcloud é construída no Kubernetes, mas pode acomodar máquinas virtuais e servidores bare metal. O desafio, no entanto, está em manter o desempenho ideal em escala, especialmente à medida que o número de serviços e clientes cresce.

A infraestrutura: clusters de banco de dados resilientes e flexíveis

Os clusters de banco de dados que a OVHcloud executa hoje normalmente consistem em três nós. Um nó primário gerencia o tráfego de gravação, enquanto os outros lidam com solicitações somente leitura e backups. A arquitetura é compartilhada entre os bancos de dados PostgreSQL e MySQL, com cada nó projetado para descarregar cargas de trabalho especializadas. Essa configuração permite que as equipes de produtos operem sem ter que pensar em gerenciamento de banco de dados, pois a infraestrutura é dimensionada conforme necessário, suporta backups e equilibra a carga automaticamente.

Melhor observabilidade necessária

Conforme a demanda aumentou, a equipe de banco de dados começou a ter gargalos. As equipes de produtos frequentemente relatavam problemas de desempenho, mas diagnosticar esses problemas provou ser difícil devido à falta de observabilidade. Para resolver isso, a equipe de banco de dados implementou uma pilha de observabilidade, extraindo logs do PostgreSQL e MySQL para um cluster OpenSearch e centralizando as principais métricas em painéis do Grafana. Isso permitiu que a equipe rastreasse o desempenho em tempo real e respondesse mais rapidamente aos problemas.

Atualizando o hardware para aumentar o desempenho

A observabilidade aprimorada revelou que muitos dos problemas de desempenho eram decorrentes de hardware inadequado. A equipe do banco de dados escalou verticalmente, atualizando para CPUs mais rápidas, adicionando mais RAM, melhorando as velocidades de disco e aprimorando a taxa de transferência de rede em todos os seus nós. Essas atualizações foram essenciais para abordar a causa raiz de muitos dos gargalos de desempenho.

A otimização de consultas SQL reduz consultas lentas em 50%

Além das melhorias de hardware, a equipe de banco de dados adotou uma abordagem mais abrangente para a otimização da carga de trabalho. Inicialmente, a equipe observou mais de 2 milhões de consultas lentas por semana em um único banco de dados. Para lidar com isso, a equipe lançou uma iniciativa de otimização contínua de consultas, analisando logs semanalmente e identificando os bancos de dados responsáveis pelo maior número de consultas lentas. Ao fornecer visibilidade sobre o desempenho de bancos de dados específicos e oferecer feedback automatizado aos desenvolvedores, a equipe conseguiu reduzir o número de consultas lentas de mais de dois milhões para menos de 1 milhão em mais de 1.000 bancos de dados.

SLOs: Estabelecendo expectativas claras

A jornada dos membros da equipe em direção à otimização não parou com melhor observabilidade e desempenho de consulta. Eles implementaram SLOs para seus serviços de banco de dados, definindo metas claras de desempenho e garantindo que os bancos de dados atendessem às necessidades das equipes de produtos que atendem. Essa abordagem orientada por SLO ajudou a equipe a manter um desempenho consistente, mesmo enquanto escala.

Melhoria Contínua: Olhando para o Futuro

Embora a equipe de banco de dados da OVHcloud tenha feito avanços significativos, ela continua buscando maneiras de melhorar. Uma iniciativa atualmente em andamento é o desenvolvimento de um modelo de serviço em camadas, oferecendo diferentes níveis de desempenho de banco de dados com base em quão críticas são as cargas de trabalho. À medida que a OVHcloud continua se expandindo, a equipe de banco de dados também está explorando maneiras de estender sua abordagem a outros tipos de bancos de dados, incluindo armazenamentos de chave-valor e colunares, para garantir que todos os serviços da equipe se beneficiem do mesmo nível de otimização.

Conteúdo relacionado

C++20 vs. Rust: Desenvolvimento de Sistemas e Segurança

A evolução das linguagens de programação é um tópico fascinante, especialmente quando se trata de comparar duas abordagens tão distintas como C++20 e Rust. Ambas as linguagens desempenham papéis cr...
Diferença entre solda TIG DC e TIG AC: quando usar cada uma

A solda TIG (Tungsten Inert Gas) é uma técnica amplamente utilizada na indústria e construção, conhecida por sua precisão, qualidade e versatilidade. No entanto, existem duas variantes principais d...
Pisos de Granito vs. Pisos de Porcelanato: Qual é a melhor opção para sua casa?

Ao escolher o piso ideal para sua casa, é importante considerar os prós e contras de diferentes opções. Neste artigo, vamos explorar as diferenças entre os pisos de granito e os pisos de porcelanat...
Concreto Pré-Moldado vs. Concreto Usinado: Qual é a melhor opção para Construção?

A escolha entre concreto pré-moldado e concreto usinado é uma decisão crucial para qualquer projeto de construção. Ambas as opções têm suas próprias vantagens e desvantagens, e a seleção da solução...
Cálculo de Esforço de Cisalhamento em Barras de Aço

Cálculo de Esforço de Cisalhamento em Barras de Aço O cálculo de esforço de cisalhamento em barras de aço é um processo fundamental na análise de estruturas de construção, especialmente em engenha...
Cálculo de Esforço Torsional em Barras de Aço

Cálculo de Esforço Torsional em Barras de Aço O cálculo de esforço torsional em barras de aço é uma ferramenta essencial na análise de estruturas metalúrgicas, permitindo calcular o esforço aplica...
China lança Pacote de Estímulos para Estabilizar Produção Siderúrgica

O governo chinês anunciou recentemente um pacote de medidas para apoiar a indústria siderúrgica do país, visando estabilizar a produção e manter os empregos no setor. Essa iniciativa surge em meio ...
7 Medidas do Governo para mitigar os Efeitos da Selic Alta no Setor Industrial

Em 2025, o cenário econômico brasileiro é marcado por uma Selic (taxa básica de juros) elevada, impactando diretamente o setor industrial. Diante desse desafio, o governo federal tem buscado implem...