Equipe de operações de banco de dados da OVHcloud construiu uma infraestrutura de banco de dados escalável e confiável

October 16, 2024 Luciano Bertene

A equipe de operações de banco de dados da OVHcloud transformou a maneira como gerencia e otimiza sua infraestrutura. Desde melhorar a observabilidade até dimensionar hardware e reduzir consultas lentas em 50%, ela construiu com sucesso um serviço de banco de dados escalável e confiável que atende às necessidades de suas equipes internas de produtos.

O Desafio: Uma demanda crescente por Bancos de Dados Escaláveis

A OVHcloud oferece uma vasta gama de serviços de nuvem, e as equipes internas de produtos que desenvolvem esses serviços dependem muito da infraestrutura fornecida pela equipe de operações de banco de dados. Com mais de 100 clusters de banco de dados em produção, a infraestrutura da OVHcloud é construída no Kubernetes, mas pode acomodar máquinas virtuais e servidores bare metal. O desafio, no entanto, está em manter o desempenho ideal em escala, especialmente à medida que o número de serviços e clientes cresce.

A infraestrutura: clusters de banco de dados resilientes e flexíveis

Os clusters de banco de dados que a OVHcloud executa hoje normalmente consistem em três nós. Um nó primário gerencia o tráfego de gravação, enquanto os outros lidam com solicitações somente leitura e backups. A arquitetura é compartilhada entre os bancos de dados PostgreSQL e MySQL, com cada nó projetado para descarregar cargas de trabalho especializadas. Essa configuração permite que as equipes de produtos operem sem ter que pensar em gerenciamento de banco de dados, pois a infraestrutura é dimensionada conforme necessário, suporta backups e equilibra a carga automaticamente.

Melhor observabilidade necessária

Conforme a demanda aumentou, a equipe de banco de dados começou a ter gargalos. As equipes de produtos frequentemente relatavam problemas de desempenho, mas diagnosticar esses problemas provou ser difícil devido à falta de observabilidade. Para resolver isso, a equipe de banco de dados implementou uma pilha de observabilidade, extraindo logs do PostgreSQL e MySQL para um cluster OpenSearch e centralizando as principais métricas em painéis do Grafana. Isso permitiu que a equipe rastreasse o desempenho em tempo real e respondesse mais rapidamente aos problemas.

Atualizando o hardware para aumentar o desempenho

A observabilidade aprimorada revelou que muitos dos problemas de desempenho eram decorrentes de hardware inadequado. A equipe do banco de dados escalou verticalmente, atualizando para CPUs mais rápidas, adicionando mais RAM, melhorando as velocidades de disco e aprimorando a taxa de transferência de rede em todos os seus nós. Essas atualizações foram essenciais para abordar a causa raiz de muitos dos gargalos de desempenho.

A otimização de consultas SQL reduz consultas lentas em 50%

Além das melhorias de hardware, a equipe de banco de dados adotou uma abordagem mais abrangente para a otimização da carga de trabalho. Inicialmente, a equipe observou mais de 2 milhões de consultas lentas por semana em um único banco de dados. Para lidar com isso, a equipe lançou uma iniciativa de otimização contínua de consultas, analisando logs semanalmente e identificando os bancos de dados responsáveis pelo maior número de consultas lentas. Ao fornecer visibilidade sobre o desempenho de bancos de dados específicos e oferecer feedback automatizado aos desenvolvedores, a equipe conseguiu reduzir o número de consultas lentas de mais de dois milhões para menos de 1 milhão em mais de 1.000 bancos de dados.

SLOs: Estabelecendo expectativas claras

A jornada dos membros da equipe em direção à otimização não parou com melhor observabilidade e desempenho de consulta. Eles implementaram SLOs para seus serviços de banco de dados, definindo metas claras de desempenho e garantindo que os bancos de dados atendessem às necessidades das equipes de produtos que atendem. Essa abordagem orientada por SLO ajudou a equipe a manter um desempenho consistente, mesmo enquanto escala.

Melhoria Contínua: Olhando para o Futuro

Embora a equipe de banco de dados da OVHcloud tenha feito avanços significativos, ela continua buscando maneiras de melhorar. Uma iniciativa atualmente em andamento é o desenvolvimento de um modelo de serviço em camadas, oferecendo diferentes níveis de desempenho de banco de dados com base em quão críticas são as cargas de trabalho. À medida que a OVHcloud continua se expandindo, a equipe de banco de dados também está explorando maneiras de estender sua abordagem a outros tipos de bancos de dados, incluindo armazenamentos de chave-valor e colunares, para garantir que todos os serviços da equipe se beneficiem do mesmo nível de otimização.

Conteúdo relacionado

Idris vs. Agda: Explorando a Programação Funcional e a Tipagem Dependente

No mundo em constante evolução da tecnologia, a busca por linguagens de programação cada vez mais poderosas e seguras é uma prioridade. Neste cenário, duas linguagens se destacam: Idris e Agda. Amb...
Kotlin vs. Swift: Qual a Melhor Opção para Desenvolvimento Móvel?

O desenvolvimento móvel é um campo em constante evolução, com duas linguagens de programação dominantes: Kotlin e Swift. Ambas têm suas próprias forças e fraquezas, e a escolha entre elas pode ter ...
Aços Patináveis: A Solução ideal para Estruturas Marítimas e Litorâneas

A indústria da construção civil e infraestrutura marítima enfrenta desafios únicos quando se trata de materiais de construção. Nesses ambientes, os elementos estão sujeitos a uma exposição intensa ...
Reciclagem de Baterias de Veículos Elétricos: O Papel de liderança da China

A China talvez esteja em uma posição privilegiada quando se trata de adoção de veículos elétricos (VE), respondendo por mais de 60% das vendas mundiais em 2022. Essa posição dominante a torna um pa...
Blocos de Concreto com Isolamento Acústico: Soluções Eficientes para Ambientes Silenciosos

Os desafios acústicos em ambientes como hospitais, escolas e escritórios são uma preocupação constante para arquitetos, engenheiros e gestores de instalações. O ruído excessivo pode afetar negativa...
Cálculo de Momento Crítico de Flambagem em Barras de Aço

Cálculo de Momento Crítico de Flambagem em Barras de Aço A flambagem é um fenômeno importante que ocorre em barras de aço quando elas são submetidas a cargas transversais, como por exemplo, moment...
Exportações brasileiras de aço para os EUA crescem apesar das tarifas

Mesmo com a sobretaxa de 25% imposta pelos EUA, as exportações brasileiras de aço e automóveis para o mercado norte-americano cresceram até 20,5% no primeiro trimestre de 2025, mostrando a resiliên...
Como o Controle dos Gastos Públicos beneficia diferentes Setores Industriais

O controle dos gastos públicos é um tema recorrente nas discussões sobre políticas econômicas. Embora muitas vezes visto como uma medida restritiva, essa abordagem pode trazer benefícios significat...