Como resolver problemas de inicialização a frio e pressão de disco no Kubernetes

October 2, 2024 Luciano Bertene

Um dia, durante uma atualização planejada do cluster k8s, descobrimos que quase todos os nossos PODs (aproximadamente 500 de 1.000) em novos nós não conseguiam iniciar, e os minutos rapidamente se transformaram em horas. Fomos ativamente procurados pela causa raiz, mas depois de três horas, os PODS ainda estavam no ContainerCreatingstatus. Felizmente, esse não era o ambiente de produção e a janela de manutenção estava programada para o fim de semana. Tivemos tempo para investigar o problema sem nenhuma pressão.

Onde você deve começar sua busca pela causa raiz? Gostaria de saber mais sobre a solução que encontramos? Aperte o cinto e aproveite!

Mais detalhes sobre o problema

O problema era que tínhamos um grande número de imagens docker que precisavam ser extraídas e iniciadas em cada nó do cluster ao mesmo tempo. Isso acontecia porque várias extrações simultâneas de imagens docker em um único nó podem levar a alta utilização do disco e tempos de inicialização a frio estendidos.

De tempos em tempos, o processo de CD leva até 3 horas para puxar as imagens. No entanto, desta vez ele travou completamente, porque a quantidade de PODS durante a atualização do EKS (inline, quando substituímos todos os nós no cluster) era muito alta.

Todos os nossos aplicativos vivem no k8s (baseado em EKS). Para economizar em nossos custos para DEV env, usamos instâncias spot. Usamos a imagem AmazonLinux2 para os nós.

Temos um grande número de ramos de recursos (FBs) no ambiente de desenvolvimento que são continuamente implantados em nossoKubernetescluster. Cada FB tem seu próprio conjunto de aplicativos, e cada aplicativo tem seu próprio conjunto de dependências (dentro de uma imagem).

Em nosso projeto, quase 200 apps e esse número está crescendo. Cada app usa uma das 7 imagens base do docker com um tamanho de ~2 GB. O tamanho total máximo da imagem arquivada (no ECR ) é de cerca de 3 GB.

Todas as imagens são armazenadas no Amazon Elastic Container Registry (ECR). Usamos o tipo de volume EBS gp3 padrão para os nós.

Problemas enfrentados

Tempo de inicialização a frio estendido: iniciar um novo pod com uma nova imagem pode levar mais de 1 hora, principalmente quando várias imagens são extraídas simultaneamente em um único nó.
Erros ErrImagePull: frequentes ErrImagePullou travados nos ContainerCreatingestados, indicando problemas com a extração de imagens.
Alta utilização do disco: a utilização do disco permanece próxima de 100% durante o processo de extração da imagem, principalmente devido à E/S intensiva do disco necessária para descompactação (por exemplo, "unpigz").
Problemas com o DaemonSet do sistema: alguns DaemonSets do sistema (como aws-nodeou ebs-csi-node) foram movidos para o estado "não pronto" devido à pressão do disco, impactando a prontidão do nó.
Nenhum cache de imagem nos nós: como estamos usando instâncias spot, não podemos usar o disco local para armazenar imagens em cache.

Isso resulta em muitas implantações paralisadas em ramificações de recursos, principalmente porque cada FB tem um conjunto diferente de imagens base.

Após uma rápida investigação, descobrimos que o problema principal era a pressão do disco nos nós pelo unpigzprocesso. Esse processo é responsável por descompactar as imagens do docker. Não alteramos as configurações padrão para o tipo de volume gp3 EBS, porque não é adequado para o nosso caso.

Hotfix para recuperar o cluster

Como primeiro passo, decidimos reduzir o número de PODs nos nós.

Movemos os novos nós para o estado "Cordon"
Remova todos os PODS presos para reduzir a pressão do disco
Execute um por um os PODs para aquecer os nós
Depois disso, movemos os nós aquecidos para o estado normal ("unCordon")
Foram removidos todos os nós no estado travado
Todos os PODS foram iniciados com sucesso usando o cache de imagem do Docker

Um design original de CI/CD

A ideia principal da solução é aquecer os nós antes do processo de CD começar pela maior parte da imagem do docker (camada de dependências JS), que usa como imagem raiz para todos os nossos aplicativos. Temos pelo menos 7 tipos de imagens raiz com as dependências JS, que estão relacionadas ao tipo do aplicativo.

Em nosso pipeline de CI/CD, temos 3 pilares:

Na Initetapa de TI: preparamos o ambiente/variáveis, definimos o conjunto de imagens a serem reconstruídas, etc…
Na Buildetapa: construímos as imagens e as enviamos para o ECR
Na Deployetapa: implantamos as imagens no k8s (atualização de implantações, etc…)

Nossos feature branches (FB) bifurcaram-se do mainbranch. No processo de CI, sempre analisamos o conjunto de imagens que foram alteradas no FB e as reconstruímos. O mainbranch é sempre estável, pois a definição, deve haver sempre a versão mais recente das imagens base.

Nós construímos separadamente as imagens docker de dependências JS (para cada ambiente) e as enviamos para o ECR para reutilizá-las como a imagem raiz (base) no Dockerfile. Temos cerca de 5 a 10 tipos de imagem docker de dependências JS.

O FB é implantado no cluster k8s para o namespace separado, mas para os nós comuns para o FB. O FB pode ter ~200 apps, com o tamanho da imagem de até 3 GB.

Temos o sistema de dimensionamento automático de cluster, que dimensiona os nós no cluster com base na carga ou PODS pendentes com o nodeSelector e a tolerância adequados. Usamos as instâncias spot para os nós.

Implementação do processo de aquecimento

Há requisitos para o processo de aquecimento:

Obrigatório:

Resolução de problemas: aborda e resolve ContainerCreatingproblemas.
Desempenho aprimorado: reduz significativamente o tempo de inicialização utilizando imagens base pré-aquecidas (dependências JS).

É bom ter melhorias:

Flexibilidade: permite alterações fáceis no tipo de nó e sua vida útil (por exemplo, SLA alto ou tempo de vida útil estendido).
Transparência: fornece métricas claras sobre uso e desempenho.
Eficiência de custos: economiza custos excluindo o VNG imediatamente após a exclusão do ramo de recurso associado.
Isolamento: Esta abordagem garante que outros ambientes não sejam afetados.

Solução

Após analisar os requisitos e restrições, decidimos implementar um processo de aquecimento que pré-aqueceria os nós com as imagens de cache JS base. Esse processo seria acionado antes do início do processo de CD, garantindo que os nós estejam prontos para a implantação do FB e que tenhamos uma chance máxima de atingir o cache.

Dividimos essa melhoria em três grandes etapas:

Crie o conjunto de nós (Grupo de Nós Virtuais) para cada FB
Adicione imagens base ao script cloud-init para os novos nós
Adicione uma etapa de pré-implantação para executar o DaemonSet com a initContainersseção para baixar as imagens do docker necessárias para os nós antes do início do processo de CD.

Um pipeline de CI/CD atualizado

Etapa de inicialização 1.1. (nova etapa) Implantação de inicialização: se for a primeira inicialização do FB, crie um novo conjunto pessoal de instâncias de nó (em nossos termos, é Virtual Node Group ou VNG) e baixe todas as imagens base JS (5–10 imagens) do branch principal. É justo fazer isso, porque bifurcamos o FB do branch principal. Um ponto importante: não é uma operação de bloqueio.

Etapa de pré-implantação 3.1. (nova etapa) Baixe imagens base JS recém-assadas com a tag FB específica do ECR. Pontos importantes: É uma operação de bloqueio, porque devemos reduzir a pressão do disco. Uma por uma, baixamos as imagens base para cada nó relacionado.

Etapa de implantação Não há alterações nesta etapa. Mas, graças à etapa anterior, já temos todas as camadas de imagem docker pesadas nos nós necessários.

Implementar

Crie um novo conjunto de nós para cada FB por meio de chamada de API (para o sistema de dimensionamento automático de terceiros) do nosso pipeline de CI.

Problemas resolvidos:

Isolamento: Cada FB tem seu próprio conjunto de nós, garantindo que o ambiente não seja afetado por outros FBs.
Flexibilidade: Podemos alterar facilmente o tipo de nó e sua vida útil.
Eficiência de custos: podemos excluir os nós imediatamente após a exclusão do FB.
Transparência: Podemos rastrear facilmente o uso e o desempenho dos nós (cada nó tem uma tag relacionada ao FB).
Uso efetivo das instâncias spot: a instância spot começa com imagens base já predefinidas, ou seja, depois que o nó spot é iniciado, já existem imagens base no nó (da ramificação principal).

Baixe todas as imagens base JS do branch principal para os novos nós via cloud-initscript.

Problemas resolvidos:

Resolução do problema: A pressão do disco acabou, porque atualizamos o cloud-initscript adicionando o download das imagens base do branch principal. Isso nos permite atingir o cache na primeira inicialização do FB.
Uso efetivo das instâncias spot: A instância spot está começando com dados atualizados cloud-init. Isso significa que, depois que o nó spot começa, já existem imagens base no nó (do branch principal).
Desempenho aprimorado: o processo de CD pode continuar a criar novas imagens sem problemas.

Etapa de pré-implantação

Precisamos dessa etapa porque as imagens do FB são diferentes das imagens do branch principal. Precisamos baixar as imagens base do FB para os nós antes do processo de CD começar. Isso ajudará a mitigar os tempos estendidos de inicialização a frio e a alta utilização do disco que podem ocorrer quando várias imagens pesadas são extraídas simultaneamente.

Objetivos da etapa de pré-implantação:

Prevenir pressão de disco: Baixe sequencialmente as imagens mais pesadas do docker. Após a etapa init-deploy, já temos as imagens base nos nós, o que significa que temos uma grande chance de atingir o cache.
Melhore a eficiência da implantação: garanta que os nós sejam pré-aquecidos com imagens do Docker essenciais, resultando em tempos de inicialização do POD mais rápidos (quase imediatamente).
Melhore a estabilidade: minimize as chances de encontrar ErrImagePullerros ContainerCreatinge garanta que os conjuntos de daemons do sistema permaneçam em um estado "pronto".

Detalhes da etapa de pré-implantação:

No CD criamos um DaemonSet com a initContainersseção. A initContainersseção é executada antes do início do contêiner principal, garantindo que as imagens necessárias sejam baixadas antes do início do contêiner principal.
No CD, estamos continuamente verificando o status do daemonSet. Se o daemonSet estiver em um estado "pronto", prosseguimos com a implantação. Caso contrário, esperamos que o daemonSet esteja pronto.

Conteúdo relacionado

Prolog vs. Lisp: Explorando a Programação Lógica e Funcional

A escolha da linguagem de programação certa pode fazer toda a diferença no desenvolvimento de aplicativos complexos e sistemas inteligentes. Neste post, vamos mergulhar na comparação entre duas abo...
Haskell vs. OCaml: Escolhendo a Linguagem Funcional Ideal para o seu Projeto

Na era da computação moderna, onde a eficiência e a confiabilidade são cruciais, a escolha da linguagem de programação certa pode fazer toda a diferença. Neste artigo, vamos explorar as característ...
Dylan vs. Smalltalk: Programação Dinâmica e Orientada a Objetos

Quando se trata de linguagens de programação, a diversidade é abundante, cada uma com suas próprias características, forças e aplicações específicas. Neste blog, vamos mergulhar na comparação entre...
JRuby vs. Groovy: Desenvolvimento JVM Dinâmico

A escolha entre JRuby e Groovy pode ser um desafio para desenvolvedores que trabalham em ambientes Java. Ambas as linguagens oferecem vantagens únicas, mas é importante entender as diferenças para ...
V vs. Zig: Linguagem Certa para Desenvolvimento de Sistemas e Segurança

Na era digital em constante evolução, a escolha da linguagem de programação certa se torna cada vez mais crucial para o desenvolvimento de sistemas eficientes e seguros. Neste artigo, vamos explora...
Crystal vs. Nim: Desenvolvimento de Sistemas e Performance

O mundo do desenvolvimento de software está em constante evolução, e as linguagens de programação desempenham um papel fundamental nesse cenário. Duas linguagens que têm ganhado destaque são o Crys...
Tcl vs. Expect: Explorando as diferenças na Automação de Tarefas

A evolução da tecnologia trouxe consigo uma série de ferramentas e linguagens de programação que visam facilitar a automatização de tarefas. Neste cenário, duas opções se destacam: Tcl (Tool Comman...
Idris vs. Agda: Explorando a Programação Funcional e a Tipagem Dependente

No mundo em constante evolução da tecnologia, a busca por linguagens de programação cada vez mais poderosas e seguras é uma prioridade. Neste cenário, duas linguagens se destacam: Idris e Agda. Amb...
Jai vs. Odin: Linguagem Certa para Desenvolvimento de Sistemas de Alto Desempenho

Quando se trata de desenvolvimento de sistemas e aplicações de alto desempenho, a escolha da linguagem de programação certa pode fazer toda a diferença. Neste post, vamos explorar duas opções promi...
Jai vs. V: Qual a melhor linguagem para desenvolvimento de sistemas de alto desempenho?

A escolha da linguagem de programação certa pode fazer uma grande diferença no desempenho e eficiência de um sistema. Neste post, vamos comparar duas linguagens emergentes, Jai e V, que estão se de...
Pony vs. Ponylang: Concorrência e o Desenvolvimento de Sistemas

A indústria de tecnologia está em constante evolução, e as linguagens de programação desempenham um papel fundamental nesse cenário. Duas linguagens que têm chamado a atenção são o Pony e o Ponylan...
Q# vs. Qiskit: Diferenças no Desenvolvimento de Computação Quântica

A computação quântica tem sido um campo em rápida evolução, com diversas linguagens e frameworks surgindo para permitir que desenvolvedores explorem esse novo paradigma computacional. Neste post, v...
TypeScript vs. Dart: Quam melhor para Desenvolvimento de Aplicativos Web e Móveis?

A escolha entre TypeScript e Dart é uma decisão importante para qualquer desenvolvedor que esteja construindo aplicativos web e móveis. Ambas as linguagens oferecem recursos poderosos e têm suas pr...
Q# vs. Qiskit: Diferenças no Desenvolvimento de Computação Quântica

A computação quântica tem sido um campo em rápida evolução, com diversas linguagens e frameworks surgindo para atender às necessidades dos desenvolvedores. Neste artigo, vamos explorar duas das pri...
AutoIt vs. AutoHotkey: Ferramentas Poderosas para Automação de Tarefas no Windows

Neste mundo digital em constante evolução, a necessidade de automatizar tarefas rotineiras e aumentar a produtividade é cada vez mais evidente. Duas ferramentas que se destacam nesse cenário são o ...
C++20 vs. Rust: Desenvolvimento de Sistemas e Segurança

A evolução das linguagens de programação é um tópico fascinante, especialmente quando se trata de comparar duas abordagens tão distintas como C++20 e Rust. Ambas as linguagens desempenham papéis cr...
Haxe vs. CoffeeScript: Melhor Opção para Desenvolvimento Multiplataforma

Na era digital em constante evolução, a escolha da linguagem de programação certa pode fazer toda a diferença no sucesso de um projeto. Duas opções que têm se destacado no cenário do desenvolviment...
Lua vs. JavaScript: Linguagens para Desenvolvimento de Jogos e Scripts

Quando se trata de desenvolvimento de jogos e scripts, a escolha da linguagem de programação certa pode fazer toda a diferença. Duas opções populares neste cenário são Lua e JavaScript, cada uma co...
Haxe vs. Dart: Escolhendo a melhor opção para Desenvolvimento Multiplataforma

Quando se trata de desenvolvimento multiplataforma, duas linguagens de programação se destacam: Haxe e Dart. Ambas oferecem soluções poderosas para criar aplicativos que funcionam em diferentes pla...
Vala vs. C#: Linguagem para Desenvolvimento de Aplicativos Linux e Windows

Ao escolher uma linguagem de programação para o desenvolvimento de aplicativos, é importante considerar as características e os recursos oferecidos por cada uma. Neste artigo, vamos comparar duas l...
Groovy vs. Java: Desenvolvimento de Aplicativos Dinâmicos

Quando se trata de desenvolvimento de aplicativos, os programadores têm uma variedade de opções à sua disposição. Duas linguagens de programação que têm se destacado nesse cenário são o Groovy e o ...
F# vs. Scala: Programação Funcional e Orientada a Objetos

A escolha da linguagem de programação certa pode fazer uma grande diferença no sucesso de um projeto. Neste artigo, vamos explorar as características e aplicações de duas linguagens populares: F# e...
Common Lisp vs. Scheme: Explorando a Programação Funcional Acadêmica

A programação funcional tem sido um campo fascinante na ciência da computação, com linguagens como Common Lisp e Scheme desempenhando papéis importantes no desenvolvimento dessa paradigma. Neste ar...
Groovy vs. JRuby: Escolhendo a Linguagem Dinâmica Ideal para o seu Projeto JVM

A escolha da linguagem de programação certa pode fazer uma grande diferença no sucesso de um projeto de software. Quando se trata de desenvolvimento JVM (Java Virtual Machine), duas opções dinâmica...
Smalltalk vs. Ruby: Qual a Melhor Linguagem de Programação Orientada a Objetos?

Quando se trata de desenvolvimento de software, a escolha da linguagem de programação é fundamental. Duas opções que têm se destacado no cenário do desenvolvimento orientado a objetos são o Smallta...
Dylan vs. Common Lisp: Explorando a Programação Dinâmica e Funcional

A escolha da linguagem de programação certa pode fazer toda a diferença no desenvolvimento de sistemas complexos. Neste artigo, vamos explorar duas opções poderosas: Dylan e Common Lisp. Ambas ofer...
Pascal vs. Delphi: Linguagem para Desenvolvimento de Aplicativos Desktop

Na era digital em constante evolução, a escolha da linguagem de programação certa pode fazer toda a diferença no desenvolvimento de aplicativos desktop. Duas opções que têm se destacado nesse cenár...
OCaml vs. F#: Comparando Linguagens Funcionais e de Tipagem Estática

Na era da computação moderna, onde a eficiência e a confiabilidade são cruciais, as linguagens de programação funcionais e de tipagem estática têm se destacado como opções poderosas. Neste artigo, ...
TypeScript vs. JavaScript: Tipagem Estática e Escalabilidade

Em 2025, a adoção de TypeScript deve aumentar em projetos de grande escala. Como uma superset do JavaScript, o TypeScript adiciona recursos de tipagem estática, melhorando a segurança e escalabilid...
Go vs. Python: Concorrência e Simplicidade

Em 2025, a escolha entre Go e Python para desenvolvimento de back-end e sistemas distribuídos se torna cada vez mais relevante. Ambas as linguagens possuem características únicas que as tornam atra...
Go vs. Java: Concorrência e Escalabilidade

Go (ou Golang) e Java são duas linguagens amplamente utilizadas para o desenvolvimento de aplicações robustas e de alta performance. No entanto, quando o assunto é concorrência e escalabilidade, ca...
Rust vs. C++: Segurança vs. Performance

Em 2025, a escolha entre Rust e C++ continua sendo um tópico de grande debate entre desenvolvedores de software. Ambas as linguagens são conhecidas por sua ênfase na performance, mas Rust se destac...
Kotlin vs. Java: Desenvolvimento Android Moderno em 2025

Em 2025, o desenvolvimento de aplicativos Android continua a evoluir rapidamente, com a linguagem Kotlin consolidando sua posição como a escolha preferida dos desenvolvedores. Desde que a Google a ...
Julia vs. Python: Velocidade e Análise de Dados

Em 2025, a linguagem de programação Julia está ganhando cada vez mais atenção no mundo da análise de dados e ciência de dados. Embora Python ainda seja a linguagem dominante nessas áreas, Julia vem...
COBOL vs. Visual Basic: Legado e Desenvolvimento Rápido

Nos dias atuais, as empresas enfrentam um desafio constante de equilibrar a necessidade de manter sistemas legados robustos e a demanda por soluções de desenvolvimento rápido e inovadoras. Neste ce...
C# vs. F#: Linguagem Certa para o seu Projeto

Como desenvolvedores, enfrentamos constantemente o desafio de escolher a linguagem de programação mais adequada para nossos projetos. Neste artigo, vamos explorar as diferenças entre C# e F#, duas ...
Kotlin vs. Swift: Qual a Melhor Opção para Desenvolvimento Móvel?

O desenvolvimento móvel é um campo em constante evolução, com duas linguagens de programação dominantes: Kotlin e Swift. Ambas têm suas próprias forças e fraquezas, e a escolha entre elas pode ter ...
MATLAB vs. R: Qual a melhor ferramenta para análise de dados e simulações?

A escolha entre MATLAB e R é uma decisão importante para profissionais que trabalham com análise de dados, modelagem e simulações. Ambas as ferramentas possuem pontos fortes e fracos, e a seleção d...
Elixir vs. Java: Concorrência e Desenvolvimento de Aplicativos

A escolha da linguagem de programação certa pode fazer uma grande diferença no desenvolvimento de aplicativos, especialmente quando se trata de concorrência e escalabilidade. Neste artigo, vamos co...
Clojure vs. Kotlin: Linguagem para seu Desenvolvimento JVM e Concorrência

Na era da computação moderna, onde a complexidade dos sistemas e a necessidade de escalabilidade são cada vez mais desafiadoras, a escolha da linguagem de programação certa pode fazer toda a difere...
Bash vs. Perl: Linguagens de Scripting e Processamento de Texto

Em um mundo cada vez mais automatizado, a escolha da linguagem de script certa pode fazer toda a diferença na eficiência e produtividade de suas tarefas. Neste artigo, vamos explorar as característ...
Python vs. Perl: Análise de Dados e Scripting

A escolha entre Python e Perl é uma decisão importante para muitos profissionais que trabalham com análise de dados e automação de tarefas. Ambas as linguagens têm seus pontos fortes e aplicações e...
Haskell vs. Scala: Programação Funcional e Tipagem Estática

Na era da computação moderna, onde a eficiência e a escalabilidade são cruciais, a escolha da linguagem de programação certa pode fazer toda a diferença. Duas opções que se destacam nesse cenário s...
Assembly vs. C: Baixo Nível e Performance

A escolha entre Assembly e C é uma decisão importante para desenvolvedores que precisam lidar com requisitos de alto desempenho e controle de baixo nível. Ambas as linguagens oferecem vantagens e d...
Scratch vs. Python: Qual a Melhor Linguagem de Programação para Iniciantes?

Quando se trata de aprender a programar, existem diversas opções de linguagens disponíveis, cada uma com suas próprias características e aplicações. Duas das linguagens mais populares para iniciant...
PHP vs. Ruby: Qual a Melhor Opção para Desenvolvimento Web Dinâmico?

Quando se trata de desenvolvimento web dinâmico, duas linguagens de programação se destacam: PHP e Ruby. Ambas têm suas próprias forças e fraquezas, e a escolha entre elas pode fazer uma grande dif...
SQL vs. NoSQL: Solução de Gerenciamento de Dados para sua Empresa

Na era digital em que vivemos, a gestão eficiente de dados tornou-se fundamental para o sucesso de qualquer negócio. Empresas de todos os tamanhos e setores enfrentam o desafio de armazenar, proces...
C vs. Fortran: Desempenho e Simulações Científicas

A escolha da linguagem de programação certa pode fazer uma grande diferença no desempenho e eficiência de aplicações científicas e de engenharia. Duas opções populares neste contexto são C e Fortra...
Integração da Inteligência Artificial no Desenvolvimento de Software: Impulsionando a Inovação e a Eficiência

Em 2025, a Inteligência Artificial (IA) se tornou uma ferramenta indispensável no desenvolvimento de software, transformando a maneira como os programadores trabalham e as soluções que eles criam. ...
Linguagens de Programação em Ascensão: Explorando as Tendências Emergentes

A indústria de tecnologia está em constante evolução, com novas linguagens de programação surgindo e ganhando popularidade a cada ano. Neste blog, vamos explorar algumas das linguagens de programaç...
Ecossistema de Aplicativos: 5 coisas essenciais para se ter dominio

Os ecossistemas de aplicativos estão se expandindo e se tornando mais complexos com o surgimento de aplicativos baseados em IA, esforços de modernização e novas iniciativas. Embora eu não ache que ...