Segurança no mundo do GitHub Copilot: Maximizando os benefícios e minimizando os risos

October 20, 2024 Luciano Bertene

O GitHub Copilot, uma ferramenta de conclusão de código baseada em Inteligência Artificial (IA), provavelmente não precisa de apresentações. Os desenvolvedores estão rapidamente adotando essa tecnologia em evolução para ajudá-los em seu trabalho. O Copilot e outros assistentes de codificação baseados em Large Language Model (LLM) sugerem linhas de código e funções inteiras, economizando muito tempo na busca por formulações específicas ou ajudando a estruturar estruturas comuns no código. Também é ótimo para ajudar uma equipe a escrever documentação.

No entanto, o Copilot é seguro? Por mais benéfico que seja, ele também traz preocupações significativas de segurança e privacidade das quais desenvolvedores e organizações individuais devem estar cientes. O primeiro passo para proteger você e sua equipe é entender as armadilhas que devem ser evitadas enquanto aproveitamos essas ferramentas úteis para nos ajudar a trabalhar com mais eficiência.

Como o GitHub Copilot é treinado

Para entender melhor o que proteger, é importante lembrar como os dados acabam nesses LLMs. O GitHub Copilot ingere uma grande quantidade de dados de treinamento de uma ampla variedade de fontes. Esses são os dados aos quais ele faz referência ao responder aos prompts do usuário. Essas fontes de treinamento incluem todos os códigos dos repositórios públicos do GitHub e, essencialmente, toda a internet pública.

Importante, o Copilot também aprende com os prompts que os usuários inserem ao fazer perguntas. Se você copiar/colar código ou dados em qualquer LLM público, estará encorajando a IA a compartilhar seu trabalho. Para projetos de código aberto ou informações públicas, não há muito perigo aqui na superfície, pois provavelmente já foi treinado nisso. Mas é aqui que o perigo realmente começa para código e dados internos e privados.

Preocupações de segurança com o GitHub Copilot

Abaixo estão apenas algumas das questões que você deve estar ciente e observar ao utilizar qualquer ferramenta de assistência de código em seu fluxo de trabalho de desenvolvimento.

Possível vazamento de segredos e código privado

O GitHub Copilot pode sugerir trechos de código que contenham informações confidenciais, incluindo chaves para seus dados e recursos de máquina. Isso está no topo da nossa lista, pois significa que um invasor pode potencialmente aproveitar o Copilot para ganhar uma posição inicial.

Embora algumas salvaguardas estejam em vigor, a reformulação inteligente do prompt pode gerar sugestões que contenham credenciais válidas. Este é um caminho muito atraente para invasores que buscam maneiras de obter acesso para fins maliciosos.

Os invasores também estão procurando por pistas sobre seus aplicativos e ambientes. Se eles descobrirem que você está usando uma versão desatualizada de algum software, especialmente um componente em seu aplicativo com uma falha conhecida e facilmente explorada, então esse é provavelmente um caminho de ataque que eles tentarão explorar. Embora demore mais para executar do que usar uma chave de API descoberta, isso ainda é uma preocupação séria para qualquer empresa.

Sugestões de código inseguro

Embora adoraríamos dizer que o ChatGPT e o Copilot apenas sugerem códigos e configurações completamente seguros, a realidade é que as sugestões serão tão boas quanto os dados em que são treinadas. Por definição, o Copilot é uma média do trabalho compartilhado de todos os desenvolvedores. Infelizmente, todas as falhas de segurança adicionadas a todas as bases de código públicas conhecidas são parte do corpus no qual ele baseia suas sugestões.

Os dados nos quais ele é treinado também estão envelhecendo rapidamente e não conseguem acompanhar os últimos avanços em ameaças e vulnerabilidades. Código que estaria bem até mesmo alguns anos atrás, graças a novos CVEs e novas técnicas de ataque, às vezes simplesmente não está à altura dos desafios modernos.

Dados envenenados podem significar código malicioso

Recentemente, uma equipe de pesquisa descobriu um método de injeção de amostras de código malicioso difíceis de detectar, usadas para envenenar assistentes de IA de conclusão de código para sugerir código vulnerável. Invasores trabalhando para atrair desenvolvedores a usar código propositalmente inseguro não é um fenômeno novo, mas os invasores estão começando a confiar em desenvolvedores simplesmente confiando nas sugestões de código de seu amigável Copiloto e não examinando-o excessivamente em busca de falhas de segurança. Por outro lado, encontrar e usar uma amostra de código aleatória no StackOverflow provavelmente faria todo desenvolvedor hesitar, especialmente se fosse muito votado negativamente.

Pacote Alucinação Agachamento

Um dos problemas mais perturbadores em todas as IAs é que elas simplesmente inventam coisas. Ao fazer perguntas triviais, essas alucinações podem ser bem divertidas às vezes. Ao escrever código, esse problema pode ser bem irritante e, cada vez mais, bem perigoso.

No melhor dos cenários, o pacote que o Copilot sugere simplesmente não existe, e você precisará encontrar uma alternativa. Isso tira você do seu fluxo e desperdiça seu tempo. Um pesquisador relatou que até 30% de todos os pacotes sugeridos pelo ChatGPT eram alucinações.

Os invasores estão bem cientes desse problema e começaram a aproveitá-lo para encontrar alucinações comumente sugeridas e registrar esses pacotes eles mesmos. Os mais espertos deles clonarão pacotes semelhantes que executam a funcionalidade que o Copilot descreve e, em seguida, ocultarão código malicioso dentro deles, contando com o desenvolvedor para não olhar muito de perto. Essa prática é semelhante ao typosquatting; portanto, a comunidade de segurança apelidou esse problema de "hallucination squatting".

Um dos problemas mais comumente negligenciados com o código sugerido por qualquer LLM é entender o licenciamento do código sugerido. Quando o Copilot gera código, ele nem sempre fornece atribuição clara à fonte original. Isso não representa um problema para licenças permissivas como Apache ou MIT. Mas e se você injetar um pedaço de código licenciado por copyleft, como a GPL, que exige que a inclusão desse código torne toda a base de código open-source? O que suas equipes jurídicas e de conformidade dizem sobre isso? Se você duvida se pode incluir o código, ele provavelmente deve ser deixado de fora do seu projeto.

Preocupações com a privacidade do GitHub Copilot

Além das preocupações com segurança que já abordamos, a privacidade é outra classe de preocupação a ser abordada. As leis de privacidade diferem entre jurisdições, mas essas questões afetam nossos usuários, as mesmas pessoas que queremos trabalhar para manter seguras.

Compartilhando código privado

Conforme mencionado antes, o GitHub Copilot coleta dados sobre interações do usuário, incluindo o código que os usuários escrevem e como os usuários respondem às sugestões que ele gera. Embora o objetivo seja ajudar a refinar o modelo e dar a todos uma experiência melhor, para desenvolvedores trabalhando em projetos sensíveis ou proprietários, isso levanta algumas preocupações muito sérias de privacidade. Sua organização pode não querer que seu código ou práticas de desenvolvimento sejam analisados ou armazenados pelo GitHub, mesmo que seja para melhorar o desempenho da IA.

Retenção de Dados do Usuário

A comunidade tem muitas perguntas sobre quanto tempo os LLMs retêm dados do usuário, como eles são armazenados e o que especificamente está lá. As empresas se esforçam muito para proteger os dados do usuário e mantê-los seguros. Usar dados reais para criar uma consulta é uma tentação para os desenvolvedores, especialmente se você puder simplesmente carregar uma pasta .zip e pedir à IA para gerar o código necessário para executar análises ou transformá-lo para outro uso. Compartilhar esses dados também pode violar diretamente regulamentações como GDPR ou CCPA.

Usando o GitHub Copilot com segurança

Apesar de todas essas preocupações, o GitHub Copilot ainda pode ser uma ferramenta muito valiosa se usado com cautela. Aqui estão nossas sugestões para evitar esses riscos comuns de segurança e privacidade.

Revise as sugestões de código cuidadosamente

Assim como você provavelmente não executaria código aleatório e não testado, mesmo localmente, você deve examinar qualquer código sugerido pelo Copilot ou qualquer outra ferramenta de assistência de IA. Lembre-se de tratar as sugestões do Copilot como — sugestões. Leia o que está lá cuidadosamente para ver se faz sentido e com a intenção de usá-lo como uma ferramenta de aprendizado. Nós o encorajamos a sempre verificar se o código sugerido atende aos padrões de codificação e diretrizes de segurança da sua organização. Lembre-se sempre de que é sua responsabilidade uma vez que o código é enviado.

Evite usar segredos em seu código

Reconhecendo que, de acordo com sua documentação, o GitHub Copilot for Business não treina em seu código privado, ainda é crucial não compartilhar seus segredos em lugar nenhum, se possível. Você pode pensar que seria difícil ou intencional copiar/colar suas credenciais em uma ferramenta de assistência de IA. No entanto, se você integrou o Copilot em seu IDE ou editor, ele está sempre lendo seu código e tentando antecipar o que você precisa em seguida. A única maneira verdadeira de evitar que segredos vazem em uma ferramenta de assistência de código, ou em qualquer outro lugar, é eliminar quaisquer credenciais de texto simples do código.

Ajuste suas configurações de privacidade do Copilot

O GitHub fornece configurações que permitem que os usuários controlem alguns aspectos do compartilhamento de dados com o Copilot. Revise e configure essas configurações para minimizar o compartilhamento de dados sempre que possível, especialmente em ambientes onde a privacidade é uma preocupação significativa.

Treine desenvolvedores sobre as melhores práticas de segurança

Os desenvolvedores estão na linha de frente, entregando recursos e aplicativos em uma taxa cada vez maior. Devemos trabalhar para garantir que qualquer desenvolvedor que use o Copilot esteja ciente das ameaças e treinado nas melhores práticas de segurança da sua organização. Os desenvolvedores, especialmente os menos experientes, precisam entender os riscos potenciais de depender muito do código gerado por IA.

Precisamos encontrar um equilíbrio, no entanto, e não simplesmente desencorajar todo o uso do Copilot, pois as ferramentas de assistência de IA não vão desaparecer e provavelmente só ganharão adoção mais ampla em um futuro próximo. A segurança precisa deixar de ser o "departamento do não", precisando se tornar conhecida como a equipe que capacita os desenvolvedores a trabalhar de forma mais segura e eficiente no geral.

Conclusão

O GitHub Copilot é uma ferramenta cada vez mais valiosa que pode acelerar significativamente a experiência de codificação e reduzir parte do trabalho que os desenvolvedores enfrentam diariamente. Precisamos lembrar que ele não está isento de desafios de segurança e privacidade. Desenvolvedores e organizações precisam deliberar sobre como adotar e usar o Copilot. Como acontece com qualquer nova tecnologia, a chave está em equilibrar os benefícios com as potenciais desvantagens, tomar decisões informadas e priorizar a segurança e a privacidade em cada etapa.

Como com qualquer código, você deve sempre ter cuidado para não incluir informações sensíveis, como dados de clientes ou credenciais de texto simples em seus prompts. Isso é especialmente verdadeiro ao alavancar LLMS público.

Conteúdo relacionado

Prolog vs. Lisp: Explorando a Programação Lógica e Funcional

A escolha da linguagem de programação certa pode fazer toda a diferença no desenvolvimento de aplicativos complexos e sistemas inteligentes. Neste post, vamos mergulhar na comparação entre duas abo...
Haskell vs. OCaml: Escolhendo a Linguagem Funcional Ideal para o seu Projeto

Na era da computação moderna, onde a eficiência e a confiabilidade são cruciais, a escolha da linguagem de programação certa pode fazer toda a diferença. Neste artigo, vamos explorar as característ...
Dylan vs. Smalltalk: Programação Dinâmica e Orientada a Objetos

Quando se trata de linguagens de programação, a diversidade é abundante, cada uma com suas próprias características, forças e aplicações específicas. Neste blog, vamos mergulhar na comparação entre...
JRuby vs. Groovy: Desenvolvimento JVM Dinâmico

A escolha entre JRuby e Groovy pode ser um desafio para desenvolvedores que trabalham em ambientes Java. Ambas as linguagens oferecem vantagens únicas, mas é importante entender as diferenças para ...
V vs. Zig: Linguagem Certa para Desenvolvimento de Sistemas e Segurança

Na era digital em constante evolução, a escolha da linguagem de programação certa se torna cada vez mais crucial para o desenvolvimento de sistemas eficientes e seguros. Neste artigo, vamos explora...
Crystal vs. Nim: Desenvolvimento de Sistemas e Performance

O mundo do desenvolvimento de software está em constante evolução, e as linguagens de programação desempenham um papel fundamental nesse cenário. Duas linguagens que têm ganhado destaque são o Crys...
Tcl vs. Expect: Explorando as diferenças na Automação de Tarefas

A evolução da tecnologia trouxe consigo uma série de ferramentas e linguagens de programação que visam facilitar a automatização de tarefas. Neste cenário, duas opções se destacam: Tcl (Tool Comman...
Idris vs. Agda: Explorando a Programação Funcional e a Tipagem Dependente

No mundo em constante evolução da tecnologia, a busca por linguagens de programação cada vez mais poderosas e seguras é uma prioridade. Neste cenário, duas linguagens se destacam: Idris e Agda. Amb...
Jai vs. Odin: Linguagem Certa para Desenvolvimento de Sistemas de Alto Desempenho

Quando se trata de desenvolvimento de sistemas e aplicações de alto desempenho, a escolha da linguagem de programação certa pode fazer toda a diferença. Neste post, vamos explorar duas opções promi...
Jai vs. V: Qual a melhor linguagem para desenvolvimento de sistemas de alto desempenho?

A escolha da linguagem de programação certa pode fazer uma grande diferença no desempenho e eficiência de um sistema. Neste post, vamos comparar duas linguagens emergentes, Jai e V, que estão se de...
Pony vs. Ponylang: Concorrência e o Desenvolvimento de Sistemas

A indústria de tecnologia está em constante evolução, e as linguagens de programação desempenham um papel fundamental nesse cenário. Duas linguagens que têm chamado a atenção são o Pony e o Ponylan...
Q# vs. Qiskit: Diferenças no Desenvolvimento de Computação Quântica

A computação quântica tem sido um campo em rápida evolução, com diversas linguagens e frameworks surgindo para permitir que desenvolvedores explorem esse novo paradigma computacional. Neste post, v...
TypeScript vs. Dart: Quam melhor para Desenvolvimento de Aplicativos Web e Móveis?

A escolha entre TypeScript e Dart é uma decisão importante para qualquer desenvolvedor que esteja construindo aplicativos web e móveis. Ambas as linguagens oferecem recursos poderosos e têm suas pr...
Q# vs. Qiskit: Diferenças no Desenvolvimento de Computação Quântica

A computação quântica tem sido um campo em rápida evolução, com diversas linguagens e frameworks surgindo para atender às necessidades dos desenvolvedores. Neste artigo, vamos explorar duas das pri...
AutoIt vs. AutoHotkey: Ferramentas Poderosas para Automação de Tarefas no Windows

Neste mundo digital em constante evolução, a necessidade de automatizar tarefas rotineiras e aumentar a produtividade é cada vez mais evidente. Duas ferramentas que se destacam nesse cenário são o ...
C++20 vs. Rust: Desenvolvimento de Sistemas e Segurança

A evolução das linguagens de programação é um tópico fascinante, especialmente quando se trata de comparar duas abordagens tão distintas como C++20 e Rust. Ambas as linguagens desempenham papéis cr...
Haxe vs. CoffeeScript: Melhor Opção para Desenvolvimento Multiplataforma

Na era digital em constante evolução, a escolha da linguagem de programação certa pode fazer toda a diferença no sucesso de um projeto. Duas opções que têm se destacado no cenário do desenvolviment...
Lua vs. JavaScript: Linguagens para Desenvolvimento de Jogos e Scripts

Quando se trata de desenvolvimento de jogos e scripts, a escolha da linguagem de programação certa pode fazer toda a diferença. Duas opções populares neste cenário são Lua e JavaScript, cada uma co...
Haxe vs. Dart: Escolhendo a melhor opção para Desenvolvimento Multiplataforma

Quando se trata de desenvolvimento multiplataforma, duas linguagens de programação se destacam: Haxe e Dart. Ambas oferecem soluções poderosas para criar aplicativos que funcionam em diferentes pla...
Vala vs. C#: Linguagem para Desenvolvimento de Aplicativos Linux e Windows

Ao escolher uma linguagem de programação para o desenvolvimento de aplicativos, é importante considerar as características e os recursos oferecidos por cada uma. Neste artigo, vamos comparar duas l...
Groovy vs. Java: Desenvolvimento de Aplicativos Dinâmicos

Quando se trata de desenvolvimento de aplicativos, os programadores têm uma variedade de opções à sua disposição. Duas linguagens de programação que têm se destacado nesse cenário são o Groovy e o ...
F# vs. Scala: Programação Funcional e Orientada a Objetos

A escolha da linguagem de programação certa pode fazer uma grande diferença no sucesso de um projeto. Neste artigo, vamos explorar as características e aplicações de duas linguagens populares: F# e...
Common Lisp vs. Scheme: Explorando a Programação Funcional Acadêmica

A programação funcional tem sido um campo fascinante na ciência da computação, com linguagens como Common Lisp e Scheme desempenhando papéis importantes no desenvolvimento dessa paradigma. Neste ar...
Groovy vs. JRuby: Escolhendo a Linguagem Dinâmica Ideal para o seu Projeto JVM

A escolha da linguagem de programação certa pode fazer uma grande diferença no sucesso de um projeto de software. Quando se trata de desenvolvimento JVM (Java Virtual Machine), duas opções dinâmica...
Smalltalk vs. Ruby: Qual a Melhor Linguagem de Programação Orientada a Objetos?

Quando se trata de desenvolvimento de software, a escolha da linguagem de programação é fundamental. Duas opções que têm se destacado no cenário do desenvolvimento orientado a objetos são o Smallta...
Dylan vs. Common Lisp: Explorando a Programação Dinâmica e Funcional

A escolha da linguagem de programação certa pode fazer toda a diferença no desenvolvimento de sistemas complexos. Neste artigo, vamos explorar duas opções poderosas: Dylan e Common Lisp. Ambas ofer...
Pascal vs. Delphi: Linguagem para Desenvolvimento de Aplicativos Desktop

Na era digital em constante evolução, a escolha da linguagem de programação certa pode fazer toda a diferença no desenvolvimento de aplicativos desktop. Duas opções que têm se destacado nesse cenár...
OCaml vs. F#: Comparando Linguagens Funcionais e de Tipagem Estática

Na era da computação moderna, onde a eficiência e a confiabilidade são cruciais, as linguagens de programação funcionais e de tipagem estática têm se destacado como opções poderosas. Neste artigo, ...
TypeScript vs. JavaScript: Tipagem Estática e Escalabilidade

Em 2025, a adoção de TypeScript deve aumentar em projetos de grande escala. Como uma superset do JavaScript, o TypeScript adiciona recursos de tipagem estática, melhorando a segurança e escalabilid...
Go vs. Python: Concorrência e Simplicidade

Em 2025, a escolha entre Go e Python para desenvolvimento de back-end e sistemas distribuídos se torna cada vez mais relevante. Ambas as linguagens possuem características únicas que as tornam atra...
Go vs. Java: Concorrência e Escalabilidade

Go (ou Golang) e Java são duas linguagens amplamente utilizadas para o desenvolvimento de aplicações robustas e de alta performance. No entanto, quando o assunto é concorrência e escalabilidade, ca...
Rust vs. C++: Segurança vs. Performance

Em 2025, a escolha entre Rust e C++ continua sendo um tópico de grande debate entre desenvolvedores de software. Ambas as linguagens são conhecidas por sua ênfase na performance, mas Rust se destac...
Kotlin vs. Java: Desenvolvimento Android Moderno em 2025

Em 2025, o desenvolvimento de aplicativos Android continua a evoluir rapidamente, com a linguagem Kotlin consolidando sua posição como a escolha preferida dos desenvolvedores. Desde que a Google a ...
Julia vs. Python: Velocidade e Análise de Dados

Em 2025, a linguagem de programação Julia está ganhando cada vez mais atenção no mundo da análise de dados e ciência de dados. Embora Python ainda seja a linguagem dominante nessas áreas, Julia vem...
COBOL vs. Visual Basic: Legado e Desenvolvimento Rápido

Nos dias atuais, as empresas enfrentam um desafio constante de equilibrar a necessidade de manter sistemas legados robustos e a demanda por soluções de desenvolvimento rápido e inovadoras. Neste ce...
C# vs. F#: Linguagem Certa para o seu Projeto

Como desenvolvedores, enfrentamos constantemente o desafio de escolher a linguagem de programação mais adequada para nossos projetos. Neste artigo, vamos explorar as diferenças entre C# e F#, duas ...
Kotlin vs. Swift: Qual a Melhor Opção para Desenvolvimento Móvel?

O desenvolvimento móvel é um campo em constante evolução, com duas linguagens de programação dominantes: Kotlin e Swift. Ambas têm suas próprias forças e fraquezas, e a escolha entre elas pode ter ...
MATLAB vs. R: Qual a melhor ferramenta para análise de dados e simulações?

A escolha entre MATLAB e R é uma decisão importante para profissionais que trabalham com análise de dados, modelagem e simulações. Ambas as ferramentas possuem pontos fortes e fracos, e a seleção d...
Elixir vs. Java: Concorrência e Desenvolvimento de Aplicativos

A escolha da linguagem de programação certa pode fazer uma grande diferença no desenvolvimento de aplicativos, especialmente quando se trata de concorrência e escalabilidade. Neste artigo, vamos co...
Clojure vs. Kotlin: Linguagem para seu Desenvolvimento JVM e Concorrência

Na era da computação moderna, onde a complexidade dos sistemas e a necessidade de escalabilidade são cada vez mais desafiadoras, a escolha da linguagem de programação certa pode fazer toda a difere...
Bash vs. Perl: Linguagens de Scripting e Processamento de Texto

Em um mundo cada vez mais automatizado, a escolha da linguagem de script certa pode fazer toda a diferença na eficiência e produtividade de suas tarefas. Neste artigo, vamos explorar as característ...
Python vs. Perl: Análise de Dados e Scripting

A escolha entre Python e Perl é uma decisão importante para muitos profissionais que trabalham com análise de dados e automação de tarefas. Ambas as linguagens têm seus pontos fortes e aplicações e...
Haskell vs. Scala: Programação Funcional e Tipagem Estática

Na era da computação moderna, onde a eficiência e a escalabilidade são cruciais, a escolha da linguagem de programação certa pode fazer toda a diferença. Duas opções que se destacam nesse cenário s...
Assembly vs. C: Baixo Nível e Performance

A escolha entre Assembly e C é uma decisão importante para desenvolvedores que precisam lidar com requisitos de alto desempenho e controle de baixo nível. Ambas as linguagens oferecem vantagens e d...
Scratch vs. Python: Qual a Melhor Linguagem de Programação para Iniciantes?

Quando se trata de aprender a programar, existem diversas opções de linguagens disponíveis, cada uma com suas próprias características e aplicações. Duas das linguagens mais populares para iniciant...
PHP vs. Ruby: Qual a Melhor Opção para Desenvolvimento Web Dinâmico?

Quando se trata de desenvolvimento web dinâmico, duas linguagens de programação se destacam: PHP e Ruby. Ambas têm suas próprias forças e fraquezas, e a escolha entre elas pode fazer uma grande dif...
SQL vs. NoSQL: Solução de Gerenciamento de Dados para sua Empresa

Na era digital em que vivemos, a gestão eficiente de dados tornou-se fundamental para o sucesso de qualquer negócio. Empresas de todos os tamanhos e setores enfrentam o desafio de armazenar, proces...
C vs. Fortran: Desempenho e Simulações Científicas

A escolha da linguagem de programação certa pode fazer uma grande diferença no desempenho e eficiência de aplicações científicas e de engenharia. Duas opções populares neste contexto são C e Fortra...
Integração da Inteligência Artificial no Desenvolvimento de Software: Impulsionando a Inovação e a Eficiência

Em 2025, a Inteligência Artificial (IA) se tornou uma ferramenta indispensável no desenvolvimento de software, transformando a maneira como os programadores trabalham e as soluções que eles criam. ...
Linguagens de Programação em Ascensão: Explorando as Tendências Emergentes

A indústria de tecnologia está em constante evolução, com novas linguagens de programação surgindo e ganhando popularidade a cada ano. Neste blog, vamos explorar algumas das linguagens de programaç...
Ecossistema de Aplicativos: 5 coisas essenciais para se ter dominio

Os ecossistemas de aplicativos estão se expandindo e se tornando mais complexos com o surgimento de aplicativos baseados em IA, esforços de modernização e novas iniciativas. Embora eu não ache que ...