À medida que a Inteligência Artificial (IA) se integra em diversas áreas, particularmente na geração de conteúdo, garantir a propriedade legítima e o uso ético se torna primordial. Espera-se que os provedores de serviços de IA priorizem o fornecimento responsável de dados de treinamento e a obtenção de licenças dos proprietários dos dados. No entanto, os estudos existentes se concentram principalmente na proteção de direitos autorais estáticos, que simplesmente tratam metadados/conjuntos de dados como itens não fungíveis com capacidades transferíveis/comerciais, negligenciando a natureza dinâmica dos procedimentos de treinamento que podem moldar uma trajetória contínua.
Neste artigo, apresentamos o IBIS, uma estrutura baseada em blockchain adaptada para fluxos de trabalho de treinamento de modelos de IA. O IBIS integra registros onchain para conjuntos de dados, licenças e modelos, juntamente com serviços de assinatura offchain para facilitar a colaboração entre vários participantes. Nossa estrutura aborda preocupações relacionadas à procedência de dados e modelos e conformidade com direitos autorais. O IBIS permite o retreinamento e ajuste fino de modelos iterativos e oferece verificações e renovações de licenças flexíveis. Além disso, o IBIS fornece APIs projetadas para integração perfeita com o software de gerenciamento de contratos existente, minimizando interrupções nos processos de treinamento de modelos estabelecidos.
Introdução
A proliferação de aplicações baseadas em Large Language Models (LLMs), representa um marco significativo na integração de tecnologias de Inteligência Artificial (IA) em várias facetas da vida diária, abrangendo desde a recuperação de informações até a geração de conteúdo. Ao mesmo tempo, os provedores de serviços de IA fizeram progressos na comercialização de seus serviços. No entanto, como os LLMs e outros modelos de IA dependem de extensos conjuntos de dados agregados de diversas fontes para treinamento, surgiram apreensões quanto à potencial violação de direitos autorais durante o processo de aquisição de dados e treinamento do modelo.
Para manter práticas de IA responsáveis e éticas, cumprir com os regulamentos e reduzir as responsabilidades legais, os provedores de serviços de IA devem colaborar ativamente com os proprietários de dados, incluindo criadores de conteúdo e partes interessadas da indústria de mídia. Estabelecer acordos de licenciamento e obter consentimento antes de utilizar dados para treinamento de modelos de IA é um elemento-chave dessa colaboração. Portanto, há uma necessidade crescente de novas estruturas que abordem a procedência de dados, linhagem e conformidade com direitos autorais no setor de IA, adaptadas às suas necessidades e fluxos de trabalho distintos.
No entanto, abordar as preocupações com a procedência de dados de IA e conformidade com direitos autorais pode ser uma tarefa não trivial, particularmente quando todo o processo de treinamento ocorre localmente ou dentro de um serviço de nuvem de caixa preta, limitando a transparência para os usuários. Para preencher essa lacuna, aproveitamos as propriedades da tecnologia blockchain, que oferece um ambiente confiável e à prova de violação para estabelecer autenticidade, procedência e linhagem.
Desafios e Objetivos
Identificamos uma série de desafios funcionais que devem ser abordados no desenvolvimento de uma estrutura de conformidade baseada em blockchain:
- A estrutura deve ser projetada para integrar-se perfeitamente ao fluxo de trabalho existente de treinamento de modelos de IA.
- A estrutura deve oferecer suporte ao retreinamento e ajuste fino contínuos de modelos com novos conjuntos de dados, permitindo a geração de modelos atualizados, mantendo a procedência e a linhagem dos dados.
- A estrutura deve oferecer suporte a mecanismos de expiração e renovação de licenças, acomodando diversos modelos de negócios empregados pelos proprietários de dados.
- A propriedade de conjuntos de dados e modelos, juntamente com todas as ações de treinamento, deve ser acompanhada de evidências para esclarecer seu escopo de licenciamento e garantir a responsabilização por quaisquer ações subsequentes.
- A estrutura deve facilitar a comunicação entre provedores de serviços de IA e proprietários de dados, permitindo a obtenção e documentação eficientes de acordos de licenciamento.
- A estrutura deve garantir o gerenciamento eficaz e a sensibilidade comercial das licenças, protegendo-as contra acesso não autorizado por terceiros.
A Estrutura IBIS
Neste artigo, projetamos, implementamos e avaliamos o IBIS, uma estrutura baseada em blockchain para gerenciamento de direitos autorais de dados e modelos, procedência e linhagem em processos de treinamento de modelos de IA. O IBIS capacita os proprietários de modelos a estabelecer a procedência e a linhagem de seus modelos de IA e conjuntos de dados de treinamento ao longo de processos de retreinamento e ajuste fino, obtendo eficientemente licenças de direitos autorais dos detentores de direitos autorais relevantes e registrando e renovando com segurança licenças de direitos autorais assinadas bilateralmente como evidência de conformidade legal.
Características-chave do IBIS
-
Integração perfeita: O IBIS oferece suporte ao retreinamento e ajuste fino de modelos iterativos, acomoda diversos acordos de direitos autorais por meio de verificações e renovações de licenças flexíveis e fornece uma API unificada que se integra ao software de gerenciamento de ciclo de vida de contratos existente, garantindo interrupção mínima aos processos estabelecidos de treinamento de modelos e gerenciamento de direitos autorais.
-
Adaptabilidade: O IBIS estabelece links entre modelos nos metadados do modelo e integra verificações periódicas de renovação de licenças por meio de contratos inteligentes, suportando o retreinamento contínuo do modelo e a renovação da licença. Além disso, o registro de licença on-chain alavanca a propriedade de imutabilidade do blockchain, permitindo que proprietários de modelos e detentores de direitos autorais recuperem suas licenças anteriores para provar a conformidade regulatória e evitar quaisquer disputas.
-
Registro rastreável: O IBIS implementa três registros imutáveis on-chain para metadados de conjunto de dados, licenças e metadados de modelo, mantendo registros autênticos de relacionamentos de conjunto de dados e modelo, propriedade e seus acordos de direitos autorais. Os links bidirecionais entre esses registros permitem rastreabilidade bidirecional em todos os processos de gerenciamento de direitos autorais de dados e modelo, procedência e linhagem.
-
Assinatura multipartidária baseada em blockchain: O IBIS aproveita os recursos de gerenciamento de identidade e assinatura digital oferecidos por blockchains com permissão privada, permitindo fluxos de trabalho de assinatura multipartidária eficientes e seguros entre proprietários de modelos de IA e detentores de direitos autorais, garantindo o estabelecimento de acordos de licenciamento legalmente compatíveis.
-
Controlabilidade: O IBIS implementa mecanismos de controle de acesso on-chain e adere a regras de permissão rígidas, garantindo que apenas partes autorizadas possam acessar as informações pertencentes a conjuntos de dados de treinamento, modelos e licenças. Consequentemente, o IBIS facilita um ecossistema que abrange muitos modelos de IA, conjuntos de dados e licenças, permitindo que os proprietários de modelos e dados aproveitem o efeito de rede de uma plataforma unificada, ao mesmo tempo em que protegem suas necessidades de sensibilidade comercial.
Implementação e Avaliação
Implementamos um protótipo totalmente funcional do IBIS baseado na linguagem de contrato inteligente Daml e no protocolo blockchain Canton. Adotamos os renomados recursos de preservação de privacidade e design modular da Daml e Canton para implementar uma estrutura segura e de preservação de sensibilidade comercial com seis módulos dedicados ao registro, gerenciamento e atualização de licenças.
Conduzimos uma série de avaliações de desempenho do IBIS, especialmente seu desempenho sob um cenário parametrizado do mundo real. Os resultados da avaliação mostram que um proprietário de modelo pode recuperar os conjuntos de dados de um modelo e suas licenças em aproximadamente 1,5 e 3 segundos, respectivamente. Isso é independente do número de proprietários de modelos, conjuntos de dados e licenças hospedados dentro da estrutura. Além disso, recuperar modelos autorizados para uma licença leva aproximadamente 1,5 segundos, independentemente do número de conjuntos de dados de treinamento por modelo, proprietários de modelos e licenças dentro da estrutura. Esses resultados demonstram escalabilidade sob números variáveis de usuários, conjuntos de dados, modelos e licenças.
Conclusão
Neste artigo, apresentamos o IBIS, uma estrutura baseada em blockchain para gerenciamento de direitos autorais de dados e modelos, procedência e linhagem em processos de treinamento de modelos de IA. O IBIS aborda uma série de desafios funcionais, incluindo integração perfeita com fluxos de trabalho existentes, suporte a retreinamento e ajuste fino contínuos, gerenciamento flexível de licenças, registro rastreável de propriedade e ações, comunicação eficiente entre provedores de IA e proprietários de dados, e controle eficaz de acesso e sensibilidade comercial.
Implementamos um protótipo totalmente funcional do IBIS usando a linguagem de contrato inteligente Daml e o protocolo blockchain Canton. Os resultados da avaliação demonstraram a viabilidade e escalabilidade do IBIS em vários números de usuários, conjuntos de dados, modelos e licenças.
À medida que a IA se torna cada vez mais onipresente, especialmente na geração de conteúdo, o IBIS oferece uma estrutura robusta e adaptável para garantir a conformidade com direitos autorais e práticas éticas no treinamento de modelos de IA. Esperamos que o IBIS contribua para o desenvolvimento de um ecossistema de IA mais responsável e transparente.