Camada Semântica Universal resolve o problema de múltiplas fontes de verdade

November 5, 2024 Luciano Bertene

De acordo com a Gartner, dados ruins custam às organizações US$ 12,9 milhões por ano. Como resultado, os líderes de dados há décadas buscam uma única fonte de verdade para sua inteligência empresarial (BI) e análises para garantir que todos baseiem as decisões empresariais nos mesmos dados e definições.

Para trazer consistência aos dados, os provedores de BI introduziram o conceito de uma camada semântica — uma camada de abstração entre os dados brutos descritos em linhas, colunas e nomes de campos que somente especialistas em dados podem entender e que informam insights para usuários empresariais. Uma camada semântica oculta a complexidade dos dados e os mapeia para definições, lógica e relacionamentos empresariais. Ela permite que usuários empresariais conduzam análises self-service usando termos padrão como receita e lucro.

Proliferação das Camadas Semânticas

Camadas semânticas foram um desenvolvimento bem-vindo até que as ferramentas de BI — e suas camadas semânticas associadas — proliferaram. A BusinessObjects construiu a primeira camada semântica leve no SAP BusinessObjects na década de 1990. O problema é que os primeiros conjuntos de BI, como o BusinessObjects, eram monolíticos e não particularmente amigáveis ao usuário. Usuários frustrados adotaram o Tableau, o Power BI e o Looker com sua facilidade de uso aprimorada.

O problema hoje é que essas ferramentas cresceram e se replicaram em todas as organizações, acabando com toda a esperança de uma única fonte de verdade. Agora, diferentes partes da organização trabalham com ferramentas díspares de BI, análise e ciência de dados, criando definições de dados, dimensões, medidas, lógica e contexto exclusivos.

Equipes separadas também gerenciam suas próprias camadas semânticas. Isso resulta em discrepâncias na interpretação de dados, lógica de negócios e definições entre grupos de usuários, criando desconfiança em relatórios e inteligência derivada de dados.

Inconsistências também costumam causar confusão entre as equipes. Por exemplo, um cliente ativo é alguém que comprou uma assinatura paga contínua para seu serviço? Ou alguém que fez login nos últimos sete dias? Ou alguém que se inscreveu para um teste gratuito de sete dias? Definições inconsistentes afetam a equipe financeira para fins de cobrança, a equipe de renovações para identificar clientes e as operações para processar e relatar com precisão os produtos vendidos.

Ascensão das Camadas Semânticas em Data Warehouses

Como se o cenário de dados não fosse complexo o suficiente, os arquitetos de dados começaram a implementar camadas semânticas dentro de data warehouses. Os arquitetos podem pensar nos ativos de dados que gerenciam como a única fonte de verdade para todos os casos de uso. No entanto, esse não é normalmente o caso porque milhões de estruturas de tabela desnormalizadas normalmente não estão "prontas para os negócios".

Quando camadas semânticas são incorporadas em vários warehouses, os engenheiros de dados devem conectar casos de uso de análise a dados projetando e mantendo pipelines de dados com transformações que criam dados "prontos para análise". Sem uma camada semântica consistente, os engenheiros de dados codificam o significado semântico em seus pipelines específicos para dar suporte aos seus consumidores de dados.

Os significados semânticos (definições) rapidamente se tornam estáticos e inflexíveis, dificultando que equipes de arquitetura centralizadas acompanhem as necessidades específicas de domínio de diferentes grupos de trabalho. O código se torna difícil de gerenciar e inconsistente à medida que é dimensionado. Essa abordagem causa atrasos e dependências que dificultam a tomada de decisões com base em dados.

Expansão das Camadas Semânticas localizadas

Com os data warehouses migrando para a nuvem, as consultas do usuário podem se tornar dolorosamente lentas. O desempenho lento quase sempre estimula os usuários empresariais a extrair e carregar dados em sua plataforma de análise preferida para manipulação mais fácil e consultas mais rápidas, levando a uma maior disseminação semântica dentro de camadas semânticas localizadas.

Na maioria dos casos hoje, há pedaços de camadas semânticas flutuando ao redor da pilha de dados — um pouco em data warehouses na nuvem, um pouco em pipelines de transformação e um pouco em cada ferramenta de BI. Essa expansão semântica cria extrema ineficiência, pois os engenheiros de dados recriam conceitos comerciais comuns (por exemplo, projeções ano a ano ou conversões de moeda) toda vez que projetam um novo pipeline de dados.

As equipes de dados passam o dia todo brincando de whack-a-mole, constantemente recriando conceitos comerciais comuns espalhados em várias camadas semânticas sempre que uma nova questão comercial precisa ser respondida envolvendo diferentes definições de dados ou lógica comercial. É uma duplicação do esforço de engenharia e um desperdício de tempo e recursos.

Criando uma Camada Semântica Universal

O que é necessário é uma camada semântica universal que defina todas as métricas e metadados para todas as experiências de dados possíveis: ferramentas de visualização, análises voltadas para o cliente, análises incorporadas e agentes de IA. Com uma camada semântica universal, todos na empresa concordam com um conjunto padrão de definições para termos como "cliente" e "lead", bem como relacionamentos padrão entre os dados (lógica e definições de negócios padrão), para que as equipes de dados possam construir um modelo de dados semânticos consistente.

Uma camada semântica universal fica no topo dos data warehouses, fornecendo semântica de dados (contexto) para vários aplicativos de dados. Ela funciona perfeitamente com ferramentas de transformação, permitindo que as empresas definam métricas, preparem modelos de dados e os exponham a diferentes ferramentas de BI e analíticas.

Para construir uma camada semântica universal, as equipes de dados devem primeiro estabelecer a lógica de negócios, os cálculos e o contexto que entram em um modelo de dados semânticos. Eles começam entendendo os problemas do mundo real que o negócio precisa resolver, reunindo os dados necessários e, em seguida, codificando os relacionamentos entre os dados e definindo políticas de governança e segurança para permitir acesso confiável. Depois disso, eles usam metadados para construir uma abstração sobre os dados para expor dimensões, hierarquias e cálculos consistentemente para consumidores de dados downstream.

Uma vez que os dados e a semântica subjacentes são estabelecidos, a camada semântica universal deve ser integrada com consumidores de dados, como IA generativa, BI, planilhas e análises incorporadas. O Cube Cloud é uma plataforma de camada semântica universal que oferece inúmeras integrações pré-construídas e um conjunto de API robusto para que as empresas possam modelar dados uma vez e entregá-los em qualquer lugar. Ele também oferece uma série de ferramentas de desenvolvedor para facilitar a colaboração e a construção de modelos de dados, configurar cache e pré-agregações e manter controles de acesso a dados.

Benefícios de uma Camada Semântica Universal

Com uma camada semântica universal, as equipes de dados têm mais governança e controle e — se implementadas corretamente — os usuários finais obtêm mais valor dos dados e menos mal-entendidos entre as equipes. Isso aumenta a eficiência e garante que todos os locais de consumo de dados estejam trabalhando com os mesmos dados precisos. Então, não importa se os dados estão sendo usados por uma pessoa olhando para um painel ou um grande modelo de linguagem que está dando a alguém respostas para perguntas, os dados são consistentes.

Tudo isso torna mais fácil para as equipes de dados entregarem dados rapidamente aos vários consumidores com os quais trabalham interna e externamente. As equipes de dados podem facilmente atualizar ou definir novas métricas, projetar visualizações de dados específicas de domínio e incorporar novas fontes de dados brutos. Elas também podem impor políticas de governança, incluindo controle de acesso, definições e desempenho.

Outro benefício: conforme os volumes de dados explodem, os custos de computação em nuvem disparam. Uma camada semântica universal resolve esse problema pré-processando ou pré-agregando dados, armazenando métricas de negócios usadas com frequência e usando-as como base para análises, reduzindo as taxas de dados em nuvem. Uma camada semântica universal também oferece desempenho excepcionalmente alto e baixa latência em dados de toda a empresa, acelerando as consultas do usuário.

Única Fonte de Verdade, Finalmente

Uma camada semântica universal é necessária para alimentar a próxima geração de aplicativos orientados a dados, aceitando que haverá muitas ferramentas diferentes para visualizar e usar esses dados, e muitas fontes de dados diferentes onde eles são armazenados. E, finalmente, uma camada semântica universal cria uma única fonte de verdade para métricas empresariais — de verdade dessa vez — dando aos tomadores de decisão os dados de que precisam para obter respostas consistentes, rápidas e precisas.

Conteúdo relacionado

Jai vs. Odin: Linguagem Certa para Desenvolvimento de Sistemas de Alto Desempenho

Quando se trata de desenvolvimento de sistemas e aplicações de alto desempenho, a escolha da linguagem de programação certa pode fazer toda a diferença. Neste post, vamos explorar duas opções promi...
Kotlin vs. Java: Desenvolvimento Android Moderno em 2025

Em 2025, o desenvolvimento de aplicativos Android continua a evoluir rapidamente, com a linguagem Kotlin consolidando sua posição como a escolha preferida dos desenvolvedores. Desde que a Google a ...
Aço Silício em Transformadores e Geradores

O aço silício é um material fundamental para a indústria de energia elétrica, desempenhando um papel crucial no desempenho e eficiência de transformadores e geradores. Neste artigo, exploraremos em...
Alumínio vs. Titânio: Explorando a relação Resistência-Peso

As transformações aceleradas na indústria hoje aumentaram significativamente a curiosidade em relação ao uso de materiais robustos, porém leves, impulsionando as comparações entre titânio e alumíni...
Processo de Soldagem por Resistência Elétrica: Entendendo os Detalhes Técnicos

A soldagem por resistência elétrica, também conhecida como solda por ponto ou spot weld, é uma técnica amplamente utilizada na indústria, especialmente na fabricação de automóveis e estruturas metá...
Importância do Controle da Velocidade de Avanço na Soldagem

A soldagem é uma técnica fundamental em diversas indústrias, desde a construção civil até a fabricação de automóveis. No entanto, para obter resultados de alta qualidade, é essencial dominar divers...
Big Techs perdem mais de 10% após o anúncio do 'Tarifaço' dos EUA

As principais empresas de tecnologia dos Estados Unidos, conhecidas como "Big Techs", registraram quedas superiores a 10% em suas ações desde o anúncio do aumento das tarifas comerciais pelo govern...
Expansão do Porto de Paranaguá: Aumento de Capacidade e Impacto no Agronegócio Brasileiro

O Porto de Paranaguá, localizado no sul do Brasil, desempenha um papel fundamental no escoamento da produção agrícola do país. Recentemente, a administração portuária anunciou uma importante expans...