Camada Semântica Universal resolve o problema de múltiplas fontes de verdade

2024. november 5. Luciano Bertene

De acordo com a Gartner, dados ruins custam às organizações US$ 12,9 milhões por ano. Como resultado, os líderes de dados há décadas buscam uma única fonte de verdade para sua inteligência empresarial (BI) e análises para garantir que todos baseiem as decisões empresariais nos mesmos dados e definições.

Para trazer consistência aos dados, os provedores de BI introduziram o conceito de uma camada semântica — uma camada de abstração entre os dados brutos descritos em linhas, colunas e nomes de campos que somente especialistas em dados podem entender e que informam insights para usuários empresariais. Uma camada semântica oculta a complexidade dos dados e os mapeia para definições, lógica e relacionamentos empresariais. Ela permite que usuários empresariais conduzam análises self-service usando termos padrão como receita e lucro.

Proliferação das Camadas Semânticas

Camadas semânticas foram um desenvolvimento bem-vindo até que as ferramentas de BI — e suas camadas semânticas associadas — proliferaram. A BusinessObjects construiu a primeira camada semântica leve no SAP BusinessObjects na década de 1990. O problema é que os primeiros conjuntos de BI, como o BusinessObjects, eram monolíticos e não particularmente amigáveis ao usuário. Usuários frustrados adotaram o Tableau, o Power BI e o Looker com sua facilidade de uso aprimorada.

O problema hoje é que essas ferramentas cresceram e se replicaram em todas as organizações, acabando com toda a esperança de uma única fonte de verdade. Agora, diferentes partes da organização trabalham com ferramentas díspares de BI, análise e ciência de dados, criando definições de dados, dimensões, medidas, lógica e contexto exclusivos.

Equipes separadas também gerenciam suas próprias camadas semânticas. Isso resulta em discrepâncias na interpretação de dados, lógica de negócios e definições entre grupos de usuários, criando desconfiança em relatórios e inteligência derivada de dados.

Inconsistências também costumam causar confusão entre as equipes. Por exemplo, um cliente ativo é alguém que comprou uma assinatura paga contínua para seu serviço? Ou alguém que fez login nos últimos sete dias? Ou alguém que se inscreveu para um teste gratuito de sete dias? Definições inconsistentes afetam a equipe financeira para fins de cobrança, a equipe de renovações para identificar clientes e as operações para processar e relatar com precisão os produtos vendidos.

Ascensão das Camadas Semânticas em Data Warehouses

Como se o cenário de dados não fosse complexo o suficiente, os arquitetos de dados começaram a implementar camadas semânticas dentro de data warehouses. Os arquitetos podem pensar nos ativos de dados que gerenciam como a única fonte de verdade para todos os casos de uso. No entanto, esse não é normalmente o caso porque milhões de estruturas de tabela desnormalizadas normalmente não estão "prontas para os negócios".

Quando camadas semânticas são incorporadas em vários warehouses, os engenheiros de dados devem conectar casos de uso de análise a dados projetando e mantendo pipelines de dados com transformações que criam dados "prontos para análise". Sem uma camada semântica consistente, os engenheiros de dados codificam o significado semântico em seus pipelines específicos para dar suporte aos seus consumidores de dados.

Os significados semânticos (definições) rapidamente se tornam estáticos e inflexíveis, dificultando que equipes de arquitetura centralizadas acompanhem as necessidades específicas de domínio de diferentes grupos de trabalho. O código se torna difícil de gerenciar e inconsistente à medida que é dimensionado. Essa abordagem causa atrasos e dependências que dificultam a tomada de decisões com base em dados.

Expansão das Camadas Semânticas localizadas

Com os data warehouses migrando para a nuvem, as consultas do usuário podem se tornar dolorosamente lentas. O desempenho lento quase sempre estimula os usuários empresariais a extrair e carregar dados em sua plataforma de análise preferida para manipulação mais fácil e consultas mais rápidas, levando a uma maior disseminação semântica dentro de camadas semânticas localizadas.

Na maioria dos casos hoje, há pedaços de camadas semânticas flutuando ao redor da pilha de dados — um pouco em data warehouses na nuvem, um pouco em pipelines de transformação e um pouco em cada ferramenta de BI. Essa expansão semântica cria extrema ineficiência, pois os engenheiros de dados recriam conceitos comerciais comuns (por exemplo, projeções ano a ano ou conversões de moeda) toda vez que projetam um novo pipeline de dados.

As equipes de dados passam o dia todo brincando de whack-a-mole, constantemente recriando conceitos comerciais comuns espalhados em várias camadas semânticas sempre que uma nova questão comercial precisa ser respondida envolvendo diferentes definições de dados ou lógica comercial. É uma duplicação do esforço de engenharia e um desperdício de tempo e recursos.

Criando uma Camada Semântica Universal

O que é necessário é uma camada semântica universal que defina todas as métricas e metadados para todas as experiências de dados possíveis: ferramentas de visualização, análises voltadas para o cliente, análises incorporadas e agentes de IA. Com uma camada semântica universal, todos na empresa concordam com um conjunto padrão de definições para termos como "cliente" e "lead", bem como relacionamentos padrão entre os dados (lógica e definições de negócios padrão), para que as equipes de dados possam construir um modelo de dados semânticos consistente.

Uma camada semântica universal fica no topo dos data warehouses, fornecendo semântica de dados (contexto) para vários aplicativos de dados. Ela funciona perfeitamente com ferramentas de transformação, permitindo que as empresas definam métricas, preparem modelos de dados e os exponham a diferentes ferramentas de BI e analíticas.

Para construir uma camada semântica universal, as equipes de dados devem primeiro estabelecer a lógica de negócios, os cálculos e o contexto que entram em um modelo de dados semânticos. Eles começam entendendo os problemas do mundo real que o negócio precisa resolver, reunindo os dados necessários e, em seguida, codificando os relacionamentos entre os dados e definindo políticas de governança e segurança para permitir acesso confiável. Depois disso, eles usam metadados para construir uma abstração sobre os dados para expor dimensões, hierarquias e cálculos consistentemente para consumidores de dados downstream.

Uma vez que os dados e a semântica subjacentes são estabelecidos, a camada semântica universal deve ser integrada com consumidores de dados, como IA generativa, BI, planilhas e análises incorporadas. O Cube Cloud é uma plataforma de camada semântica universal que oferece inúmeras integrações pré-construídas e um conjunto de API robusto para que as empresas possam modelar dados uma vez e entregá-los em qualquer lugar. Ele também oferece uma série de ferramentas de desenvolvedor para facilitar a colaboração e a construção de modelos de dados, configurar cache e pré-agregações e manter controles de acesso a dados.

Benefícios de uma Camada Semântica Universal

Com uma camada semântica universal, as equipes de dados têm mais governança e controle e — se implementadas corretamente — os usuários finais obtêm mais valor dos dados e menos mal-entendidos entre as equipes. Isso aumenta a eficiência e garante que todos os locais de consumo de dados estejam trabalhando com os mesmos dados precisos. Então, não importa se os dados estão sendo usados por uma pessoa olhando para um painel ou um grande modelo de linguagem que está dando a alguém respostas para perguntas, os dados são consistentes.

Tudo isso torna mais fácil para as equipes de dados entregarem dados rapidamente aos vários consumidores com os quais trabalham interna e externamente. As equipes de dados podem facilmente atualizar ou definir novas métricas, projetar visualizações de dados específicas de domínio e incorporar novas fontes de dados brutos. Elas também podem impor políticas de governança, incluindo controle de acesso, definições e desempenho.

Outro benefício: conforme os volumes de dados explodem, os custos de computação em nuvem disparam. Uma camada semântica universal resolve esse problema pré-processando ou pré-agregando dados, armazenando métricas de negócios usadas com frequência e usando-as como base para análises, reduzindo as taxas de dados em nuvem. Uma camada semântica universal também oferece desempenho excepcionalmente alto e baixa latência em dados de toda a empresa, acelerando as consultas do usuário.

Única Fonte de Verdade, Finalmente

Uma camada semântica universal é necessária para alimentar a próxima geração de aplicativos orientados a dados, aceitando que haverá muitas ferramentas diferentes para visualizar e usar esses dados, e muitas fontes de dados diferentes onde eles são armazenados. E, finalmente, uma camada semântica universal cria uma única fonte de verdade para métricas empresariais — de verdade dessa vez — dando aos tomadores de decisão os dados de que precisam para obter respostas consistentes, rápidas e precisas.

Conteúdo relacionado

OCaml vs. F#: Comparando Linguagens Funcionais e de Tipagem Estática

Na era da computação moderna, onde a eficiência e a confiabilidade são cruciais, as linguagens de programação funcionais e de tipagem estática têm se destacado como opções poderosas. Neste artigo, ...
Soluções de Paisagismo com Aço Patinável: Durabilidade e Estética Natural

O aço patinável, também conhecido como aço corten, tem se destacado como uma opção versátil e atraente para projetos de paisagismo e esculturas ao ar livre. Sua aparência natural e resistência às i...
Vendas de veículos no Brasil crescem 21,6% em outubro de 2024

A indústria automotiva brasileira registrou um desempenho positivo em outubro de 2024, com um aumento de 21,6% nas vendas de veículos em comparação com o mesmo mês do ano anterior. De acordo com os...
Importância da Limpeza Pós-Soldagem em Aço Inox e Alumínio

A soldagem é uma técnica fundamental em diversos setores industriais, desde a construção civil até a fabricação de equipamentos. No entanto, após o processo de soldagem, é essencial realizar uma li...
Como Regular sua Inversora MIG para Chapas Finas

A solda MIG (Metal Inert Gas) é uma técnica amplamente utilizada na indústria e construção, conhecida por sua versatilidade e eficiência. No entanto, quando se trata de trabalhar com chapas finas, ...
Painéis Solares vs. Telhados Tradicionais: Qual a melhor opção para sua casa?

Ao considerar as opções para sua casa, você provavelmente se depara com a escolha entre painéis solares e telhados tradicionais. Cada uma dessas soluções tem suas próprias vantagens e desvantagens,...
Fundações Resilientes: O Poder das Microestacas

As construções modernas enfrentam desafios cada vez mais complexos quando se trata de fundações. Terrenos instáveis, restrições de espaço e a necessidade de preservar estruturas existentes são apen...
Cálculo de Momento de Resiliência em Barras de Aço

Cálculo de Momento de Resiliência em Barras de Aço O momento de resiliência é uma quantidade importante em engenharia civil, pois permite avaliar a resistência de uma barra de aço a deformações e ...