De acordo com a Gartner, dados ruins custam às organizações US$ 12,9 milhões por ano. Como resultado, os líderes de dados há décadas buscam uma única fonte de verdade para sua inteligência empresarial (BI) e análises para garantir que todos baseiem as decisões empresariais nos mesmos dados e definições.
Para trazer consistência aos dados, os provedores de BI introduziram o conceito de uma camada semântica — uma camada de abstração entre os dados brutos descritos em linhas, colunas e nomes de campos que somente especialistas em dados podem entender e que informam insights para usuários empresariais. Uma camada semântica oculta a complexidade dos dados e os mapeia para definições, lógica e relacionamentos empresariais. Ela permite que usuários empresariais conduzam análises self-service usando termos padrão como receita e lucro.
Proliferação das Camadas Semânticas
Camadas semânticas foram um desenvolvimento bem-vindo até que as ferramentas de BI — e suas camadas semânticas associadas — proliferaram. A BusinessObjects construiu a primeira camada semântica leve no SAP BusinessObjects na década de 1990. O problema é que os primeiros conjuntos de BI, como o BusinessObjects, eram monolíticos e não particularmente amigáveis ao usuário. Usuários frustrados adotaram o Tableau, o Power BI e o Looker com sua facilidade de uso aprimorada.
O problema hoje é que essas ferramentas cresceram e se replicaram em todas as organizações, acabando com toda a esperança de uma única fonte de verdade. Agora, diferentes partes da organização trabalham com ferramentas díspares de BI, análise e ciência de dados, criando definições de dados, dimensões, medidas, lógica e contexto exclusivos.
Equipes separadas também gerenciam suas próprias camadas semânticas. Isso resulta em discrepâncias na interpretação de dados, lógica de negócios e definições entre grupos de usuários, criando desconfiança em relatórios e inteligência derivada de dados.
Inconsistências também costumam causar confusão entre as equipes. Por exemplo, um cliente ativo é alguém que comprou uma assinatura paga contínua para seu serviço? Ou alguém que fez login nos últimos sete dias? Ou alguém que se inscreveu para um teste gratuito de sete dias? Definições inconsistentes afetam a equipe financeira para fins de cobrança, a equipe de renovações para identificar clientes e as operações para processar e relatar com precisão os produtos vendidos.
Ascensão das Camadas Semânticas em Data Warehouses
Como se o cenário de dados não fosse complexo o suficiente, os arquitetos de dados começaram a implementar camadas semânticas dentro de data warehouses. Os arquitetos podem pensar nos ativos de dados que gerenciam como a única fonte de verdade para todos os casos de uso. No entanto, esse não é normalmente o caso porque milhões de estruturas de tabela desnormalizadas normalmente não estão "prontas para os negócios".
Quando camadas semânticas são incorporadas em vários warehouses, os engenheiros de dados devem conectar casos de uso de análise a dados projetando e mantendo pipelines de dados com transformações que criam dados "prontos para análise". Sem uma camada semântica consistente, os engenheiros de dados codificam o significado semântico em seus pipelines específicos para dar suporte aos seus consumidores de dados.
Os significados semânticos (definições) rapidamente se tornam estáticos e inflexíveis, dificultando que equipes de arquitetura centralizadas acompanhem as necessidades específicas de domínio de diferentes grupos de trabalho. O código se torna difícil de gerenciar e inconsistente à medida que é dimensionado. Essa abordagem causa atrasos e dependências que dificultam a tomada de decisões com base em dados.
Expansão das Camadas Semânticas localizadas
Com os data warehouses migrando para a nuvem, as consultas do usuário podem se tornar dolorosamente lentas. O desempenho lento quase sempre estimula os usuários empresariais a extrair e carregar dados em sua plataforma de análise preferida para manipulação mais fácil e consultas mais rápidas, levando a uma maior disseminação semântica dentro de camadas semânticas localizadas.
Na maioria dos casos hoje, há pedaços de camadas semânticas flutuando ao redor da pilha de dados — um pouco em data warehouses na nuvem, um pouco em pipelines de transformação e um pouco em cada ferramenta de BI. Essa expansão semântica cria extrema ineficiência, pois os engenheiros de dados recriam conceitos comerciais comuns (por exemplo, projeções ano a ano ou conversões de moeda) toda vez que projetam um novo pipeline de dados.
As equipes de dados passam o dia todo brincando de whack-a-mole, constantemente recriando conceitos comerciais comuns espalhados em várias camadas semânticas sempre que uma nova questão comercial precisa ser respondida envolvendo diferentes definições de dados ou lógica comercial. É uma duplicação do esforço de engenharia e um desperdício de tempo e recursos.
Criando uma Camada Semântica Universal
O que é necessário é uma camada semântica universal que defina todas as métricas e metadados para todas as experiências de dados possíveis: ferramentas de visualização, análises voltadas para o cliente, análises incorporadas e agentes de IA. Com uma camada semântica universal, todos na empresa concordam com um conjunto padrão de definições para termos como "cliente" e "lead", bem como relacionamentos padrão entre os dados (lógica e definições de negócios padrão), para que as equipes de dados possam construir um modelo de dados semânticos consistente.
Uma camada semântica universal fica no topo dos data warehouses, fornecendo semântica de dados (contexto) para vários aplicativos de dados. Ela funciona perfeitamente com ferramentas de transformação, permitindo que as empresas definam métricas, preparem modelos de dados e os exponham a diferentes ferramentas de BI e analíticas.
Para construir uma camada semântica universal, as equipes de dados devem primeiro estabelecer a lógica de negócios, os cálculos e o contexto que entram em um modelo de dados semânticos. Eles começam entendendo os problemas do mundo real que o negócio precisa resolver, reunindo os dados necessários e, em seguida, codificando os relacionamentos entre os dados e definindo políticas de governança e segurança para permitir acesso confiável. Depois disso, eles usam metadados para construir uma abstração sobre os dados para expor dimensões, hierarquias e cálculos consistentemente para consumidores de dados downstream.
Uma vez que os dados e a semântica subjacentes são estabelecidos, a camada semântica universal deve ser integrada com consumidores de dados, como IA generativa, BI, planilhas e análises incorporadas. O Cube Cloud é uma plataforma de camada semântica universal que oferece inúmeras integrações pré-construídas e um conjunto de API robusto para que as empresas possam modelar dados uma vez e entregá-los em qualquer lugar. Ele também oferece uma série de ferramentas de desenvolvedor para facilitar a colaboração e a construção de modelos de dados, configurar cache e pré-agregações e manter controles de acesso a dados.
Benefícios de uma Camada Semântica Universal
Com uma camada semântica universal, as equipes de dados têm mais governança e controle e — se implementadas corretamente — os usuários finais obtêm mais valor dos dados e menos mal-entendidos entre as equipes. Isso aumenta a eficiência e garante que todos os locais de consumo de dados estejam trabalhando com os mesmos dados precisos. Então, não importa se os dados estão sendo usados por uma pessoa olhando para um painel ou um grande modelo de linguagem que está dando a alguém respostas para perguntas, os dados são consistentes.
Tudo isso torna mais fácil para as equipes de dados entregarem dados rapidamente aos vários consumidores com os quais trabalham interna e externamente. As equipes de dados podem facilmente atualizar ou definir novas métricas, projetar visualizações de dados específicas de domínio e incorporar novas fontes de dados brutos. Elas também podem impor políticas de governança, incluindo controle de acesso, definições e desempenho.
Outro benefício: conforme os volumes de dados explodem, os custos de computação em nuvem disparam. Uma camada semântica universal resolve esse problema pré-processando ou pré-agregando dados, armazenando métricas de negócios usadas com frequência e usando-as como base para análises, reduzindo as taxas de dados em nuvem. Uma camada semântica universal também oferece desempenho excepcionalmente alto e baixa latência em dados de toda a empresa, acelerando as consultas do usuário.
Única Fonte de Verdade, Finalmente
Uma camada semântica universal é necessária para alimentar a próxima geração de aplicativos orientados a dados, aceitando que haverá muitas ferramentas diferentes para visualizar e usar esses dados, e muitas fontes de dados diferentes onde eles são armazenados. E, finalmente, uma camada semântica universal cria uma única fonte de verdade para métricas empresariais — de verdade dessa vez — dando aos tomadores de decisão os dados de que precisam para obter respostas consistentes, rápidas e precisas.