top of page

Coffee and Tips Newsletter

Inscreva-se na nossa newsletter semanal

Nos vemos em breve!

Modelagem de Dados: Star Schema, Snowflake e Galaxy

Foto do escritor: JPJP

Como modelagens Star Schema, Snowflake e Galaxy funcionam na prática



Star Schema
Modelagem de Dados


A modelagem de dados é uma etapa essencial na construção de um Data Warehouse eficiente. Três das abordagens mais comuns são Star Schema, Snowflake Schema e Galaxy Schema. Neste artigo, vamos explorar esses modelos, compará-los e apresentar exemplos práticos para facilitar o entendimento.


1. Star Schema


O Star Schema é uma abordagem simples e eficaz para modelagem de dados, caracterizada por uma tabela fato central conectada a tabelas dimensionais. As tabelas dimensionais não são normalizadas, resultando em redundância de dados, mas melhorando o desempenho de consultas.


Exemplo de Estrutura


Tabela Fato: Vendas


Tabela Dimensão: Cliente


Exemplo de Query



Vantagens e Desvantagens do Star Schema


Vantagens:


  • Facilidade de entendimento e implementação: Sua estrutura intuitiva permite que analistas e desenvolvedores compreendam rapidamente como os dados estão organizados.

  • Consultas mais rápidas: Como todas as tabelas dimensionais estão diretamente ligadas à tabela fato, há menos necessidade de joins complexos.

  • Ótima performance para análises: Como o modelo é otimizado para consultas OLAP (processamento analítico online), a execução de relatórios é mais eficiente.


Desvantagens:


  • Redundância de dados: Como as tabelas dimensionais não são normalizadas, informações como nomes de cidades podem ser repetidas diversas vezes, aumentando o consumo de armazenamento.

  • Possível dificuldade na manutenção: Caso haja mudanças frequentes nos dados dimensionais, o esquema pode exigir atualizações constantes para evitar inconsistências.


 

2. Snowflake Schema


O Snowflake Schema é uma evolução do Star Schema, onde as tabelas dimensionais são normalizadas para reduzir a redundância.


Exemplo de Estrutura


Tabela Dimensão Normalizada: Cidade


Tabela Dimensão: Cliente


Exemplo de Query



Vantagens e Desvantagens do Snowflake Schema


Vantagens:


  • Redução da redundância de dados: Como as tabelas são normalizadas, há menor repetição de informações, economizando espaço de armazenamento.

  • Melhor integridade de dados: Como cada atributo é armazenado separadamente, há menos risco de inconsistências nos dados.


Desvantagens:


  • Consultas mais complexas: O aumento no número de tabelas e joins necessários pode tornar as consultas mais difíceis de escrever e interpretar.

  • Impacto no desempenho: Devido à maior quantidade de joins, as consultas podem ser mais lentas, especialmente em grandes volumes de dados.


 

3. Galaxy Schema


O Galaxy Schema, também chamado de Constellation Schema, é uma abordagem que combina múltiplas tabelas fato compartilhando dimensões comuns.


Exemplo de Estrutura:


  • Fato_Vendas (fatos sobre vendas)

  • Fato_Devolucoes (fatos sobre devoluções)

  • Dim_Cliente (dimensão compartilhada)

  • Dim_Produto (dimensão compartilhada)


Exemplo de Query



Vantagens e Desvantagens do Galaxy Schema


Vantagens:


  • Alta flexibilidade: Permite a modelagem de múltiplos processos de negócios dentro do mesmo Data Warehouse.

  • Análise mais abrangente: Como múltiplas tabelas fato são conectadas, é possível obter insights mais detalhados sobre diferentes aspectos do negócio.


Desvantagens:


  • Complexidade na manutenção: Como há muitas tabelas fato e dimensões interligadas, manter e atualizar o esquema pode ser um desafio.

  • Performance pode ser afetada: O alto número de joins necessários para consultas pode impactar o tempo de resposta.


Conclusão


A escolha do modelo ideal depende dos requisitos específicos do negócio:


  • Se busca simplicidade e rapidez em consultas, o Star Schema é a melhor opção.

  • Se a redundância de dados for um problema, o Snowflake Schema pode ser a escolha mais eficiente.

  • Para cenários complexos com múltiplos processos de negócios, o Galaxy Schema oferece a flexibilidade necessária.


Independentemente do modelo escolhido, o mais importante é garantir que a modelagem esteja alinhada com os objetivos da empresa e os requisitos de análise de dados.


 

Quer Aprender Mais? Inscreva-se na nossa Newsletter semanal!


Não perca nossas dicas exclusivas de Tech e Data!



Receba semanalmente:

  • Tutoriais práticos e diretos sobre Engenharia de Software e Dados

  • Insights de tecnologia e notícias da semana

Posts recentes

Ver tudo

Comments


bottom of page