Le schéma en étoile aide à organiser les données d’un modèle tabulaire.
On le représente ainsi :
Un exemple simple (oui en anglais) :
Les ventes (”sales”) sont les faits : quantité (”order quantity”) et Montant vente (”Sales Amount”).
Les autres tables sont des dimensions : Produits (”Product”), client (”Customer”), etc. Tous les champs de ces tables permettent des regroupements possibles.
On pourra ainsi obtenir dans le rapport la somme des “Montant vente” par (retroupement) Produit, catégories de produit (”Category”) et Couleur (”Color”).
Table de faits
Table qui stocke des observations ou des événements qui enregistrent une activité métier spécifique. Exemples : quantités, volumes, montants, tonnes. Prend en charge la totalisation Tables de dimension
Les tables de dimension décrivent les entités métier. Exemples : dates, clients, produits. Au moins une colonne “clé” (sans doublon), comme ProduitClé ou ProduitID + des colonnes descriptives, comme le nom, la catégorie, le lieu, l’année. Cette même clé se retrouve dans la table de faits et permet de créer une relation. Utilisées pour filtrer et regrouper les données. Nombre de lignes réduits. Comparer les tables de faits et de dimension
Autres schémas possible
Normalisation et dé-normalisation
La normalisation est le terme utilisé pour décrire les données stockées de manière à réduire les données répétitives.
Dans cet exemple, la table des lignes de commandes, à gauche, est normalisée. Chaque produit vendu a un numéro (une clé). Les caractéristiques de chaque produit est dans la table Produit (à droite).
Une version dé-normalisée de ces 2 tables se présenterait ainsi :
On a utilisé le champs ProduitéClé, présent dans les 2 tables, pour lier les tables.
Si vos données proviennent d’une extraction, il est probable qu’elles soient déjà dénormalisées. Dans ce cas, utiliser Power Query, pour les normaliser.