Skip to content

Definizione di data wareahouse

Un data warehouse è una collezione di dati a supporto dei processi decisionali e delle analisi di business intelligence, dotata delle seguenti caratteristiche:
- ORIENTATA ALLE ENTITÀ : i dati presenti in un data warehouse sono incentrati sulle principali entità di interesse per l’analisi. All’interno di un DW non ci sono tutte le entità di interesse dell’impresa, ma solo quelle di interesse per le mie attività analitiche.
- INTEGRATA : i dati provenienti da diverse fonti sono integrati e omogeneizzati attraverso il loro inserimento in un data warehouse.
- TEMPIFICATA : i dati inseriti in un data warehouse si accompagnano a un’etichetta temporale che ne identifica il periodo di riferimento.
- PERSISTENTE (O NON VOLATILE) : una volta inseriti in un data warehouse, i dati non vengono di norma modificati né cancellati.
- CONSOLIDATA : di norma, alcuni dati presenti nei data warehouse sono ottenuti come somme parziali di dati elementari presenti nei sistemi operazionali di origine.
- DENORMALIZZATA : a differenza di quanto avviene nei database operazionali, i dati presenti in un data warehouse non sono (sempre) posti in forma normale. Per esigenze analitiche quando si passa dalla fonte originaria del dato al DW si applica una de normalizzazione, per evitare le ridondanze.


Sintesi delle differenze tra OLTP E OLAP



DATA MART (DM)
E’ un DW costruito per estrazione che contiene dati di interesse per un specifico settore aziendale.
Sistema che raccoglie tutti i dati riferiti ad una specifica funzione aziendale (dominio applicativo), finalizzati al supporto decisionale e alle analisi di business intelligence.
E’ possibile considerare un data mart come un data warehouse funzionale o dipartimentale, di dimensioni più contenute e di natura più specifica rispetto al data warehouse aziendale (tecnicamente, è un sottoinsieme logico o fisico di un data warehouse).
Data warehouse e data mart sono riconducibili ad una medesima matrice tecnologica (tipicamente basata su RDBMS).

PROBLEMATICA DI QUALITÀ DEI DATI
Per la sua finalità di supporto ai processi decisionali, il data warehouse deve essere caratterizzato da una elevata qualità dei dati.
Il problema di verificare, preservare e incrementare la qualità dei dati rappresenta una preoccupazione costante per i responsabili della progettazione e della gestione di un data warehouse (emergere delle figure professionali di data warehouse architect e data warehouse administrator).
Principali inconvenienti che possono compromettere la validità e l’integrità delle informazioni:



Principali fattori che influenzano la qualità dei dati:
- ACCURATEZZA : corretta rappresentazione dei dati e intervalli di variazione dei valori (domini) coerenti.
- COMPLETEZZA : i valori mancanti devono essere in numero relativamente limitato.
- CONSISTENZA : i dati devono essere coerenti, in forma e contenuto, rispetto alle fonti di provenienza.
- ATTUALITÀ : i dati devono essere aggiornati in relazione agli obiettivi delle analisi.
- NON RIDONDANZA : i dati devono essere non ridondanti, salvo eccezioni (denormalizzazione) finalizzate a garantire tempi di risposta più brevi a fronte di interrogazioni particolarmente complesse.
- RILEVANZA : i dati devono essere significativi in relazione agli obiettivi delle analisi.
- INTERPRETABILITÀ : il significato dei dati deve essere chiaro e univoco, sulla base della documentazione presente nel repository dei metadati.
- ACCESSIBILITÀ : i dati devono essere accessibili agli analisti e alle applicazioni di business intelligence.
Valuta questi appunti:

Continua a leggere:

Per approfondire questo argomento, consulta le Tesi:

Puoi scaricare gratuitamente questo appunto in versione integrale.