9 
Una correlazione positiva vuol dire che latte e zucchero vengono spesso 
venduti assieme, pi� di quanto ci si aspetterebbe se la vendita di uno dei due 
prodotti fosse indipendente da quella dell�altro. 
Usando il concetto di correlazione si pu� evitare la generazione di regole 
ingannevoli: se la presenza dello zucchero nei carrelli della spesa non venisse 
influenzata dalla presenza del latte e viceversa, allora latte e zucchero avrebbero 
una correlazione nulla, e non verrebbe quindi mai proposta all�utente una regola 
composta da questi due prodotti. 
Per un�efficace applicazione di questa tecnica viene messa in evidenza 
l�importanza di utilizzare un�adeguata misura della correlazione presente tra gli 
elementi della regola; queste misure vengono dette di interesse, perch� pi� alto � il 
loro valore, maggiore � l�interesse dell�utente per quella regola. 
Tali misure servono per fare una classifica dei pattern estratti e per permettere 
di mostrare all�utente solo quelli pi� interessanti. 
In questa tesi verranno presentate ed analizzate le misure di interesse pi� note 
in letteratura; il loro confronto, nella prima parte di questo lavoro, avverr� per 
semplicit� applicandole a pattern composti da due soli elementi. Verr� prima fatta 
una analisi teorica del loro comportamento in alcuni casi limite e successivamente 
verranno invece utilizzati dei dataset sintetici per permettere di valutarne il 
comportamento in situazioni pi� realistiche. 
Una volta messi in luce vantaggi e svantaggi di ciascuna di queste misure, ne 
verr� sviluppata una di nuova, con l�obiettivo di superare i limiti di quelle 
analizzate. 
Lo studio procede poi generalizzando queste misure per renderle applicabili a 
pattern di dimensione arbitraria, ed introducendo successivamente il concetto di 
confrontabilità fra pattern di dimensione diversa. Non deve infatti venir dato per 
scontato il poter confrontare ad esempio l�interesse di una regola composta da due 
elementi con quello di una regola da tre per stabilire quale delle due � la pi� 
interessante: il risultato potrebbe essere ingannevole. Per rendere le misure 
consistenti con questo concetto, vengono in questo lavoro proposte e valutate 
alcune nuove normalizzazioni da applicare alle misure tradizionali. 
Nella parte conclusiva dello studio si discute un�applicazione concreta del 
framework appena sviluppato per contribuire alla risoluzione di un problema 
molto sentito dai gestori delle reti di telecomunicazioni: il fenomeno dell�alarm 
storm. 
L�azienda in cui la tesi � stata svolta, la Tektronix, sta sviluppando un sistema 
di diagnostica per la parte terrestre della rete cellulare GSM. 
  
10 
Quando sorge qualche anomalia, il sistema di rilevazione genera degli allarmi, 
che l�operatore che tiene sotto controllo la rete deve esaminare e cercare di 
interpretare per poter prendere i provvedimenti ritenuti eventualmente necessari. 
Purtroppo, gli allarmi segnalati da queste reti, a causa della loro eccessiva 
quantit�, sono spesso di scarso aiuto nella diagnosi dei problemi di network che ne 
sono la causa, e l�operatore finisce spesso per ignorarli, tralasciando 
l�informazione in essi contenuta perch� la loro analisi richiederebbe troppo tempo. 
Per attenuare questo problema si vogliono allora estrarre delle correlation 
rules dai log degli allarmi dei giorni o dei mesi precedenti, per scoprire quali 
allarmi occorrono spesso contemporaneamente; in seguito, questa conoscenza 
potr� essere applicata in tempo reale agli allarmi che via via giungono alla 
consolle di amministrazione per raggrupparli: allarmi che occorrono spesso 
contemporaneamente rappresentano in genere i diversi sintomi di uno stesso 
problema. 
Questa tecnica non permette di risalire direttamente alla causa del problema, 
ma � comunque un importante aiuto per l�operatore, che potrebbe cos� vedere 
sullo schermo della sua consolle di amministrazione non pi� un lungo elenco di 
allarmi, ma una nuova sequenza, pi� breve e facilmente interpretabile, di allarmi 
gi� raggruppati secondo il problema comune che li ha generati. 
  
11 
2 Cos’è il Data Mining 
2.1 Introduzione 
Nelle ultime decadi alcuni fattori hanno permesso di aumentare notevolmente 
la nostra capacit� sia di produrre che di archiviare dati; i fattori che hanno 
maggiormente contribuito a questo fenomeno includono l�informatizzazione di 
molte attivit� aziendali, l�ampio utilizzo di codici a barre nella maggioranza dei 
prodotti commerciali, la possibilit� di archiviare in maniera economica grosse 
moli di dati. In aggiunta, l�utilizzo diffuso del World Wide Web come un sistema 
informativo globale ci ha sommersi di una enorme quantit� di informazioni. 
Questa crescita esplosiva di dati memorizzati ha generato un urgente bisogno di 
nuove tecniche e di strumenti automatici di analisi per evitare che questi database, 
proprio a causa della loro mole e dell�impossibilit� di esaminarli con strumenti 
convenzionali, si trasformino in �cimiteri dei dati�, dove questi vengono �sepolti� 
senza poi poterne ricavare alcuna informazione utilizzabile. 
Il Data Mining, una nuova e promettente disciplina nell�ambito dell�analisi dei 
dati, si pone come obiettivo proprio l�estrazione di conoscenza utile 
implicitamente contenuta in database, data-warehouse ed altri grossi depositi di 
dati. 
L�applicazione delle tecniche di Data Mining � solo una delle fasi richieste nel 
processo di �estrazione� della conoscenza; tipicamente, l�intero processo � 
composto dalle seguenti fasi: 
  
12 
Pulizia
Integrazione
Selezione
Trasformazione
Data Mining
Val utazi one
Presentazione
Pulizia dei dati, per rimuovere il rumore
di  fondo o i  dati  i rri l evanti
Integrazione dei dati, in cui sorgenti
di dati multiple vengono unite
Selezione dei dati, per mantenere solo quelli
rilevanti ai fini dell'analisi da effettuare
Trasformazione dei  dati , dove i  dati  vengono
consolidati o normalizzati per predisporli
all'analisi con tools di Data Mining
Data Mining vero e proprio
Valutazione dei pattern estratti, per identificare
i pattern veramente interessanti che rappresentano
conoscenza, basandosi su qualche misura di interesse
Presentazione della conoscenza estratta in forme
facilmente comprensibili ed interpretabili dall'utente,
(eventualmente impiegando tools grafici di visualizzazione)
 
Figura 1: Il processo di Knowledge Discovery 
 
� importante evidenziare come, secondo questo punto di vista, il Data Mining 
� solo una fase di tutto il processo di knowledge discovery (anche se spesso i 
termini Data Mining e KDD, Knowledge Discovery in Databases, vengono 
confusi), bench� sia una fase essenziale, quella in cui viene fatta �venire a galla� 
l�informazione nascosta nei dati. 
I prossimi paragrafi verranno dedicati ad una introduzione alle principali 
tecniche di Data Mining e ai principali tipi di pattern che da queste tecniche 
possono essere estratti. 
  
13 
2.2 Classificazione 
Dato un insieme di oggetti, ciascuno dei quali � composto da un certo numero 
di attributi di cui uno viene detto classe, la classificazione � il processo di ricerca 
di un insieme di modelli che, esaminando il valore degli attributi di ciascun 
oggetto, ne stabiliscono la classe. Tali modelli vengono creati basandosi 
sull�analisi di un training-set, cio� di un insieme di oggetti la cui classe � gi� nota, 
e vengono poi applicati su insiemi di oggetti la cui classe � invece sconosciuta. 
Il modello derivato pu� essere rappresentato in varie forme, come regole di 
classificazione (se... allora...), alberi di decisione, formule matematiche o reti 
neurali. 
Un albero di decisione � una struttura ad albero simile ad un flow-chart, dove 
ciascun nodo denota un test sul valore di un attributo, ciascuna biforcazione 
rappresenta un possibile esito del test, e le foglie dell�albero rappresentano le 
classi; gli alberi di decisione possono essere facilmente convertiti in regole di 
classificazione. 
Una rete neurale, quando viene utilizzata per scopi di classificazione, � 
tipicamente una collezione di unit� di elaborazione analoghe ai neuroni, con 
connessioni pesate tra le unit�. 
Le possibili applicazioni delle tecniche di classificazione sono molto ampie: 
ad esempio, la riduzione del costo di operazioni di mailing selezionando le 
persone pi� probabilmente interessate all�acquisto del prodotto da pubblicizzare 
tramite l�utilizzo di un modello creato a partire dall�analisi dei clienti che hanno 
acquistato precedentemente un prodotto analogo. 
Un�altro tipico esempio � la rilevazione delle frodi nell�utilizzo delle carte di 
credito, esaminando le passate transazioni (ora, luogo, importo, bene acquistato...) 
di cui si conosce gi� l�esito per cercare di capire le tipologie di transazioni a 
rischio. 
 
  
14 
Esempio: 
 
Oggetti in cui la classe � gi� nota (Training-set), utilizzati per creare un 
modello: 
 
Età Stato civile Reddito Acquirente 
(CLASSE)
18-30 Singolo 125.000 Euro No
30-50 Sposato 100.000 Euro No
18-30 Singolo 70.000 Euro No
18-30 Sposato 120.000 Euro No
30-50 Divorziato 95.000 Euro Sì
30-50 Sposato 60.000 Euro No
> 50 Divorziato 220.000 Euro Sì
18-30 Singolo 85.000 Euro No
30-50 Sposato 75.000 Euro No
> 50 Singolo 90.000 Euro Sì
 
Oggetti la cui classe non � nota, su cui applicare il modello creato: 
 
Età Stato civile Reddito Acquirente 
(CLASSE)
18-30 Singolo 75.000 Euro ?
30-50 Sposato 50.000 Euro ?
> 50 Sposato 150.000 Euro ?
30-50 Divorziato 90.000 Euro ?
18-30 Singolo 40.000 Euro ?
> 50 Sposato 80.000 Euro ?
 
  
15 
2.3 Clustering 
Diversamente dalla classificazione e dalla predizione, il cui obiettivo � 
principalmente decidere a quale classe appartiene un oggetto, le tecniche di 
clustering si pongono come obiettivo principale lo stabilire quali siano le classi 
(che vengono qui chiamate cluster) in cui suddividere gli oggetti. 
Gli oggetti del training-set sono raggruppati seguendo il principio di 
massimizzare le similarità intra-classe e di minimizzare le similarità inter-classe; 
i cluster di oggetti sono cio� formati in modo tale che due oggetti entro uno stesso 
cluster presentino un elevato livello di somiglianza rispetto a due oggetti 
appartenenti a due cluster differenti. 
In genere per raggiungere questo obiettivo � necessario sviluppare una misura 
di similarità, che pu� essere la distanza euclidea se gli attributi sono continui, 
altrimenti una qualche altra misura �ad hoc� specifica per il problema che si sta 
affrontando. 
 
Figura 2: Insieme di oggetti  prima e dopo l’operazione di Clustering 
Ambiti di applicazione di queste tecniche possono essere la segmentazione di 
un mercato in diverse tipologie di clientela, per poter applicare a ciascuna 
tipologia un�opportuna campagna di marketing. 
  
16 
2.4 Analisi degli outlier 
Un database pu� contenere oggetti che non corrispondono al comportamento 
generale o al modello dei dati: questi oggetti sono detti outlier. La maggioranza 
dei metodi di Data Mining scartano gli outlier considerandoli eccezioni o rumore, 
ma in alcune applicazioni (ad esempio l�identificazione delle frodi) gli eventi rari 
possono essere pi� interessanti di quelli che occorrono con maggior regolarit�. 
L�analisi degli outlier � generalmente indicata come outlier mining. 
Nell�immagine precedente, ad esempio, i quattro punti che non sono racchiusi 
nei cluster possono essere considerati degli outlier. 
Gli outlier possono essere individuati utilizzando test statistici che assumono 
una certa distribuzione o un certo modello di probabilit� per i dati, o che 
utilizzano misure di distanza dove gli oggetti che hanno pochi altri elementi nella 
prossimit� vengono considerati outlier. 
I metodi basati sulla devianza, invece di utilizzare misure statistiche o di 
distanza, identificano gli outlier esaminando le differenze nelle caratteristiche 
principali degli oggetti in un gruppo, prendendo normalmente come riferimento i 
valori degli oggetti esaminati precedentemente. 
2.5 Analisi delle associazioni 
L�analisi delle associazioni ha come obiettivo la scoperta di regole associative 
(o association rules), regole cio� che evidenziano condizioni sui valori degli 
attributi che occorrono frequentemente in un certo insieme di dati. 
Un�association rule � una regola che esprime il concetto �se si verifica la 
condizione X allora � probabile che si verifichi anche la condizione Y�, dove X e 
Y rappresentano i valori assunti da insiemi di attributi. 
 
  
17 
Esempio: 
 
Esaminando i seguenti carrelli della spesa di un supermercato: 
 
Num. Carrello Oggetti contenuti 
1 Pane, Coca-Cola, latte 
2 Birra, pane 
3 Birra, Coca-Cola, pannolini, latte 
4 Birra, pane, pannolini, latte 
5 Coca-Cola, pannolini, latte 
 
Si scoprono le seguenti regole: 
 
• {latte} ⇒ {Coca-Cola} 
• { latte , pannolini} ⇒ {birra} 
 
Cio�, analizzando questi carrelli della spesa si nota come chi acquista latte 
acquista spesso anche Coca-Cola, e chi acquista latte e pannolini acquista spesso 
anche birra. 
Non approfondiamo ulteriormente l�argomento in questa sezione, poich� alle 
association rules verr� interamente dedicato uno dei prossimi capitoli. 
2.6 Sequential patterns 
Questa tecnica di Data Mining � utilizzabile quando gli oggetti appartenenti 
all�insieme da esaminare sono disposti in ordine cronologico (li chiameremo 
eventi), e ci si pone l�obiettivo di analizzare se esistono eventi che, quando 
accadono in una certa sequenza, ed entro determinati lassi di tempo, causano il 
probabile accadere di qualche altro evento. 
Frequenti utilizzi di queste tecniche si hanno nell�ambito dell�analisi degli 
acquisti (alla ricerca di sequenze di acquisti frequenti) e nell�ambito dell�analisi 
dei log dei Web-Server (per comprendere quali siano i �percorsi� tipici che 
l�utente segue per raggiungere determinate pagine).