Skip to content

Metodologie di analisi: apprendimento supervisionato

1. CARATTERIZZAZIONE E DISCRIMINAZIONE
In presenza di un attributo target categorico, prima di procedere allo sviluppo di modelli di classificazione può essere utile condurre un’analisi esplorativa finalizzata a:
- operare una caratterizzazione, confrontando la distribuzione dei valori degli attributi per i record appartenenti ad una medesima classe (es. età dei clienti persi). All’interno del data set se i dati sono suddivisibili in classi di appartenenza, all’interno della stessa classe, andiamo ad analizzare i valori di un determinato attributo. Questo potrebbe dirmi che quell’attributo non caratterizza bene quella classe di appartenenza.
- operare una discriminazione, confrontando la distribuzione dei valori degli attributi per i record di una classe e i record di una classe diversa, oppure tra i record di una classe e tutti i rimanenti record (es. età dei clienti vs età dei clienti persi). Significa andare a confrontare l’andamento dei valori dell’attributo nelle diverse classi di appartenzena. Se gli andamenti sono simili, quell’attributo non distinguerebbe le due classi di appartenenza. Se invece trovo una differenza posso fare una discriminazione tra le due classi.
Le informazioni così ottenute possono essere fondamentali per guidare la selezione degli attributi.
È la tecnica che sta alla base della prima analisi che si fa per la predisposizione di una data set.
APPLICAZIONE:
Nel caso di un’analisi di loyalty nella telefonia mobile, può risultare utile effettuare preliminarmente una caratterizzazione (ad esempio, per selezionare attributi che non siano caratterizzati da distribuzioni di valori troppo eterogenee nell’ambito della stessa classe – potrebbe indicare una scarsa capacità di classificazione dell’attributo) e una discriminazione (ad esempio, per selezionare attributi che siano caratterizzati da distribuzioni di valori ben diversificate nelle due classi – potrebbe essere indice di una elevata capacità di classificazione dell’attributo).
2. CLASSIFICAZIONE
In un tipico problema di classificazione è disponibile un insieme di osservazioni di cui è nota la classe di appartenenza. Ogni osservazione è descritta mediante un certo numero di attributi il cui valore è noto. Un algoritmo di classificazione deve utilizzare le informazioni disponibili, riferite al passato, per identificare un modello matematico che consenta di assegnare la classe di appartenenza alle osservazioni future, di cui siano noti i valori degli attributi.
L’attributo target, il cui valore deve essere predetto, assume nei problemi di classificazione un numero limitato di valori (spesso, è una variabile binaria).
Significa avere una attributo di classe e cercare una regola che dice in funzione di quali valori degli attributi i clienti hanno acquistato un prodotto A piuttosto che no. Dobbiamo porci la domanda se esiste una regola che indica in funzioni di quali valori il cliente acquista il prodotto A.
APPLICAZIONE:
Nel caso dell’analisi di loyalty nella telefonia mobile, i l’attributo target è tipicamente una variabile binaria che indica [1] chiusura del rapporto, [0] mantenimento del rapporto. Obiettivo dell’analisi è quello (1) di classificare, in base al valore assunto dalla variabile target, le osservazioni disponibili per il passato in due gruppi, caratterizzati da certi valori degli attributi (età anagrafica, anzianità del servizio, traffico telefonico inuscita per destinazione), (2) identificare un modello matematico (o regola) che consenta di assegnare la classe di appartenenza alle osservazioni future, sulla base dei valori assunti dagli attributi presi in esame.
3. MODELLI DI STIMA
La stima viene utilizzata quando la variabile target assume valori continui. Sulla base degli attributi esplicativi disponibili, ci si prefigge di predire il valore della variabile target per ciascuna osservazione.
Un problema di classificazione può essere ricondotto ad un problema di stima e viceversa.
APPLICAZIONE:
Predire le vendite di un determinato prodotto sulla base delle azioni promozionali svolte e del prezzo di vendita. E’ evidente come, in questo caso, la variabile target possa assumere un numero molto elevato di valori discreti e possa quindi essere assimilata ad una variabile continua.
Il problema di loyalty nella telefonia mobile può diventare un problema di stima, ove ci si proponga di valutare la probabilità che ciascun cliente rimanga fedele.
4. MODELLI DI SERIE STORICHE
Talvolta l’attributo target è soggetto a un’evoluzione temporale e risulta quindi associato a istanti successivi lungo l’asse dei tempi. In questi casi, si dice che la sequenza di valori della variabile target costituisce una serie storica.
I modelli di serie storiche studiano fenomeni caratterizzati da una dinamica temporale e si propongono di predire il valore della variabile target per uno o più periodi futuri.
Sono modelli tendenzialmente di stima in cui la variabile target oltre a essere una variabile numerica, è soggetta ad un’evoluzione temporale (come ad esempio l’andamento dei tioli in borsa).
APPLICAZIONE:
Predire le vendite settimanali di un determinato prodotto sulla base delle azioni promozionali svolte e del prezzo di vendita, avendo a disposizione un dataset di osservazioni relativo ai tre anni passati (costituito, quindi, da una serie storica di 156 osservazioni).
5. REGOLE ASSOCIATIVE
Si propongono di identificare associazioni interessanti e ricorrenti tra gruppi di record di un dataset.
Ad esempio, vengono utilizzati per identificare quali prodotti vengono acquistati congiuntamente nel corso della medesima transazione e con quale frequenza (market basket analysis).
Sono regole che si propongono di identificare delle associazioni interessanti tra gruppi di record di un data set. Si utilizzano soprattutto nel mondo della grande distribuzione organizzate per capire se esistono delle associazioni ricorrenti tra i prodotti acquistati.
APPLICAZIONE:
Le aziende della GDO le utilizzano per pianificare la disposizione dei prodotti sugli scaffali o per promuovere vendite incrociate (cross selling).
METODOLOGIE DI ANALISI:APPRENDIMENTO NON SUPERVISIONATO
6. CLUSTERING
Con il termine cluster si identifica un gruppo omogeneo all’interno di una popolazione, in relazione al valore assunto da determinati attributi. Le tecniche di clustering mirano pertanto a segmentare una popolazione eterogenea in un certo numero di sottogruppi contenenti osservazioni aventi tra loro caratteristiche affini.
A differenza della classificazione, nel clustering non esistono classi predefinite ma gli oggetti vengono raggruppati in base alla loro reciproca affinità.
Rappresenta, in molti casi, una fase preliminare ad altre analisi di data mining.
Si raggruppa una popolazione per affinità, dove un gruppo di osservazioni affini lo si intende funzione di valori assunti per gli attributi all’interno del data set. Creiamo dei gruppi di popolazione.
APPLICAZIONE:
Segmentare la clientela retail di una banca in base ai valori assunti da una serie di attributi anagrafici (età, sesso, professione, titolo di studio, stato anagrafico, comune di residenza) e di rapporto (anzianità del rapporto di conto, giacenza media del conto in un dato intervallo di tempo, numero di movimentazioni, tipologia di movimentazioni), con l’obiettivo di condurre successive analisi esplorative sui singoli segmenti (cluster) individuati.
7. DESCRIZIONE E VISUALIZZAZIONE
Talvolta, l’attività di data mining si propone di fornire una rappresentazione semplice e sintetica delle informazioni presenti in un insieme di dati di grandi dimensioni.
Una descrizione efficace e sintetica delle informazioni è molto utile in quanto può offrire suggerimenti per una spiegazione delle relazioni tra i dati e costituire il punto di partenza per una migliore comprensione dei fenomeni a cui i dati si riferiscono.
Consiste nell’andare ad analizzare i dati con delle tecniche statistiche di base.

Valuta questi appunti:

Continua a leggere:

Per approfondire questo argomento, consulta le Tesi:

Puoi scaricare gratuitamente questo appunto in versione integrale.