Trasformazione dei dati in ingresso

Name: Laboratorio informatico per le decisioni aziendali
Rating: 5.0 (1 reviews)
Author: Valentina Minerva

In molte analisi di data mining risulta opportuno applicare ai dati presenti in un dataset alcune trasformazioni rivolte a rendere più accurati i modelli di apprendimento generati.
In effetti, le tecniche di correzione degli outlier (già presentate) costituiscono esempi di trasformazione dei dati originali, destinate a facilitare le successive fasi di apprendimento.
Supponendo che i dati non siano affetti da problemi di qualità, può essere opportuno a volte operare delle trasformazioni dei dati.
STANDARDIZZAZIONE
La maggior parte dei modelli di apprendimento trae beneficio da una preventiva standardizzazione dei dati, indicata anche come normalizzazione.
- SCALATURA DECIMALE : si basa sulla trasformazione
X’i = Xi / 10h
dove h è un parametro che determina l’intensità della scalatura (che, nella sostanza, equivale a spostare la posizione del punto decimale di h posizioni verso sinistra in modo da ricavare valori trasformati che si collocano nell’intervallo [0, 1].
- MIN – MAX : si basa sulla trasformazione (obiettivo come sopra)
X’i = Xi – Xi min / (Xi max – Xi min) (in versione semplificata)
ESTRAZIONE DI ATTRIBUTI
In alcuni casi, le trasformazioni vengono utilizzate per generare nuovi attributi che costituiscono un insieme di colonne aggiuntive nella matrice che rappresenta il dataset.
Ad esempio, in presenza di attributi relativi al livello di spesa di ciascun cliente in intervalli di tempo successivi, è possibile aggiungere variabili che evidenzino tendenze presenti nel dataset mediante differenze o rapporti tra i valori di spesa in periodi contigui.
La semplificazione non si applica solo a attributi numerici, ma anche ad attributi categorici.
RIDUZIONE
Quando si dispone di un dataset di dimensioni ridotte le trasformazioni descritte sono solitamente adeguate a predisporre i dati in ingresso per le analisi di data mining.
In presenza di grandi dataset è invece opportuno procedere a un’ulteriore fase di riduzione dei dati, in modo da rendere più efficienti gli algoritmi di apprendimento, senza compromettere la qualità dei risultati ottenuti.
Molot spesso ci si ritrova nelle condizioni di dover ridurre il numero di osservazioni e/o di attributi il data set, per semplificare.