Skip to content

Logiche di riduzione dei dati all'ingresso

La riduzione dei dati si sviluppa secondo quattro logiche distinte:
- RIDUZIONE DELLE OSSERVAZIONI mediante campionamento (che deve essere significativo dal punto di vista statistico).
- RIDUZIONE DEGLI ATTRIBUTI MEDIANTE SELEZIONE, che mira a eliminare dal dataset un sottoinsieme di variabili ritenute non rilevanti per le analisi di data mining.
- RIDUZIONE DEGLI ATTRIBUTI MEDIANTE PROIEZIONE, che si propone di sostituire un sottoinsieme di attributi numerici originari con un numero inferiore di nuovi attributi ottenuti come loro combinazione lineare.
- RIDUZIONE DEI VALORI DEGLI ATTRIBUTI MEDIANTE DISCRETIZZAZIONE O AGGREGAZIONE, che si propone di ottenere una diminuzione nel numero di valori distinti assunti da uno o più attributi.
Ad esempio, il valore settimanale della spesa di un cliente di un supermercato può essere discretizzato in 3 classi: bassa (< 50€), media (tra 50 e 150€), alta (> 150€); la variabile categorica Provincia (circa 100 valori) può essere sostituita con Regione (circa 20 valori).

Valuta questi appunti:

Continua a leggere:

Per approfondire questo argomento, consulta le Tesi:

Puoi scaricare gratuitamente questo appunto in versione integrale.