Skip to content

Criteri per la costruzione degli alberi decisionali - controllo della crescita

La struttura di un albero di decisione può diventare molto complicata, soprattutto nei casi derivati da database contenenti centinaia di attributi e un attributo target, se pure categorico, con differenti classi.
In situazioni del genere, lasciar “crescere” l’albero senza stabilire un limite, di qualsiasi natura, può far sì che l’albero ottenuto diventi (a) difficilmente interpretabile e crei (b) un numero troppo elevato di regole, di fatto sovra adattando i dati al training set (overfitting).
Siccome devo avere la capacità di attribuire una classe di appartenenza ad attributi che non rientrano nel mio data set, non devo adattare l’albero a questi attributi, ma devo de specializzare l’albero, per evitare di ottenere un sovradattamento.
Gli alberi di classificazione sono sensibili alla variazione degli attributi.
Esistono delle modalità di controllo della crescita di un albero, basate sui seguenti criteri:
- MASSIMO NUMERO DI REGOLE : ottenibili dalla classificazione;
- MASSIMA PROFONDITÀ : raggiungibile dall’albero;
- NUMERO MINIMO DI RECORD :che devono essere presenti in ogni nodo per poter effettuare la divisione (splitting) in quel nodo;
- POTATURA DELL’ALBERO (pruning) : finalizzata ad ottenere il più piccolo “sottoalbero” che non comprometta l’accuratezza della classificazione resa possibile dall’albero madre (ad esempio, un ramo, o un sottoalbero, che l’utilizzatore giudica irrilevante perchè ad esso corrisponde un numero esiguo di casi, potrebbe essere rimosso).

Valuta questi appunti:

Continua a leggere:

Per approfondire questo argomento, consulta le Tesi:

Puoi scaricare gratuitamente questo appunto in versione integrale.