Questo sito utilizza cookie di terze parti per inviarti pubblicità in linea con le tue preferenze. Se vuoi saperne di più clicca QUI 
Chiudendo questo banner, scorrendo questa pagina, cliccando su un link o proseguendo la navigazione in altra maniera, acconsenti all'uso dei cookie. OK

Alberi di regressione e classificazione

Tesi sugli alberi di regressione e classificazione tecnica di data mining attraverso il programma CART sviluppato in California.

La seguente tesi in PROBABILITA’ e STATISTICA tratta degli “Alberi di regressione e classificazione”. Definisco qualche concetto di base utile per capire cosa si sta affrontando: con il termine Data Mining s’intende l’estrazione di informazioni utili a partire da una grande quantità di dati; gli alberi di regressione e classificazione sono quindi uno strumento attraverso il quale si può realizzare un’operazione di data mining. La metodologia di tali alberi, prima dell’avvento dei computers, era praticamente impensabile; diversamente da altre procedure statistiche che, prima studiate e analizzate su carta, potevano essere trasposte sui calcolatori e poi sui computers. Gli alberi, come molti altri strumenti di analisi di dati, furono ideati dagli scienziati sociali motivati dal bisogno di affrontare problemi attuali al loro tempo. Uno dei primi programmi usati per la regressione era l’ AID (Automatic Interaction Detection) sviluppato all’Istituto per le Ricerche Sociali, nell’Università del Michigan, dagli studiosi Morgan e Sonquist nel 1960.
Uno dei primi programmi usati per la classificazione era il THAID, sviluppato nello stesso istituto per le Ricerche Sociali da Morgan e Messenger nel 1970. Lo studio relativo agli alberi iniziò nel 1973 quando Breiman e Friedman, indipendentemente l’uno dall’altro, “reinvented the wheel”(espressione americana che letteralmente si traduce con “reinventarono la ruota” per indicare che rifusero qualche vecchia idea in una forma nuova) e cominciarono ad usare il metodo degli alberi nella classificazione. In seguito unirono i loro studi con l’aiuto di Stone, che contribuì, significativamente, allo sviluppo della metodologia nascente. Olshen fu uno dei primi ad usare gli alberi nell’ambito medico, contribuendo anche al loro sviluppo teorico. Altri tre studiosi furono fondamentali nella ricerca: William Meisel, che per primo si accorse delle potenzialità del metodo degli alberi incoraggiandone lo sviluppo, Laurence Rafsky, che partecipò ai primi incontri di scambio di idee sul metodo, e Louis Gordon che collaborò con il sopra citato Olshen nello sviluppo teorico. Parte della ricerca, ed in particolare quella di Breiman, Friedman, Stone e Olshen, venne supportata dall’Ufficio di Ricerca Navale, dalla Fondazione di Scienze Nazionale e dagli Istituti Nazionali di Salute. Grazie a tutti questi studiosi, oggi disponiamo di un efficiente strumento di data mining, applicabile a molti campi, tra i quali anche la Medicina, andando a fondere così la scienza esatta con quella incerta, rispecchiando il bisogno dell’uomo di trovare piccole certezze nell’immensità di una vita incostante e mutevole.

Mostra/Nascondi contenuto.
Capitolo 1 Contesto e Nozioni fondamentali 1.1 Il concetto di Data Mining Definizione 1.1. Con il termine data mining s’intende il processo che, at- traverso opportune tecniche, analizza grandi quantit` a di dati, relativi ad un qualsiasiproblemachesivogliastudiare,conloscopodiestrarneinformazioni utili,cheservonoperscoprirestrutture,modellierelazioniall’internodeidati stessi. Tale processo ` e costituito da quattro fasi fondamentali: 1. assemblarel’insiemedidatidaanalizzare,dettianchevariabiliindipen- denti (in genere contenuti in file di database); 2. testare i dati con un programma che effettua l’operazione di data min- ing (nelle prossime sezioni si analizzer` a uno di questi programmi, il CART); 3. interpretareirisultati, dettianchevariabilidipendenti(esaminare, cio` e gli outputs del programma) per estrarre una “conoscenza”, in termini di informazioni significative ed immediatamente utilizzabili; 1

Laurea liv.I

Facoltà: Scienze Matematiche, Fisiche e Naturali

Autore: Lucia Pasqualini Contatta »

Composta da 66 pagine.

 

Questa tesi ha raggiunto 2094 click dal 14/11/2011.

Disponibile in PDF, la consultazione è esclusivamente in formato digitale.