Questo sito utilizza cookie di terze parti per inviarti pubblicità in linea con le tue preferenze. Se vuoi saperne di più clicca QUI 
Chiudendo questo banner, scorrendo questa pagina, cliccando su un link o proseguendo la navigazione in altra maniera, acconsenti all'uso dei cookie. OK

Machine Learning: riconoscimento dell'autore dalla classificazione del testo

Il lavoro di riconoscimento dell’autore è, per certi aspetti diverso dal classico scenario della classificazione di testi che per lo più tratta il riconoscimento degli argomenti. La difficoltà consiste, da un lato nel distinguere i testi con lo stesso argomento (che probabilmente usano un vocabolario simile) scritti da autori differenti, e dall’altro nel trovare delle invarianze (comunanze) in differenti testi di uno stesso autore.
In questa tesi si descrive l’implementazione di un metodo di selezione delle caratteristiche per questo particolare problema e si valutano sette classificatori standard e un’implementazione personale di un classificatore che utilizza l’approccio “boosting”, in diversi scenari di riconoscimento dell’autore sui dati ottenuti.
I risultati ottenuti confermano conclusioni di ricerche precedenti, cioè che la modalità di utilizzo di parole argomento-indipendenti come preposizioni, articoli ecc... sono buone features per analizzare lo stile di scrittura di uno specifico autore. Anche una più sofisticata analisi grammaticale sembra essere un promettente candidato per questo lavoro.
Per la valutazione del classificatore, il complesso algoritmo ′′Random Forest′′, basato sugli alberi di decisione, è quello che ha operato meglio rispetto agli altri classificatori negli scenari presi in considerazione, soprattutto quelli differenti dal classico riconoscimento degli argomenti.

Mostra/Nascondi contenuto.
Capitolo 1 Introduzione 1.1 Scopo della tesi In questa tesi si voleva risolvere il seguente problema: " Dati due file di testo, A e B, (scritti rispettivamente dagli autori A e B) e un terzo file C, dire se C è stato scritto dall'autore A o dall'autore B." [10] 1 È stato utilizzato l’ausilio del tool open source Wekaoltre ad una propria implementazione di uno dei classificatori utilizzati. È stato inoltre esteso lo scenario sopra descritto oltre l’esposizione data. 2 Sono stati usati, come testi sorgenti, estrazioni da: “Iliade di Omero”e di Noam 3 Chomsky “Language and Mind” (1968) 1.2 Approccio È stato diviso il problema in parecchi e sempre più piccoli passi, illustrati in figura 1.1: • preprocessing Come primo passo, i dati che dovrebbero effettivamente essere utilizzati per l’apprendimento (e la convalida) devono essere selezionati dai file di testo di origine. Dal momento che sono già in formato testo, l’estrazione dei contenuti non deve essere fatta (come, ad esempio, dovrebbe essere fatta necessariamente per i file HTML per separare il contenuto dal markup), ma solamente una selezione di sottoinsiemi per testi di grandi dimensioni. I testi selezionati vengono poi suddivisi in blocchi che in questo caso sono singole frasi. Ogni frase rappresenta una istanza. 1 Machine Learning Project at the University of Waikato in New Zealand: http://www.cs.waikato.ac. nz/ml/index.html 2 http://www.cs.chalmers.se/Cs/Grundutb/Kurser/ai/AIWww/iliad.txt 3 http://www.cs.chalmers.se/Cs/Grundutb/Kurser/ai/AIWww/chomsky.txt 3 ∼

Laurea liv.I

Facoltà: Scienze Matematiche, Fisiche e Naturali

Autore: Fabio Chiodo Contatta »

Composta da 42 pagine.

 

Questa tesi ha raggiunto 1272 click dal 03/11/2010.

Disponibile in PDF, la consultazione è esclusivamente in formato digitale.