Questo sito utilizza cookie di terze parti per inviarti pubblicità in linea con le tue preferenze. Se vuoi saperne di più clicca QUI 
Chiudendo questo banner, scorrendo questa pagina, cliccando su un link o proseguendo la navigazione in altra maniera, acconsenti all'uso dei cookie. OK

Sistema di classificazione e recupero dei documenti basato sul linguaggio naturale

L'anteprima di questa tesi è scaricabile in PDF gratuitamente.
Per scaricare il file PDF è necessario essere iscritto a Tesionline.
L'iscrizione non comporta alcun costo. Mostra/Nascondi contenuto.

Capitolo 2: Classificazione e recupero dei documenti: lo stato dell�arte 14 2.2.3 La scelta dei termini indice Come si � gi� detto non tutte le parole sono ugualmente significative per rappresentare la semantica di un testo, infatti una parte delle parole del documento non descrivono il contenuto, ad esempio gli articoli, le preposizioni, i pronomi..., mentre alcune parole sono pi� significative di altre. Perci� usare tutti i termini che formano i documenti introduce troppo �rumore� nei processi di classificazione e di retrieval. D�altra parte scegliere i termini pi� significativi di un testo non � un�operazione banale. In passato l�indicizzazione veniva fatta manualmente da una persona (utente esperto) che leggeva i documenti, o un riassunto di essi, e decideva quali termini dovevano rappresentarne il contenuto e quali potevano essere scartati. Era sicuramente il miglior metodo per trovare i termini indice di un documento, ma la crescente quantit� di documenti da indicizzare e il continuo miglioramento delle tecniche di indicizzazione automatiche, cio� totalmente svolte dal calcolatore, hanno fatto preferire quest�ultime. Le tecniche di indicizzazione automatiche possono usare approcci linguistici, statistici, o una miscela di entrambi. Gli approcci linguistici entrano nel merito del significato e in base a questo decidono se scartare o meno il termine, gli approcci statistici, invece, si basano su informazioni statistiche estratte dal testo, senza effettuare un preprocessamento linguistico del testo stesso. Oggi tuttavia, approcci statistici puri sono usati solo nei casi in cui si vuole rimanere totalmente indipendenti dalla lingua, poich� si � notato che criteri statistici associati a semplici tecniche linguistiche (es. stemming 2.2.3.2.C) aumentano l�efficienza del sistema. 2.2.3.1 Approcci statistici Gli approcci statistici si basano sull�idea di Luhn [Luhn �58], pioniere nell�indicizzazione automatica di testi, secondo la quale la frequenza delle parole in un documento in linguaggio naturale fornisce un�utile misura del significato

Anteprima della Tesi di Debora Desideri

Anteprima della tesi: Sistema di classificazione e recupero dei documenti basato sul linguaggio naturale, Pagina 13

Tesi di Laurea

Facoltà: Scienze Matematiche, Fisiche e Naturali

Autore: Debora Desideri Contatta »

Composta da 207 pagine.

 

Questa tesi ha raggiunto 1656 click dal 20/03/2004.

 

Consultata integralmente 3 volte.

Disponibile in PDF, la consultazione è esclusivamente in formato digitale.