Questo sito utilizza cookie di terze parti per inviarti pubblicità in linea con le tue preferenze. Se vuoi saperne di più clicca QUI 
Chiudendo questo banner, scorrendo questa pagina, cliccando su un link o proseguendo la navigazione in altra maniera, acconsenti all'uso dei cookie. OK

Sistema di classificazione e recupero dei documenti basato sul linguaggio naturale

L'anteprima di questa tesi è scaricabile in PDF gratuitamente.
Per scaricare il file PDF è necessario essere iscritto a Tesionline.
L'iscrizione non comporta alcun costo. Mostra/Nascondi contenuto.

Capitolo 2: Classificazione e recupero dei documenti: lo stato dell�arte 16 Tale legge implica che un termine con f ricorrenze ha r approssimativamente 0.1N / f t , con 0.1 costante per la lingua inglese. Questa legge � stata spiegata citando un �principio generale di minimo sforzo� che rende pi� semplice, per colui che parla o scrive, ripetere certe parole invece di fare sforzi per trovare nuove parole da usare. La legge considera anche il fatto che le parole pi� frequenti tendono ad essere parole poco significative e facili da trovare, cio� con basso costo d�uso. Luhn definisce due soglie, una minima e una massima, in modo tale da distinguere tre intervalli: uno di alta, uno di media e uno di bassa frequenza. Le parole ad alta frequenza sono di solito �parole generiche�, come articoli e preposizioni, le parole a bassa frequenza sono invece quelle �rare� e non danno un contributo significativo per comprendere il contenuto del documento; quindi tutte le parole che si trovano nei due intervalli di alta e bassa frequenza non vengono considerate nel processo di indicizzazione del documento. Quindi, per applicare tale teoria alla rappresentazione dei documenti � necessario: • calcolare la frequenza del termine k nel documento i, freq ik • determinare la frequenza totale della collezione: • ∑ = ikk freqtotalFreq per i=1,2,...,n. • Ordinare i termini rispetto alla frequenza della collezione • Definire due soglie, una per eliminare i termini ad alta frequenza e una per eliminare i termini a bassa frequenza • usare i termini rimanenti come indice Figura 3: Analisi della significativit� delle parole Parole non significative: alta frequenza Parole non significative: bassa frequenza parole pi� significative parole in ordine descrescente in base alla frequenza

Anteprima della Tesi di Debora Desideri

Anteprima della tesi: Sistema di classificazione e recupero dei documenti basato sul linguaggio naturale, Pagina 15

Tesi di Laurea

Facoltà: Scienze Matematiche, Fisiche e Naturali

Autore: Debora Desideri Contatta »

Composta da 207 pagine.

 

Questa tesi ha raggiunto 1656 click dal 20/03/2004.

 

Consultata integralmente 3 volte.

Disponibile in PDF, la consultazione è esclusivamente in formato digitale.