Questo sito utilizza cookie di terze parti per inviarti pubblicità in linea con le tue preferenze. Se vuoi saperne di più clicca QUI 
Chiudendo questo banner, scorrendo questa pagina, cliccando su un link o proseguendo la navigazione in altra maniera, acconsenti all'uso dei cookie. OK

Sistema di classificazione e recupero dei documenti basato sul linguaggio naturale

L'anteprima di questa tesi è scaricabile in PDF gratuitamente.
Per scaricare il file PDF è necessario essere iscritto a Tesionline.
L'iscrizione non comporta alcun costo. Mostra/Nascondi contenuto.

Capitolo 2: Classificazione e recupero dei documenti: lo stato dell�arte 12 termine indice poich� non discrimina tra un documento e un altro. D�altro canto, una parola che compare in soli cinque documenti � abbastanza utile poich� restringe considerevolmente lo spazio dei documenti interessanti. Quindi, termini indice distinti, hanno rilevanza diversa al fine di descrivere il contenuto di un documento, e questo effetto � catturato attraverso l�assegnamento di un peso numerico a ciascun termine indice di un dato documento. Perci� sia t i un termine indice, d h un documento e w i,h ≥ 0 il peso associato alla coppia (t i ,d h ) che quantifica l�importanza del termine indice nella descrizione della semantica del documento. Definizione 1 Sia M il numero di termini indice in un sistema e t i un generico termine indice. T = {t 1 ,........,t M } � l�insieme dei termini indice. Un peso w i,h > 0 � associato a ciascun termine t i di un documento d h . Per un termine indice che non compare nel testo del documento d h , w i,h = 0. Ad ogni documento d h � associato un vettore h d ρ rappresentato da ),......,,( ,,2,1 hMhhh wwwd = ρ . Inoltre sia g i la funzione che restituisce il peso associato al termine indice t i dato un vettore h d ρ ( hihi wdg , )( = ρ ). Per la definizione 1 vale l�assunzione che in generale nei sistemi di pesatura i pesi dei termini indice sono considerati mutuamente indipendenti, cio� conoscere il peso della coppia (t i ,d h ) non ci d� informazioni circa il peso associato alla coppia (t i+1 ,d h ). Questa � una semplificazione poich� le ricorrenze dei termini indice non sono in realt� scorrelate [Baeza et al. �99]. L�estrazione dei termini indice dal documento e la creazione della struttura che lo rappresenta � chiamata indicizzazione. Questo modello, che � il pi� comune usato in letteratura per la rappresentazione dei documenti, � chiamato Vector Space Model [Salton et al. �83]. I documenti possono quindi essere rappresentati da una matrice W le cui M righe rappresentano i termini t 1 ,...,t M , le cui N colonne sono i documenti d 1 ,......,d N e l�elemento w i,h rappresenta il peso del termine t i nel documento d h .

Anteprima della Tesi di Debora Desideri

Anteprima della tesi: Sistema di classificazione e recupero dei documenti basato sul linguaggio naturale, Pagina 11

Tesi di Laurea

Facoltà: Scienze Matematiche, Fisiche e Naturali

Autore: Debora Desideri Contatta »

Composta da 207 pagine.

 

Questa tesi ha raggiunto 1656 click dal 20/03/2004.

 

Consultata integralmente 3 volte.

Disponibile in PDF, la consultazione è esclusivamente in formato digitale.