Questo sito utilizza cookie di terze parti per inviarti pubblicità in linea con le tue preferenze. Se vuoi saperne di più clicca QUI 
Chiudendo questo banner, scorrendo questa pagina, cliccando su un link o proseguendo la navigazione in altra maniera, acconsenti all'uso dei cookie. OK

Sistema di interrogazione intelligente di documenti ufficiali del Parlamento Europeo

Argomento principale della tesi in oggetto, e´ riuscire a sfruttare l’analisi della semantica latente [2] (cfr. Cap 2) per poter rappresentare le parole secondo il significato assunto nel contesto in cui si trovano e fornire all’utente un’interfaccia amichevole per il recupero di informazioni. Tale risultato si puo´ ottenere grazie all’analisi di grandi quantita´ di documenti, da cui si possono estrarre relazioni semantiche tra i termini che li compongono, effettuando calcoli statistici sulla frequenza di occorrenza delle singole parole nei documenti al fine di poter rappresentare (cfr. §2.4 e segg.) tutte le parole in uno spazio semantico. E´ possibile inoltre avere una conoscenza generale su un argomento specifico, in base ai documenti successivamente codificati.
Nel caso preso in esame, si e´ realizzata la rappresentazione in uno spazio semantico delle parole dei documenti in lingua inglese facenti parte dell’ archivio del parlamento europeo [1].
In tal modo l’utente del sistema e´ in grado di porre all’applicazione molteplici domande circa un argomento specifico, ricevendo una risposta semanticamente legata alla domanda e non effettuando - come i piu´ diffusi sistemi per il recupero di informazioni (cfr. Cap. 1) - una ricerca lessicale per corrispondenza di termini tra la richiesta dell’utente stesso e tutti i documenti presenti nell’insieme dei testi disponibili.
Attraverso la rappresentazione dei termini nello spazio semantico e´ possibile quindi ottenere sottoinsiemi di parole strettamente legate tra loro dal punto di vista semantico identificando vettori vicini nello spazio di codifica.
A ciascuna parola dello spazio verra´ associata una propria codifica vettoriale che la rappresenta nello spazio semantico considerato, tale codifica e´ necessaria per poter effettuare ad esempio confronti di distanza in modo da trovare parole semanticamente vicine: parole a distanza minore nello spazio n-dimensionale saranno maggiormente legate dal punto di vista semantico rispetto a quanto non lo siano parole le cui rappresentazioni vettoriali si trovino rispettivamente l’uno dall’altro ad una distanza maggiore.
Il primo capitolo riporta un’introduzione al recupero automatico dell’informazione e ai sistemi di recupero di informazione (Information Retrieval - IR), enunciando alcune delle caratteristiche principali dei sistemi di ricerca.
Nel secondo capitolo verra´ esposta la tecnica di analisi della semantica latente per la codifica delle parole e per il recupero di informazioni. Si fara´ inoltre riferimento alla scomposizione ai valori singolari (Singular Value Decomposition - SVD) della matrice utilizzata come base di partenza per la codifica dei termini.
Il capitolo terzo tratta della soluzione proposta, approfondendo le varie parti dello sviluppo dell’applicazione ed illustrando inoltre le tecniche di misura innovative utilizzate per ottenere la risposta piu´ pertinente alle richieste degli utenti.
Nell’ultimo capitolo e´ possibile trovare informazioni di carattere generale sul sistema sviluppato, collezione dei documenti, riferimenti alle piu´ diffuse interfacce di interazione uomo-macchina con un’introduzione ai chat-bot e alle differenze che intercorrono tra tali agenti software - i chat-bot - ed il sistema sviluppato in questa tesi.

Mostra/Nascondi contenuto.
7 Introduzione Argomento principale della tesi in oggetto, e´ riuscire a sfruttare l’analisi della semantica latente [2] (cfr. Cap 2) per poter rappresentare le parole secondo il significato assunto nel contesto in cui si trovano e fornire all’utente un’interfaccia amichevole per il recupero di informazioni. Tale risultato si puo´ ottenere grazie all’analisi di grandi quantita´ di documenti, da cui si possono estrarre relazioni semantiche tra i termini che li compongono, effettuando calcoli statistici sulla frequenza di occorrenza delle singole parole nei documenti al fine di poter rappresentare (cfr. §2.4 e segg.) tutte le parole in uno spazio semantico. E´ possibile inoltre avere una conoscenza generale su un argomento specifico, in base ai documenti successivamente codificati. Nel caso preso in esame, si e´ realizzata la rappresentazione in uno spazio semantico delle parole dei documenti in lingua inglese facenti parte dell’ archivio del parlamento europeo [1]. In tal modo l’utente del sistema e´ in grado di porre all’applicazione molteplici domande circa un argomento specifico, ricevendo una risposta semanticamente legata alla domanda e non effettuando - come i piu´ diffusi sistemi per il recupero di informazioni (cfr. Cap. 1) - una ricerca lessicale per corrispondenza di termini tra la richiesta dell’utente stesso e tutti i documenti presenti nell’insieme dei testi disponibili. Attraverso la rappresentazione dei termini nello spazio semantico e´ possibile quindi ottenere sottoinsiemi di parole strettamente legate tra Salvatore La Bua – www.shogoki.it

Laurea liv.I

Facoltà: Ingegneria

Autore: Salvatore La Bua Contatta »

Composta da 68 pagine.

 

Questa tesi ha raggiunto 385 click dal 12/06/2009.

Disponibile in PDF, la consultazione è esclusivamente in formato digitale.