Questo sito utilizza cookie di terze parti per inviarti pubblicità in linea con le tue preferenze. Se vuoi saperne di più clicca QUI 
Chiudendo questo banner, scorrendo questa pagina, cliccando su un link o proseguendo la navigazione in altra maniera, acconsenti all'uso dei cookie. OK

Search Engine Support System - Analisi, studio e implementazione di un sistema di supporto alla generazione semiautomatica di configurazioni per l’acquisizione di fonti di informazioni da parte di motori di ricerca

Nell'ultimo decennio il mondo ha assistito ad un fenomeno unico nel suo genere: la nascita e l'espansione del Web. Negli ultimissimi anni l'aumento esponenziale della capacità dei supporti di memorizzazione, accompagnata ad un forte calo dei tempi di distribuzione e di accesso delle informazioni attraverso la rete Internet, ha accelerato in maniera significativa tale espansione ed attualmente sulla rete è presente una quantità dell'ordine dei miliardi di pagine Web.

La possibilità di disporre di tanta informazione è sicuramente un aspetto positivo in quanto permette lo scambio ed il recupero di dati importanti attraverso tutto il pianeta. Di fronte ad un tale volume informativo gli utenti di Internet hanno però inizialmente incontrato notevoli difficoltà nella ricerca e nel recupero delle informazioni di interesse, infatti non si riusciva a direzionare in maniera appropriata la ricerca sul vasto dominio del Web.

Per ovviare a tale problema sono quindi stati implementati i ben noti "motori di ricerca" su Web (search engines) che si propongono di condurre l'utente verso un'osservazione più mirata dell'informazione d'interesse in tempi molto brevi; ricordiamo in particolare il popolare motore di ricerca Google ([1]). Esso è un Web crawler che indicizza una grande mole di pagine Web (al momento più di otto miliardi). L'attività di crawling di Google parte da una collezione iniziale di pagine (indirizzi) note: per ogni pagina il crawler segue gli hyperlink uscenti, scarica le pagine raggiunte in un repository locale e itera tale procedura per ogni nuova pagina scaricata. Successivamente Google assegna ad ogni pagina Web un "voto" seguendo il meccanismo del PageRank che consiste sostanzialmente nell'attribuire maggiori valore e importanza alle pagine molto "linkate", cioè molto citate da altre pagine. Il risultato di una ricerca su Google sarà quindi contraddistinto da una lista di indirizzi Web rappresentati da URL (Uniform Resource Locator) che puntano a pagine contenenti la parola/e specificata dall'utente ordinate per PageRank.

Mostra/Nascondi contenuto.
7 Introduzione Nell’ultimo decennio il mondo ha assistito ad un fenomeno unico nel suo genere: la nascita e l’espansione del Web. Negli ultimissimi anni l’aumento esponenziale della capacità dei supporti di memorizzazione, accompagnata ad un forte calo dei tempi di distribuzione e di accesso delle informazioni attraverso la rete Internet, ha accelerato in maniera significativa tale espansione ed attualmente sulla rete è presente una quantità dell’ordine dei miliardi di pagine Web. La possibilità di disporre di tanta informazione è sicuramente un aspetto positivo in quanto permette lo scambio ed il recupero di dati importanti attraverso tutto il pianeta. Di fronte ad un tale volume informativo gli utenti di Internet hanno però inizialmente incontrato notevoli difficoltà nella ricerca e nel recupero delle informazioni di interesse, infatti non si riusciva a direzionare in maniera appropriata la ricerca sul vasto dominio del Web. Per ovviare a tale problema sono quindi stati implementati i ben noti “motori di ricerca” su Web (search engines) che si propongono di condurre l’utente verso un’osservazione più mirata dell’informazione d’interesse in tempi molto brevi; ricordiamo in particolare il popolare motore di ricerca Google ([1]). Esso è un Web crawler che indicizza una grande mole di pagine Web (al momento più di otto miliardi). L’attività di crawling di Google parte da una collezione iniziale di pagine (indirizzi) note: per ogni pagina il crawler segue gli hyperlink uscenti, scarica le pagine raggiunte in un repository locale e itera tale procedura per ogni nuova pagina scaricata. Successivamente Google assegna ad ogni pagina Web un “voto” seguendo il meccanismo del PageRank che consiste sostanzialmente nell’attribuire maggiori valore e importanza alle pagine molto “linkate”, cioè molto citate da altre pagine. Il risultato di una ricerca su Google sarà quindi contraddistinto da una lista di indirizzi Web rappresentati da URL (Uniform Resource Locator) che puntano a pagine contenenti la parola/e specificata dall’utente ordinate per PageRank. Nonostante gli innumerevoli vantaggi apportati dai motori di ricerca, esistono ancora alcuni problemi insoluti che limitano in modo non trascurabile i risultati di una ricerca sul Web in termini di informazioni raggiungibili e di visualizzazione dei risultati. Tali problematiche si traducono principalmente in due aspetti: - Le pagine fornite come risultato in generale non sono ordinate secondo la loro rilevanza rispetto alla parola/e e quindi all’argomento cercato;

Laurea liv.I

Facoltà: Ingegneria

Autore: Luca Peruzzi Contatta »

Composta da 60 pagine.

 

Questa tesi ha raggiunto 180 click dal 29/08/2011.

Disponibile in PDF, la consultazione è esclusivamente in formato digitale.