Questo sito utilizza cookie di terze parti per inviarti pubblicità in linea con le tue preferenze. Se vuoi saperne di più clicca QUI 
Chiudendo questo banner, scorrendo questa pagina, cliccando su un link o proseguendo la navigazione in altra maniera, acconsenti all'uso dei cookie. OK

Un sistema per la generazione semiautomatica di programmi per la navigazione e l’estrazione di dati da web

Il World Wide Web, uno dei servizi di internet più conosciuti e utilizzati, mette a disposizione degli utenti uno spazio elettronico e digitale per la pubblicazione di contenuti multimediali. La diffusione di personal computers e di accessi a internet permette a un gran numero di persone nel mondo di pubblicare e consultare una enorme quantità di informazioni.
E’ dunque plausibile considerare il World Wide Web come una grande fonte di dati, riguardanti i più svariati argomenti. Nel futuro si immagina di trasformare il web in un vero e proprio database, che faciliterebbe l’accesso ai contenuti da parte di applicazioni diverse da normali browser. L’estrazione automatica dei dati da web è da considerarsi, perciò, un interessante oggetto di studio.
La fruizione delle informazioni disponibili su web è basata su due operazioni fondamentali: (i) la produzione di percorsi navigazionali per raggiungere pagine contenenti le informazioni di interesse; (ii) la successiva estrazione dei dati di interesse.
Sebbene in ambito scientifico siano stati proposti numerosi metodi e sistemi per l’estrazione di dati da web, la raccolta delle pagine che contengono le informazioni di interesse, pur essendo operazione necessaria alla successiva estrazione, risulta largamente trascurata. Inoltre, i metodi proposti trattano le due operazioni in modo separato e non cercano mai di risolvere entrambi i problemi, sebbene essi siano complementari.
In questa tesi è presentato un sistema, basato su opportuni modelli, che permette di svolgere entrambe le operazioni. Questi modelli, infatti, descrivono la struttura dei percorsi navigazionali che permettono di raggiungere le pagine di interesse e la struttura dei contenuti che possono essere estratti da tali pagine.
La costruzione dei modelli si basa sul fatto che nei siti web odierni le informazioni sono spesso organizzate seguendo strutture molto regolari. Le strutture presentano questa caratteristica poichè sono prodotte da alcuni scripts remoti che prelevano le informazioni da un database sottostante e le presentano immergendole in codice sorgente html. Gli scripts in questione costruiscono le pagine in modo automatizzato e perciò alcuni gruppi di pagine finiscono con il presentare delle regolarità evidenti.
Facendo leva su tali regolarità, è possibile sviluppare delle tecniche per l’estrazione e la memorizzazione in formati strutturati dei dati provenienti da simili pagine.
Il metodo proposto in questa tesi ha come principale vantaggio che si presta ad una implementazione visuale molto intuitiva per un utente, anche non esperto. L’utente può definire i percorsi navigazionali che conducono alle pagine di interesse con una normale sessione di browsing e quindi seleziona interattivamente le informazioni da estrarre, lavorando su poche pagine campione alla volta.
E’ compito dei modelli provvedere a presentare le informazioni in modo tale da guidare l’utente nella scelta dei percorsi e delle informazioni da poter estrarre.
Il lavoro svolto è stato studiare e, dove possibile, opportunatamente migliorare i metodi alla base della creazione di regole per l’estrazione dei dati e per la raccolta delle pagine web. Un ulteriore sforzo è stato impiegato per lo studio del campionamento delle pagine web contenenti i dati di interesse. Lo sviluppo di questa pratica ha permesso di migliorare l’efficienza e la precisione del metodo, grazie alla possiblità di lavorare su un ristretto numero di pagine che fosse il più possibile rappresentativo della popolazione complessiva.
A supporto del metodo qui presentato è illustrato uno strumento, RoadRunner Portal, che permette di svolgere le operazioni di raccolta ed estrazione dei dati contemporaneamente. Lo strumento, sviluppato nel corso di questa tesi, impiega tecnologie all’avanguardia per svolgere questi compiti.
Grazie ad un approccio visuale permette di definire i percorsi navigazionali ed i dati da estrarre; una volta completato, il lavoro permette di costruire opportune specifiche formali, altrimenti detti programmi, che consentono di replicare queste operazioni ogni qual volta desiderato, tramite esecutori esterni all’applicazione stessa.
Infine, saranno descritti gli scenari di utilizzo più comuni per questa applicazione. Tali scenari mostrano passo passo come l’applicazione si è comportata nel perseguire degli obiettivi su alcuni siti di fama mondiale.
Oltre a questi casi mostrati nel dettaglio, in questa tesi vi è una sezione dedicata ad esperimenti applicati su numerose casistiche. L’applicazione è stata testata su un gran numero di siti web, per poterne analizzare l’efficienza effettiva.

Mostra/Nascondi contenuto.
Capitolo 1 Introduzione Il World Wide Web, uno dei servizi di internet piu` conosciuti e utilizzati, mette a disposizione degli utenti uno spazio elettronico e digitale per la pubblicazione di contenuti multimediali. La diffusione di personal computers e di accessi a internet permette a un gran numero di persone nel mondo di pubblicare e consultare una enorme quantita` di informazioni. E’ dunque plausibile considerare il World Wide Web come una grande fonte di dati, riguardanti i piu` svariati argomenti. Nel futuro si immagina di trasformare il web in un vero e proprio database, che faciliterebbe l’accesso ai contenuti da parte di applicazioni diverse da normali browser. L’estrazione automatica dei dati da web e` da considerarsi, percio`, un interessante oggetto di studio. La fruizione delle informazioni disponibili su web e` basata su due ope- razioni fondamentali: (i) la produzione di percorsi navigazionali per rag- giungere pagine contenenti le informazioni di interesse; (ii) la successiva estrazione dei dati di interesse. Sebbene in ambito scientifico siano stati proposti numerosi metodi e si- stemi per l’estrazione di dati da web, la raccolta delle pagine che contengono le informazioni di interesse, pur essendo operazione necessaria alla successiva estrazione, risulta largamente trascurata. Inoltre, i metodi proposti trattano le due operazioni in modo separato e non cercano mai di risolvere entrambi i problemi, sebbene essi siano complementari. In questa tesi e` presentato un sistema, basato su opportuni modelli, che 1

Laurea liv.II (specialistica)

Facoltà: Ingegneria

Autore: Paolo Montagna Contatta »

Composta da 78 pagine.

 

Questa tesi ha raggiunto 267 click dal 24/07/2009.

Disponibile in PDF, la consultazione è esclusivamente in formato digitale.