Skip to content

Un sistema per la generazione semiautomatica di programmi per la navigazione e l’estrazione di dati da web

Informazioni tesi

  Autore: Paolo Montagna
  Tipo: Laurea liv.II (specialistica)
  Anno: 2007-08
  Università: Università degli Studi Roma Tre
  Facoltà: Ingegneria
  Corso: Ingegneria informatica
  Relatore: Paolo Merialdo
  Lingua: Italiano
  Num. pagine: 78

Il World Wide Web, uno dei servizi di internet più conosciuti e utilizzati, mette a disposizione degli utenti uno spazio elettronico e digitale per la pubblicazione di contenuti multimediali. La diffusione di personal computers e di accessi a internet permette a un gran numero di persone nel mondo di pubblicare e consultare una enorme quantità di informazioni.
E’ dunque plausibile considerare il World Wide Web come una grande fonte di dati, riguardanti i più svariati argomenti. Nel futuro si immagina di trasformare il web in un vero e proprio database, che faciliterebbe l’accesso ai contenuti da parte di applicazioni diverse da normali browser. L’estrazione automatica dei dati da web è da considerarsi, perciò, un interessante oggetto di studio.
La fruizione delle informazioni disponibili su web è basata su due operazioni fondamentali: (i) la produzione di percorsi navigazionali per raggiungere pagine contenenti le informazioni di interesse; (ii) la successiva estrazione dei dati di interesse.
Sebbene in ambito scientifico siano stati proposti numerosi metodi e sistemi per l’estrazione di dati da web, la raccolta delle pagine che contengono le informazioni di interesse, pur essendo operazione necessaria alla successiva estrazione, risulta largamente trascurata. Inoltre, i metodi proposti trattano le due operazioni in modo separato e non cercano mai di risolvere entrambi i problemi, sebbene essi siano complementari.
In questa tesi è presentato un sistema, basato su opportuni modelli, che permette di svolgere entrambe le operazioni. Questi modelli, infatti, descrivono la struttura dei percorsi navigazionali che permettono di raggiungere le pagine di interesse e la struttura dei contenuti che possono essere estratti da tali pagine.
La costruzione dei modelli si basa sul fatto che nei siti web odierni le informazioni sono spesso organizzate seguendo strutture molto regolari. Le strutture presentano questa caratteristica poichè sono prodotte da alcuni scripts remoti che prelevano le informazioni da un database sottostante e le presentano immergendole in codice sorgente html. Gli scripts in questione costruiscono le pagine in modo automatizzato e perciò alcuni gruppi di pagine finiscono con il presentare delle regolarità evidenti.
Facendo leva su tali regolarità, è possibile sviluppare delle tecniche per l’estrazione e la memorizzazione in formati strutturati dei dati provenienti da simili pagine.
Il metodo proposto in questa tesi ha come principale vantaggio che si presta ad una implementazione visuale molto intuitiva per un utente, anche non esperto. L’utente può definire i percorsi navigazionali che conducono alle pagine di interesse con una normale sessione di browsing e quindi seleziona interattivamente le informazioni da estrarre, lavorando su poche pagine campione alla volta.
E’ compito dei modelli provvedere a presentare le informazioni in modo tale da guidare l’utente nella scelta dei percorsi e delle informazioni da poter estrarre.
Il lavoro svolto è stato studiare e, dove possibile, opportunatamente migliorare i metodi alla base della creazione di regole per l’estrazione dei dati e per la raccolta delle pagine web. Un ulteriore sforzo è stato impiegato per lo studio del campionamento delle pagine web contenenti i dati di interesse. Lo sviluppo di questa pratica ha permesso di migliorare l’efficienza e la precisione del metodo, grazie alla possiblità di lavorare su un ristretto numero di pagine che fosse il più possibile rappresentativo della popolazione complessiva.
A supporto del metodo qui presentato è illustrato uno strumento, RoadRunner Portal, che permette di svolgere le operazioni di raccolta ed estrazione dei dati contemporaneamente. Lo strumento, sviluppato nel corso di questa tesi, impiega tecnologie all’avanguardia per svolgere questi compiti.
Grazie ad un approccio visuale permette di definire i percorsi navigazionali ed i dati da estrarre; una volta completato, il lavoro permette di costruire opportune specifiche formali, altrimenti detti programmi, che consentono di replicare queste operazioni ogni qual volta desiderato, tramite esecutori esterni all’applicazione stessa.
Infine, saranno descritti gli scenari di utilizzo più comuni per questa applicazione. Tali scenari mostrano passo passo come l’applicazione si è comportata nel perseguire degli obiettivi su alcuni siti di fama mondiale.
Oltre a questi casi mostrati nel dettaglio, in questa tesi vi è una sezione dedicata ad esperimenti applicati su numerose casistiche. L’applicazione è stata testata su un gran numero di siti web, per poterne analizzare l’efficienza effettiva.

CONSULTA INTEGRALMENTE QUESTA TESI

La consultazione è esclusivamente in formato digitale .PDF

Acquista
Mostra/Nascondi contenuto.
Capitolo 1 Introduzione Il World Wide Web, uno dei servizi di internet piu` conosciuti e utilizzati, mette a disposizione degli utenti uno spazio elettronico e digitale per la pubblicazione di contenuti multimediali. La diffusione di personal computers e di accessi a internet permette a un gran numero di persone nel mondo di pubblicare e consultare una enorme quantita` di informazioni. E’ dunque plausibile considerare il World Wide Web come una grande fonte di dati, riguardanti i piu` svariati argomenti. Nel futuro si immagina di trasformare il web in un vero e proprio database, che faciliterebbe l’accesso ai contenuti da parte di applicazioni diverse da normali browser. L’estrazione automatica dei dati da web e` da considerarsi, percio`, un interessante oggetto di studio. La fruizione delle informazioni disponibili su web e` basata su due ope- razioni fondamentali: (i) la produzione di percorsi navigazionali per rag- giungere pagine contenenti le informazioni di interesse; (ii) la successiva estrazione dei dati di interesse. Sebbene in ambito scientifico siano stati proposti numerosi metodi e si- stemi per l’estrazione di dati da web, la raccolta delle pagine che contengono le informazioni di interesse, pur essendo operazione necessaria alla successiva estrazione, risulta largamente trascurata. Inoltre, i metodi proposti trattano le due operazioni in modo separato e non cercano mai di risolvere entrambi i problemi, sebbene essi siano complementari. In questa tesi e` presentato un sistema, basato su opportuni modelli, che 1

CONSULTA INTEGRALMENTE QUESTA TESI

La consultazione è esclusivamente in formato digitale .PDF

Acquista

FAQ

Per consultare la tesi è necessario essere registrati e acquistare la consultazione integrale del file, al costo di 29,89€.
Il pagamento può essere effettuato tramite carta di credito/carta prepagata, PayPal, bonifico bancario, bollettino postale.
Confermato il pagamento si potrà consultare i file esclusivamente in formato .PDF accedendo alla propria Home Personale. Si potrà quindi procedere a salvare o stampare il file.
Maggiori informazioni
Ingiustamente snobbata durante le ricerche bibliografiche, una tesi di laurea si rivela decisamente utile:
  • perché affronta un singolo argomento in modo sintetico e specifico come altri testi non fanno;
  • perché è un lavoro originale che si basa su una ricerca bibliografica accurata;
  • perché, a differenza di altri materiali che puoi reperire online, una tesi di laurea è stata verificata da un docente universitario e dalla commissione in sede d'esame. La nostra redazione inoltre controlla prima della pubblicazione la completezza dei materiali e, dal 2009, anche l'originalità della tesi attraverso il software antiplagio Compilatio.net.
  • L'utilizzo della consultazione integrale della tesi da parte dell'Utente che ne acquista il diritto è da considerarsi esclusivamente privato.
  • Nel caso in cui l'Utente volesse pubblicare o citare una tesi presente nel database del sito www.tesionline.it deve ottenere autorizzazione scritta dall'Autore della tesi stessa, il quale è unico detentore dei diritti.
  • L'Utente è l'unico ed esclusivo responsabile del materiale di cui acquista il diritto alla consultazione. Si impegna a non divulgare a mezzo stampa, editoria in genere, televisione, radio, Internet e/o qualsiasi altro mezzo divulgativo esistente o che venisse inventato, il contenuto della tesi che consulta o stralci della medesima. Verrà perseguito legalmente nel caso di riproduzione totale e/o parziale su qualsiasi mezzo e/o su qualsiasi supporto, nel caso di divulgazione nonché nel caso di ricavo economico derivante dallo sfruttamento del diritto acquisito.
  • L'Utente è a conoscenza che l'importo da lui pagato per la consultazione integrale della tesi prescelta è ripartito, a partire dalla seconda consultazione assoluta nell'anno in corso, al 50% tra l'Autore/i della tesi e Tesionline Srl, la società titolare del sito www.tesionline.it.
L'obiettivo di Tesionline è quello di rendere accessibile a una platea il più possibile vasta il patrimonio di cultura e conoscenza contenuto nelle tesi.
Per raggiungerlo, è fondamentale superare la barriera rappresentata dalla lingua. Ecco perché cerchiamo persone disponibili ad effettuare la traduzione delle tesi pubblicate nel nostro sito.
Scopri come funziona

DUBBI? Contattaci

Contatta la redazione a
[email protected]

Ci trovi su Skype (redazione_tesi)
dalle 9:00 alle 13:00

Oppure vieni a trovarci su

Parole chiave

estrazione automatica dei dati da web
estrazione dati internet
ingeneria informatica

Non hai trovato quello che cercavi?


Abbiamo più di 45.000 Tesi di Laurea: cerca nel nostro database

Oppure consulta la sezione dedicata ad appunti universitari selezionati e pubblicati dalla nostra redazione

Ottimizza la tua ricerca:

  • individua con precisione le parole chiave specifiche della tua ricerca
  • elimina i termini non significativi (aggettivi, articoli, avverbi...)
  • se non hai risultati amplia la ricerca con termini via via più generici (ad esempio da "anziano oncologico" a "paziente oncologico")
  • utilizza la ricerca avanzata
  • utilizza gli operatori booleani (and, or, "")

Idee per la tesi?

Scopri le migliori tesi scelte da noi sugli argomenti recenti


Come si scrive una tesi di laurea?


A quale cattedra chiedere la tesi? Quale sarà il docente più disponibile? Quale l'argomento più interessante per me? ...e quale quello più interessante per il mondo del lavoro?

Scarica gratuitamente la nostra guida "Come si scrive una tesi di laurea" e iscriviti alla newsletter per ricevere consigli e materiale utile.


La tesi l'ho già scritta,
ora cosa ne faccio?


La tua tesi ti ha aiutato ad ottenere quel sudato titolo di studio, ma può darti molto di più: ti differenzia dai tuoi colleghi universitari, mostra i tuoi interessi ed è un lavoro di ricerca unico, che può essere utile anche ad altri.

Il nostro consiglio è di non sprecare tutto questo lavoro:

È ora di pubblicare la tesi