Questo sito utilizza cookie di terze parti per inviarti pubblicità in linea con le tue preferenze. Se vuoi saperne di più clicca QUI 
Chiudendo questo banner, scorrendo questa pagina, cliccando su un link o proseguendo la navigazione in altra maniera, acconsenti all'uso dei cookie. OK

Progettazione e implementazione di un web bot per la raccolta dati

Laurea liv.I

Facoltà: Scienze Matematiche, Fisiche e Naturali

Autore: Emilio Schininà Contatta »

Composta da 65 pagine.

 

Questa tesi ha raggiunto 447 click dal 16/05/2017.

Disponibile in PDF, la consultazione è esclusivamente in formato digitale.

 

 

Estratto della Tesi di Emilio Schininà

Mostra/Nascondi contenuto.
14 Parser La fase che permette di destrutturare i contenuti del web è detta parsing. Tramite essa è possibile ridurre il documento ad una rappresentazione che il crawler potrà interpretare. Un parser analizza i contenuti a partire da regole che dipendono dal tipo di file che si sta analizzando. Genericamente i parser sono utilizzati con i linguaggi di programmazione, i quali hanno delle grammatiche semplici e regolari; i parser di questo tipo tendono ad essere basati su grammatiche libere dal contesto (ogni regola sintattica è espressa sotto forma di derivazione di un simbolo a sinistra a partire da uno o più simboli a destra) poiché con queste grammatiche si possono scrivere parser veloci ed efficienti. Per questo motivo, il design pattern più utilizzato nello sviluppo dei parser è quello della macchina a stati finiti. Di solito i parser non sono scritti a mano, ma realizzati attraverso dei generatori di parser. I generatori riconoscono la sintassi grammaticale del testo analizzato e generano delle regole, che non sempre risultano efficaci. Purtroppo, non sempre si riesce a generare un parser ottimale, sta al programmatore testare il programma e risolvere i problemi che si presentano nei casi limite (hard test). L'analisi sintattica opera su una sequenza di token in cui l'analizzatore lessicale spezzetta l’input. Se si vogliono raggiungere prestazioni elevate è necessario che il crawler replichi i vari componenti di cui è composto in modo tale che sia possibile processare diverse centinaia o migliaia di documenti parallelamente. L’attività di crawling può essere quindi eseguita creando un gruppo o pool di N processi. Nelle
Estratto dalla tesi:  Progettazione e implementazione di un web bot per la raccolta dati