Questo sito utilizza cookie di terze parti per inviarti pubblicità in linea con le tue preferenze. Se vuoi saperne di più clicca QUI 
Chiudendo questo banner, scorrendo questa pagina, cliccando su un link o proseguendo la navigazione in altra maniera, acconsenti all'uso dei cookie. OK

Posizionamento sui Motori di Ricerca: ''opinione del web'' e strumento di marketing

L'anteprima di questa tesi è scaricabile in PDF gratuitamente.
Per scaricare il file PDF è necessario essere iscritto a Tesionline.
L'iscrizione non comporta alcun costo. Mostra/Nascondi contenuto.

2. Come funziona uno spider ______________________________________________________________ 18 che collega ogni link al documento a cui punta. In questo modo vengono anche raccolte le informazioni necessarie per calcolare il PageRank di ogni documento. Il Document Indexer, invece, mantiene le informazioni riguardo ciascun documento ed è ordinato per docID. Se il documento ha avuto un passaggio dal crawler, nella entry sono contenuti anche un file chiamato docinfo indicante l’url e il title. In caso contrario, il docID è collegato solamente all’url relativa. Il contenuto dei barrels, organizzato in base ai docID, viene riordinato per wordID, ossia per parole, generando il cosiddetto “indice invertito”. Un programma chiamato DumpLexicon prende questa lista di termini, insieme a quella prodotta dall’indexer (presenti negli hits 9 ) e crea un nuovo dizionario che può essere usato da quella parte della struttura di Google chiamato Searcher. Quest’ultimo utilizza il dizionario insieme all’indice invertito e al Page Rank per ordinare i risultati e fornirli in risposta alle domande dell’utente. Uno dei problemi principali consiste nel metodo di ordinamento di tali documenti: elencarli in base al loro docID? Elencarli in base al numero di occorrenze dei termini della query all’interno del documento? Prestare maggiore attenzione al fornire risultati attendibili per query di un solo termine o per query più complesse? Sicuramente valutare una rilevanza per una stringa composta da diversi termini è molto più problematico che per una parola singola. Inoltre, cambiare l’algoritmo utilizzato per il ranking significa ricostruire l’indice. Per evitare almeno in parte le difficoltà derivanti da operazioni del genere, Google ha scelto di mantenere due set di contenitori “invertiti”: il primo set è costituito da file che descrivono solo title e ancor hit, dati sufficientemente stabili, il secondo costituito da tutti gli altri dati relativi al documento. 9 Una lista di hit è una lista di occorrenze di una particolare parola in un documento:comprende la posizione, il font e la capitalization. Le hit list occupano la maggior parte dello spazio usato in entrambi gli indici, quello “normale” e quello “invertito”. Ci sono però due tipi di hit: quelli denominati “fancy hit” e gli hits semplici. I primi includono le parole che compaiono nella URL, nel title, nei testi dei link e nei meta tag , mentre gli hit semplici includono le occorrenze che si presentano in qualsiasi altra sezione della pagina. In un fancy hit troviamo, in pochi bit, dati riguardanti capitalizzazione, font size, posizione, oltre la codifica necessaria per segnalare al sistema che quello è un fancy hit.

Anteprima della Tesi di Chiara Ferrari

Anteprima della tesi: Posizionamento sui Motori di Ricerca: ''opinione del web'' e strumento di marketing, Pagina 15

Tesi di Laurea

Facoltà: Lettere e Filosofia

Autore: Chiara Ferrari Contatta »

Composta da 297 pagine.

 

Questa tesi ha raggiunto 2944 click dal 10/03/2005.

 

Consultata integralmente 12 volte.

Disponibile in PDF, la consultazione è esclusivamente in formato digitale.