Skip to content

Gli strumenti informatici per catalogare la conoscenza

Fin dagli anni '70 i cataloghi di grandi biblioteche sono stati riversati in formato digitale. E resi interrogabili dal web. Tale strumento si chiama OPAC. Non è semplice gestire database con migliaia di record (registrazioni) e tabelle in relazione tra loro (autore, titolo, collegamenti). La tecnologia alla base dell’interrogazione di archivi digitali è conosciuta come Information Retrieval. Ovvero catturare le informazioni rilevanti nella foresta delle informazioni. Ad esempio si tratta di verificare quali libri contengano una parola richiesta. Saranno disponibili per la ricerca operatori booleani, operatori di adiacenza o relazionali. Quando le voci da scorrere son molte, è fondamentale l’ordine in cui compaiono, l’utente guarda solo le prime voci. I codici di classificazione sono molto utili per la macchina perché hanno una struttura logica. Poi ci permettono di muoverci nelle sottoclassi. Oggi sempre più spesso son disponibili interi documenti in formato digitale. Le ricerche possono essere dunque effettuate sullo stesso testo, cercando documenti che contengono una certa sequenza di parole, una parola ma non altre ecc. Ma come i motori di ricerca ci insegnano, non sempre tali ricerche sono efficaci. Ci viene in aiuto la statistica. Se una parola ricorre spesso (TF) è più probabile che il documento contenga info utili sul suo significato. Occorre pesare la frequenza della parola. Questo è un modello vettoriale o algebrico di IR. Esiste poi la variante a rete neurale: se cerco una parola posso ottenere anche documenti in cui la parola non c’è ma associati per relazioni particolari.

C’è poi la tecnica del clustering: i cluster, o grappoli, sono gruppi di documenti che si assomigliano in quanto contengono parole simili o associati in qualche modo. Il clustering produce dendrogrammi=alberi i cui grappoli apparentemente più simili sono disposti su rami vicini. C’è un motore di ricerca chiamato Clusty che raggruppa le informazioni in cluster. Ma il sistema non è efficacissimo.

Se abbiamo già 200 documenti classificati e assegnati a un certo numero di classi e dobbiamo aggiungerne altri 1000, la macchina può stabilire la somiglianza tra articoli ed articoli precedenti assegnandogli la classe di articolo più simile. È l’ analisi automatica dei testi. Come fa Google con Adsense. O quello che fa la webmail con lo spam. Invece quando già il testo è strutturato in elementi come abstract, titolo e contenitori dei paragrafi, tali elementi possono essere contraddistinti da marcatori=tag che aiutano a valutarne l’importanza. Questo lo fanno i linguaggi di marcatura (html, xhtml, xml). In un buon html il titolo ha <title> e <h1>, le parole importanti in strong o em. I marcatori sono anche utili ai programmi per l’indicizzazione automatica, per calcolare la rilevanza=ranking del documento rispetto al termine cercato. Alcuni elementi sono aggiunti apposta, come i metadati nella <head> del documento.

Ci stiamo muovendo nella direzione del web semantico. Espressione coniata da Tim Berners Lee. Indica un insieme di linguaggi, schemi e strumenti finalizzati alla marcatura e all’organizzione dei contenuti del web in un ottica di rete: occorre marcare bene i documenti web (titoli link ecc.) ma anche i loro contenuti. Tra i linguaggi di marcatura: xml e rdf. Tendenza a creare schemi di termini standard per un determinato settore. Le tassonomie specificano i termini utilizzati per i marcatori e le relazioni tra loro, le ontologie specificano anche ogni altro tipo di relazione. Il W3C ultimamente ha messo a punto linguaggi per la scrittura di ontologie come OWL.

L’ architettura dell’informazione indica invece criteri e tecniche per strutturare l’informazione nei vari ambienti digitali (internet, intranet, banche dati) facilitandone reperimento e fruizione.

di Dario Gemini
Valuta questo appunto:

Continua a leggere:

Altri appunti correlati:

Per approfondire questo argomento, consulta le Tesi:

Puoi scaricare gratuitamente questo appunto in versione integrale.