Skip to content

Classificare la conoscenza: come organizzare i documenti

Possiamo definire documenti tutti i contenitori di conoscenza: riviste, filmati, siti web, messaggi di posta. Secondo quali schemi organizzarli? 
Il modo più efficace è costruire indici, rappresentazioni sintetiche con riferimenti ai documenti interi (indicizzazione). L' indicizzazione è una catalogazione se l'indice include info su copie possedute e ubicazione dei documenti. In una biblioteca i riferimenti dall'indice ai documenti sono codici di collocazione; in un bibliografia sono citazioni bibliografiche. In un ipertesto dei link.

In ambiente digitale le informazioni che descrivono i documenti si chiamano metadati. Essi possono riguardare vari aspetti del documento come caratteristiche tecniche (formato file, dimensioni - metadati amministrativo gestionali), titolo, autore, editore (metadati descrittivi). Poi i metadati possono riguardare i contenuti trattati dal documento: si parla allora di metadati semantici e indicizzazione semantica. Sono più impegnativi perché richiedono l'analisi del contenuto. In questo caso come si assegna un metadato a un certo documento? si usano i KOS o sistemi di organizzazione della conoscenza, schemi a cui fare riferimento. Eccone alcuni:

- sistemi generali e speciali (PACS per l'astronomia, ACM per l'informatica ecc). Organizzano un particolare campo della conoscenza. Capita che argomenti non ricadano nello schema;
- parole: il lavoro dei lessicografi sulle parole produce i dizionari. Nell’ IR (inform retrieval) si può creare un indice alfabetico d parole presenti nel testo (indicizzazione) dove si elencano tutte le parole che compaiono e il riferimento alla posizione in cui appaiono. Si usano programmi per trovare le parole. Si possono trascurare parole come "e" "il" dette stopword, se i dati sono molti come nella memoria cache di Google.
- titoli e abstract: si usano sistemi per estrarre dalla massa di testi dei contenuti significativi, assegnando ad es. un titolo ai testi che sintetizzi il documento in poche espressioni significative.
- parole chiave: si selezionano alcune parole significative per descrivere il contenuto del documento. Sono dette keyword. Questa è indicizzazione post coordinata. Le parole si possono derivare estraendole dal testo o assegnate. I motori usano un metodo: restituiscono un estratto del testo dove al centro c'è la parola. Nelle pagine web le parole chiave sono usate nei metadati (metatags) per suggerire i motori di ricerca.
- termini: ma un parola può avere diversi significati ed essere ambigua. Nei settori specializzati si sviluppa perciò una terminologia specifica; ci son dunque termini con un significato più esatto. Possono essere composti anche da più parole raggruppate a indicare un concetto (occhiali da sole è un termine).
- tesauri:  un raccolta di termini utilizzabili per indicizzare documenti è un vocabolario controllato, formato solo da espressioni controllate: esempi son i tesauri e i soggettari. Tesauro è un vocabolario di un linguaggio d'indicizzazione controllato. Lo standard che costruisce i tesauri monolingue distingue i termini preferiti=descrittori da quelli non preferiti=non descrittori. Nei tesauri si evidenziano in particolare tre tipi di relazioni semantiche:
1) relazione sinonimica (rapporto tra termine preferito per indicizzare un concetto e termini non preferiti > svago USE divertimento).
2) relazione gerarchica (genere-specie o intero-parte) (gatti BT felini - biologia NT zoologia)
3) relazione associativa, associa due concetti per coordinazione, esemplificazione, causa-effetto. (pittori RT Giotto).
Lo scopo di un tesauro è formalizzare la terminologia per evitare la ridondanza del linguaggio naturale, aumentando il richiamo di documenti rilevanti tra i risultati della ricerca.
- soggettari: strumento per il controllo terminologico costituito da un repertorio alfabetico di voci ammesse, ma anche norme sintattiche che indicano come combinare i termini per formare stringhe di soggetto, ossia espressioni del contenuto dei documenti in forma organizzata.

Un soggettario è un vocabolario controllato di voci generali e suddivisioni con le quali possono essere costruite stringhe secondo regole sintattiche e con una rete di collegamenti.

La soggettazione è l'attività di traduzione di un soggetto espresso in linguaggio ordinario nei termini accettati dal Soggettario adottato. Un catalogo alfabetico per soggetti è un elenco di voci relative ai soggetti dei documenti posseduti, ordinate e collegate secondo le regole del Soggettario adottato. E' uno strumento di informazione bibliografica che consente al lettore di controllare quanti documenti sono presenti nella biblioteca su un determinato argomento a prescindere dall'ambito disciplinare in cui è inserito. E' comunque da notare che il vantaggio dell'immediata individuazione del soggetto è bilanciato dallo svantaggio della dispersione dei termini che si riferiscono alla stessa disciplina.

Nel nostro paese il soggettario di riferimento è il soggettario per i cataloghi delle biblioteche italiane, pubblicato dalla biblioteca nazionale di Firenze.
 
Struttura del soggettario:
autovetture v. automobili  (vedi)
automobili *autovetture (rinvio da)
palinsesti **manoscritti (richiami: richiamo da)
Dagli anni 90 è nato il GRIS, gruppo d ricerca sull'indicizzaz per soggetto.

- tassonomie:

 quando le voci di un indice sono organizzate in un albero gerarchico che ne mostra immediatamente le relazioni generiche, si parla di tassonomie. Le voci più generali delle tassonomie son dette categorie. Le tassonomie somigliano ai tesauri ma hanno una presentazione ad albero e relazioni di minor rigore. Sono utilizzate ad esempio per creare menu per accedere a parti di un sito web. Yahoo utilizza molto tassonomie. Le voci sono di solito elencate per ordine alfabetico, contenuti o popolarità.

- Ontologie:

struttura concettuale simile ai tesauri. Ma le relazioni sono espresse così: Gatto IS-A felino. Si possono usare relazioni generiche, partitive e associative, o altre. In filosofia l’ontologia è lo studio della realtà. L’idea qui è di modellare in modo fedele la struttura della realtà per costruire efficaci sistemi d organizzione della conoscenza.

- Classificazioni:

lo schema di classificazione è una tassonomia arricchita da una notazione.  Prevalgono le relazioni gerarchiche, ma c’è lo schema a faccette e una notazione che a ogni voce fa corrispondere un numero.

- Classauro:

strumento che contiene sia una notazione gerarchica sia relazioni tra un classe e l’altra espresse formalmente come nei tesauri
di Dario Gemini
Valuta questo appunto:

Continua a leggere:

Altri appunti correlati:

Per approfondire questo argomento, consulta le Tesi:

Puoi scaricare gratuitamente questo appunto in versione integrale.