12
Capitolo 1                     1.2 Il Semantic Web 
_____________________________________________________________________________ 
 
 
possibile dar vita a catene di concetti completamente disomogenei sia dal punto 
di vista degli argomenti che da quello di qualità e affidabilità.  
Attualmente l’enorme mole di dati presente nel Web è organizzata e distribuita 
secondo delle modalità che la rendono spesso di difficile reperimento.  
Nelle ricerche online, è sempre più difficile trovare le informazioni desiderate: 
sono sempre moltissimi i risultati che non hanno nulla a che vedere con quello 
che ci interessa.  
 
 
 
1.2 - IL SEMANTIC WEB 
 
  
Sostanzialmente il problema del World Wide Web, così come è ora, è 
rappresentato dalla sua incapacità di fornire informazioni ad hoc: digitando una 
parola su un motore di ricerca si ottiene un'alta incidenza di risultati, ma la 
maggior parte non è attinente alla richiesta. Questo succede perchè non esiste 
uno strumento informatico capace di “comprendere” il contenuto di una pagina 
Internet: il Web, cioè, non e' ancora semantico (la semantica è lo studio del 
significato e della combinazione delle parole).  
Questo fallimento affligge nello stesso modo la rete globale e le Intranet  
aziendali, dove documenti, messaggi e rapporti che costituiscono la preziosa 
conoscenza aziendale sono memorizzati in formato elettronico ma restano 
altrettanto inaccessibili di quando venivano archiviati su carta.  
Gran parte del contenuto di Internet, infatti, è progettato per essere letto da 
esseri umani e non per essere trattato da programmi ed è ben lontano dal poter  
fornire una solida piattaforma che renda possibile un’interpretazione e una 
  13
Capitolo 1                     1.2 Il Semantic Web 
_____________________________________________________________________________ 
 
 
comprensione semantica da parte di agenti automatici.  
In poche parole serve qualcosa di diverso dalla nuova babele di informazioni e 
linguaggi nella quale è facile perdersi, ma uno strumento dal quale ottenere, ad 
ogni ricerca, risposte mirate e selettive. 
Questo qualcosa di diverso ci viene fornito dal Semantic Web (Web Semantico) 
(cfr. [1], [2], [3], [4], [5], [6], [7]), termine coniato per la prima volta da Tim 
Berners-Lee, l’ideatore del WWW.  
Gli obiettivi (cfr. [8]) possono essere riassunti come segue:  
 
 ξ  l’informazione non sarà più pensata per essere letta 
direttamente dall’uomo, ma mirata ad essere in un formato 
facilmente elaborabile dalla macchina, da agenti intelligenti, 
servizi specializzati, siti Web personalizzati e motori di ricerca 
potenziati semanticamente. 
 
 ξ  supporto per l’interoperabilità sintattica: qui si intende la 
facilità di leggere dati e ottenere una rappresentazione 
utilizzabile dalle applicazioni. Ad esempio, componenti 
software come i parser o API di interrogazione dovrebbero 
essere il più possibile riutilizzabili da applicazioni differenti.  
 
 ξ  il Semantic Web richiede l’interoperabilità a livello semantico:  
      non sono più sufficienti standard per la forma sintattica dei 
      documenti, ma anche per il loro contenuto semantico;   
      interoperabilità semantica significa definire mapping tra   
      termini sconosciuti e termini conosciuti nei dati. Chiaramente il  
      costo dell’interoperabilità semantica è più elevato di quello          
      dell’interoperabilià sintattica. 
 
  14
Capitolo 1                       1.3 Architettura del Semantic Web 
_____________________________________________________________________________ 
 
 
 ξ  il formato utilizzato per lo scambio dei dati deve permettere di 
poter esprimere qualsiasi forma di dati, poiché non è possibile 
anticiparne tutti i suoi usi potenziali (potere espressivo 
universale). Per raggiungere questo obiettivo, è necessario 
basarsi su un modello comune di grande generalità. Solo così 
qualsiasi “prospettiva” può trovare espressione all’interno del 
modello.  
 
Nella visione di Tim Berners-Lee, il Semantic Web è un’architettura strutturata 
su almeno quattro livelli:  
 
 ξ  il livello dei dati (un semplice modello dei dati e una sintassi 
per i metadati)  
 
 ξ  il livello schema (una base per la definizione di un vocabolario)  
 
 ξ  il livello ontologico (per la definizione delle ontologie)  
 
 ξ  il livello logico (supporto al ragionamento)  
 
 
 
1.3 - L’ARCHITETTURA DEL SEMANTIC WEB 
 
  
Il Semantic Web ha quindi una architettura a livelli, che però non è 
stata ancora sviluppata completamente. Ciò avverrà nei prossimi anni.  
  15
Capitolo 1                       1.3 Architettura del Semantic Web 
_____________________________________________________________________________ 
 
 
Guardiamo ora più in profondità la struttura alla base della visione del Semantic 
Web. Faremo riferimento a un diagramma piramidale, simile a quello di figura 
1.1. 
 
 
Figura 1.1   Architettura del Semantic Web 
 
Dal diagramma si possono estrapolare le seguenti osservazioni:  
 
 ξ  il Semantic Web si basa sullo standard URI (Uniform 
Resource Identifiers, di cui si parlerà nel prossimo 
sottoparagrafo in [Capitolo 1, 1.4 URI] ), per la definizione 
univoca di indirizzi Internet. 
 
 ξ  al livello superiore si trova XML (eXtensible Markup 
Language), che gioca un ruolo di base con i namespace e gli 
XML Schema. Con XML è possibile modellare secondo le  
  16
Capitolo 1                       1.3 Architettura del Semantic Web 
_____________________________________________________________________________ 
 
 
  proprie esigenze, e senza troppi vincoli, la realtà che si    
  considera: per questo è un linguaggio che porta con sé  
  alcune informazioni sulla semantica degli oggetti. Questa  
  libertà lo rende poco adatto, però, a definire completamente  
  la struttura e l'interscambio di informazioni tra diverse realtà,  
  quindi è stata favorita la creazione di un nuovo linguaggio. 
 
 ξ  RDF (Resource Description Framework) e RDF Schema 
(dei quali si parlerà più approfonditamente in [Capitolo 1, 
2.5 RDF] e in [Capitolo 1, 2.6 RDF Schema]), che 
costituiscono il linguaggio per descrivere le risorse e i loro 
tipi. Derivano da XML. 
 
 ξ  al livello superiore si pone il livello ontologico. Una 
ontologia permette di descrivere le relazioni tra i tipi di 
elementi senza però fornire informazioni su come utilizzare 
queste relazioni dal punto di vista computazionale. 
 
 ξ  la firma digitale è di significativa importanza in diversi strati 
nel modello astratto del Semantic Web. La crittografia a 
chiave pubblica è una tecnica nota da qualche anno, ma non 
ancora diffusa su larga scala, forse perché impone una scelta 
binaria tra fiducia o non fiducia, mentre sarebbe necessaria 
una infrastruttura in cui le parti possano essere riconosciute 
e accettate in specifici domini. Con questo accorgimento, la 
firma digitale potrebbe essere utilizzata per stabilire la 
provenienza delle ontologie e delle deduzioni, oltre che dei 
dati. 
 
  17
Capitolo 1                                 1.4 URI 
_____________________________________________________________________________ 
 
 
 ξ  il livello logico è il livello immediatamente superiore. A 
questo livello le asserzioni esistenti sul Web possono essere 
utilizzate per derivare nuova conoscenza. Tuttavia, i sistemi 
deduttivi non sono normalmente interoperabili, per cui 
invece di progettare un unico sistema onnicomprensivo per 
supportare il ragionamento, si potrebbe pensare di definire 
un linguaggio universale per rappresentare le dimostrazioni.  
I sistemi potrebbero quindi autenticare con la firma digitale 
queste dimostrazioni ed esportarle ad altri sistemi che le 
potrebbero incorporare nel Semantic Web. 
 
 
 
1.4 - URI 
 
 
Se si intraprende una conversazione, o scrivere un testo qualsiasi, 
bisogna prima identificare in maniera univoca l'argomento che si vuole trattare, 
altrimenti non ci si potrà riferiread esso. 
Nel Semantic Web è stato definito un sistema di identificatori unificato: sono gli 
Uniform Resource Identifiers (URI). Il nome deriva dal fatto che ogni elemento 
identificato viene considerato una risorsa. Gli URI sono utilizzati da RDF per 
codificare l'informazione in un documento, ed assicurano che i concetti non 
siano solo parole in un documento, ma siano vincolanti. 
Gli URI costituiscono la tecnologia di base ideale con la quale costruire un Web 
globale. Può essere definito un URI per un qualsiasi oggetto, e qualsiasi cosa 
che ha un URI può essere considerato sul Web. Gli URI sono il fondamento del  
 
  18
Capitolo 1                                 1.4 URI 
_____________________________________________________________________________ 
 
 
Web: mentre ogni parte del Web stesso può essere rimpiazzata, gli URI no. 
Anche per identificare le pagine sul Web vengono utilizzati identificatori: sono i 
tipi più comuni di URI, gli indirizzi URL (Uniform Resource Locator). 
Guardando più in profondità si può notare che un URL comunica al computer 
dove trovare una risorsa specifica. Diversamente da altre forme di URI, un URL 
allo stesso tempo identifica e localizza. Poiché il Web è troppo esteso per essere 
controllato da una qualsiasi organizzazione, gli URI in massima parte sono 
decentralizzati. Nessuna persona o organizzazione controlla chi li produce o 
cosa ne fa. Questa flessibilità rende gli URI potenti, ma porta alcuni problemi. 
Ad esempio, poiché chiunque può creare un URI, inevitabilmente si avranno 
più URI che rappresentano la stessa cosa; e non c'è modo per determinare se 
due URI puntano alla stessa risorsa. 
Una pratica comune per creare URI è quella di iniziare da una pagina Web. La 
pagina descrive l'oggetto che deve essere identificato e spiega che l'URL della 
pagina è l'URI per tale oggetto. Il punto d'arrivo sarà che qualsiasi istanza 
rappresenterà sia la risorsa fisica, sia la pagina Web che la descrive. Ciò è noto 
come problema dell'identificazione delle pagine Web. 
Questo è un fatto importante da comprendere. Un URI non è un insieme di 
direttive che indicano al computer dove trovare un file specifico nel Web 
(sebbene lo faccia anche), ma è un nome per una risorsa (una cosa), accessibile 
o meno attraverso Internet. L'URI può o no fornire un modo per ottenere più 
informazioni su una risorsa. Altri metodi per fornire informazioni sugli URI e le 
risorse che essi identificano sono in via di sviluppo. E’ anche vero che l'abilità 
di dire cose su di un URI è una parte importante del Semantic Web. Ma non si 
deve assumere che un URI faccia qualcosa di più che fornire un identificatore 
per una risorsa.
David Connelly del W3C ha realizzato una pagina in cui ha raccolto gli schemi 
URI che sono stati definiti. 
 
  19
Capitolo 1                                    1.5 I metadati 
_____________________________________________________________________________ 
 
 
1.5 - I METADATI 
 
 
Qual è dunque l’obiettivo del Semantic Web?  
Riportare chiarezza, formalità e organizzazione dei dati, collegando 
l’informazione presente nelle pagine Web a concetti astratti organizzati in una 
gerarchia (ontologia), a sua volta descritta in un meta-documento e permettendo 
a vari agenti automatici di interpretare informazioni e di addentrarsi nella rete  
navigando come esseri umani. Offrire, quindi, la possibilità di cogliere il 
contesto semantico di una fonte informativa interpretando le varie relazioni 
esistenti tra le risorse, formulare asserzioni sulle stesse, nonchè controllare la 
loro attendibilità.  
Nasce così la necessità di attribuire ad ogni risorsa delle descrizioni formali che 
possano essere valutate in modo automatico in modo tale da favorire la 
cooperazione tra utenti e calcolatori.  
Perché il significato sia accessibile anche alle macchine, è necessario che ai dati 
venga associata una struttura dalla quale si possa inferire l’informazione che 
essi esprimono.  
Lo strumento che permette di adempire questo compito sono i metadati, ovvero 
dati che descrivono i dati. La descrizione del dato deve essere affiancata 
dall’interpretazione del significato fornito dal testo. Per far questo si potrebbero 
marcare delle parti di testo con etichette significative.  
Descrivere solo cosa è il dato non è però sufficiente; per ottenere dei risultati 
soddisfacenti bisogna anche capire il significato della struttura attribuita al 
testo.  
Per esempio utilizzando il linguaggio XML (cfr. [9]) si potrebbero etichettare 
 
  20
Capitolo 1                                    1.5 I metadati 
_____________________________________________________________________________ 
 
 
parti di testo con dei marcatori che possono, in qualche modo, esprimerne il 
significato.  
Per esempio:  
 
<Autore> Giacomo Bernini </Autore> 
 
 
Questo permette di semplificare la creazione di applicazioni che svolgono 
operazioni intelligenti con i documenti elettronici; un motore di ricerca sarebbe 
in grado di eseguire ricerche esplicite nel Web per trovare tutti i documenti in 
cui Giacomo Bernini è l’autore; in questo modo si può superare uno dei limiti 
dell’HTML (cfr. [10]), in cui i dati sono orientati al video e difficili da 
utilizzare per una elaborazione successiva. Il problema risiede nel sistema di  
indicizzazione delle risorse informative, non sempre intuitivo e semplice come 
l’utente vorrebbe.  
I marcatori potrebbero non bastare per dare un’interpretazione univoca del 
testo, poiché le macchine non sono in grado di decidere tra più possibilità 
attuando tecniche di interpretazione tipici della mente umana. Per eliminare tali 
incomprensioni, ed ambiguità bisogna affiancare al metadato una semantica 
interpretata da tutti allo stesso modo.  
Per avvicinarci meglio ai concetti di rappresentazione di una semantica, è 
opportuno partire dal fatto che, affinché tutto funzioni, i calcolatori che 
accedono al Semantic Web dovranno avere a disposizione:  
 
 ξ  Collezioni strutturate di informazioni: se le informazioni di 
descrizione delle risorse vengono organizzate secondo 
regole standard, sarà possibile elaborarle in modo semplice.  
 
 ξ  Insiemi di regole di inferenza: tramite queste si potranno 
condurre ragionamenti in modo automatico. 
 
  21
Capitolo 1                                    1.5 I metadati 
_____________________________________________________________________________ 
 
 
Tutto ciò rende evidente il bisogno di utilizzare metadati…ma cosa sono i 
metadati? 
I metadati sono etichette descrittive ovvero dati che descrivono altri dati, e sono 
spesso più facili da trattare dei dati stessi, questo perché il loro formato viene 
deciso dal catalogatore. Tali etichette sono in grado di esprimere la semantica e 
la struttura dei dati, ed al contempo l’autore, i vari diritti di copyright, le 
protezioni ed i permessi d’accesso… 
Essi costituiscono in qualche modo il curriculum vitae dei dati, ovvero 
raccolgono le informazioni relative al dove, al quando, al come e da chi i dati 
sono stati ottenuti. Si tratta quindi di un corredo indispensabile per rendere tali 
dati fruibili correttamente da chiunque, anche a distanza di tempo e di spazio.  
Il loro utilizzo permette quindi una catalogazione dei dati, rendendo più facile 
l’elaborazione automatica dei dati da parte di agenti software, nonché il 
controllo degli accessi e il filtraggio dei flussi d’informazione.  
Il concetto di metadato è fondamentale per quanto riguarda la facilità nel 
reperimento, nello scambio e nella consultazione dei dati, nella conoscenza di 
notizie relative alla creazione, alla validità, all'archiviazione dei dati, nonché 
informazioni relative al loro potenziale utilizzo.  
I metadati, aprono le vie ad una comunicazione più estesa, mettendo in 
connessione differenti mondi con regole diverse. Uno dei maggiori problemi da 
affrontare è quello relativo alla presenza di sistemi gestionali che sono stati 
implementati in base a nessuno standard condiviso da tutta la comunità; inoltre 
la maggior parte dell’informazione prodotta nell’ambito scientifico è descritta 
seguendo linguaggi comprensibili solo dagli addetti ai lavori di quella specifica 
comunità. Questa mancanza di omogeneità descrittiva non permette 
all’informazione di uscire allo scoperto, lasciando i sistemi informativi isolati.  
Una più puntuale concettualizzazione di metadato è necessaria dal momento 
che i professionisti dell'informazione considerano che le loro attività  
 
  22
Capitolo 1                                    1.5 I metadati 
_____________________________________________________________________________ 
 
 
saranno trasferite e ricomprese all'interno della sfera dei sistemi di 
informazione digitale.  
L'avvento del Web e della crescita esponenziale delle risorse elettroniche ha 
incrementato anche la domanda dell'utenza relativamente alle effettive capacità 
di avere strumenti che consentano di ricercare attraverso differenti strutture di 
metadati in modo simultaneo.  
Le necessità sempre crescenti delle fasce di utenza specializzate di poter 
recuperare informazioni da contenitori integrati, ricreando ambienti 
interdisciplinari, ha motivato molte istituzioni scientifiche a convertire i loro 
metadati non standardizzati in formati più facilmente accessibili.  
I metadati non rappresentano un’entità immobile ed immutabile nel tempo e 
nello spazio, essi infatti continuano ad accrescersi entro il sistema entro cui 
dimorano, durante il ciclo di vita dell'oggetto informativo con il quale si  
relazionano. I metadati, intesi in senso moderno, non possono essere considerati 
come definitivi, ma vengono modificati nel corso del tempo e qualche volta 
possono anche essere disposti in punti differenti lungo l'arco della vita di una 
risorsa, soprattutto se digitale. Essi assumono quindi un’importanza strategica 
nello sviluppo dei sistemi d’informazione digitale in rete.  
  23
 
Capitolo 1                           2.1 Definizioni di ontologia 
_____________________________________________________________________________ 
 
 
2 – ONTOLOGIE E RDF 
 
 
 
2.1 - DEFINIZIONI DI ONTOLOGIA 
 
 
L’ontologia, “lo studio dell’essere in quanto essere”, è usualmente 
concepita come una disciplina strettamente filosofica. Eppure, negli ultimi anni 
grazie all’esplosione delle comunicazioni in rete, gli aspetti ontologici 
dell’informazione hanno acquistato un valore strategico. Tali 
aspetti sono intrinsecamente indipendenti dalle forme di codifica 
dell’informazione stessa, che può essere quindi isolata, recuperata, 
organizzata, integrata in base a ciò che più conta: il suo contenuto. 
La standardizzazione dei contenuti dell’informazione risulta oggi cruciale 
nella prospettiva delle aziende integrate e del commercio elettronico ed è 
indispensabile per semplificare i processi di comunicazione. In generale, 
infatti, la mancanza di un’interpretazione condivisa porta alla povertà di 
comunicazione tra le persone e le loro organizzazioni. Nel contesto della 
costruzione di un sistema IT (Information Tecnology), tale mancanza di 
comprensione porta a delle difficoltà nell’identificare i requisiti e nel 
definire le specifiche del sistema. Molti tools software, metodi di 
modellazione, paradigmi e linguaggi limitano l’interoperabilità tra i sistemi, 
il loro riuso e la loro condivisione. 
E’ proprio per superare questi problemi che s’introduce l’ontologia, 
  24
 
Capitolo 1                           2.1 Definizioni di ontologia 
_____________________________________________________________________________ 
 
 
che cerca di eliminare o, almeno, ridurre le confusioni concettuali o 
terminologiche, in modo da avere un’interpretazione condivisa, in altre 
parole un vocabolario comune, con un significato per i vari termini su cui 
tutti sono d’accordo. 
Sebbene l’ontologia sia nata nell’ambito filosofico, negli ultimi anni, si è 
affermata una nuova scuola di pensiero, che propone una 
caratterizzazione logica rigorosa delle categorie ontologiche fondamentali 
utilizzate nei sistemi informativi, con lo scopo di aumentarne la 
trasparenza semantica e l’interoperabilità. Tale approccio coinvolge attività 
di modellazione concettuale e di ingegneria della conoscenza in una 
prospettiva fortemente interdisciplinare. Una definizione del termine 
ontologia largamente adottata, soprattutto nell’ambito delle artificial 
intelligence communities, è quella proposta da Gruber, secondo cui 
un’ontologia è una specifica esplicita e formale di una concettualizzazione 
condivisa. 
La concettualizzazione si riferisce ad un modello astratto di un qualche 
fenomeno, avendone identificato i concetti; esplicita significa che i tipi di 
concetti usati e i vincoli sul loro uso sono esplicitamente definiti; formale si 
riferisce al fatto che l’ontologia dovrebbe essere machine-readable; 
condivisa riflette il fatto che l’ontologia cattura la conoscenza consensuale, 
cioè quella non propria di un individuo, ma accettata da un gruppo. 
Sono state date diverse definizioni dell’ontologia, oltre a quella 
prettamente filosofica. Di seguito ne sono riportate alcune: 
 
 ξ  Un’ontologia identifica i termini basilari e le relazioni di un 
determinato dominio, definendone in questo modo il 
vocabolario, e le regole per combinare tali termini e tali 
relazioni, andando oltre il vocabolario stesso [Neches].