Annotazioni Linguistiche: una rassegna 
words and finally written content. Writing, in turn, originated as a way 
to express ideas with signs, and then took a syllabic/phonetic 
approach, focusing more on the description of sounds than on their 
meaning. Meanwhile, humans settled across the entire planet, without 
easy communication between people so widely spread. This situation 
facilitated the differentiation of languages, but when technological 
progress made communication easier again the need for interoperating 
languages raised. 
It is necessary to translate words and phrases from one language 
to another, but to do this the structure of text had to be found. This 
was the first linguistic annotation, or classification of parts of the 
discourse based on its logical or grammatical structure. This is the 
typical way teachers use to present a language to their students. 
Another approach is that made by those who study pronunciation 
of words, trying to find a common code to express the sounds made by 
the voice to say a word. In this way, they created a phonetic alphabet, 
which could be suitable for pronunciation of every natural language 
spoken by men. 
The latter and more versatile approach is focusing on the 
semantics: the information the Linguistic Annotation has to carry now 
concerns the meaning of the resource it annotates. We could tell when 
and where a certain quote was said, and who said it, or we could do a 
summary of that quote, pointing out the key information. We could 
find relations between that quote and other quotes of the same 
speaker, about the same content, or with the same opinion, for further 
research. This is the typical work of journalists. 
Technology progress made categorization of language resources 
not only reliant on writing, but also on audio and video, and the birth 
of computers, although a little lately, raised their accessibility and 
usability. In the last years, attempts to automate also the annotations 
were made, especially with the growth of mark-up languages like 
HTML and XML, very suitable for this purpose. Recently, ISO had 
recognized the importance of annotations and created a working group 
to discuss these issues and find out a standard solution. 
The first chapter will introduce the problem and make a summary 
of the rest of the document. The second chapter will discuss the 
 6
Abstract 
 7
general aspects of linguistic annotation, in particular the different 
approaches to annotation and what are the most used instruments to 
implement them on computer systems. Chapter 3 will show some 
examples of computer-based linguistic annotation, chosen to embrace 
all kinds of approach and implementation. Chapter 4 will focus on the 
process of standardization for language resources, and especially on 
the ISO work. Chapter 5 will draw conclusions. 
1 Introduzione 
1 INTRODUZIONE 
 9
Il problema delle annotazioni linguistiche potrebbe risalire, nella 
sua essenza, alla notte dei tempi o, almeno, alla comparsa della vita. 
La necessità di utilizzare un linguaggio comprensibile a tutti, sia esso 
visivo, gestuale, parlato o scritto, è propria di qualsiasi essere vivente. 
La vita è comunicazione, non è possibile parlare di vita per una 
qualsiasi entità se questa non entra in rapporto con l’ambiente che lo 
circonda, sia esso il cielo, la terra, i microrganismi, le piante, gli 
animali o i suoi simili. 
D’altro canto, la comunicazione (perlomeno quella tra esseri 
viventi, soprattutto animali) deve essere comprensibile; non è 
possibile stabilire un contatto se gli interlocutori non possono far 
capire, l’uno all’altro, cosa vogliono dire. È necessario un codice, 
anche ridotto e banale, che sia certo e accettato da entrambi i soggetti 
coinvolti nella comunicazione, e che faccia corrispondere a certi 
segni, versi, gesti dei significati chiari. 
La comunicazione, dunque, è l’arte di farsi capire, e ben si adatta 
all’istinto di conservazione che è proprio di ogni essere vivente. 
Urlare quando si è in pericolo, indicare la strada per il cibo, mostrare 
particolari atteggiamenti per corteggiare le femmine sono esempi di 
comunicazione che insieme soddisfano anche le necessità della 
sopravvivenza propria e dei propri simili. Gli esseri inanimati hanno, a 
loro volta, i propri mezzi per comunicare, inteso come rapportarsi 
all’ambiente e alle condizioni che questo offre. Un albero, ad esempio, 
perde le foglie per prepararsi al freddo invernale, le fa ricrescere in 
primavera, affida i suoi semi al vento o ad insetti ed uccelli per 
riprodursi. 
La comunicazione, però, può essere anche l’arte di non farsi 
capire, di nascondere, di confondere: mimetizzarsi, non muoversi di 
fronte al nemico, produrre veleni o “travestirsi” da animali pericolosi 
sono accorgimenti tipicamente usati da chi vuole sopravvivere. Sono 
anche questi un modo di comunicare, un rapportarsi all’ambiente ed 
alle situazioni che si presentano nella vita. 
Annotazioni Linguistiche: una rassegna 
Non per tutti comunicare è ugualmente importante; non tutti gli 
esseri viventi si comportano allo stesso modo nei confronti 
dell’ambiente. C’è chi ignora completamente ogni altra creatura, per 
scelta o per paura, e si limita ad interpretare i segni della terra per 
trovare cibo e riparo. Un albero non si cura molto degli altri suoi 
simili, e spesso gli basta trovare con le sue radici l’acqua necessaria, 
assorbire anidride carbonica dalle foglie e affidare al vento i suoi 
semi. Molti animali del deserto vivono solitari, perché più si è più 
bisognerà dividere le poche risorse, col rischio di morire tutti. 
Altri animali, invece, comunicano con i loro simili, stabilendo 
rapporti di diversa intensità, in base all’utilità che tale rapporto può 
portare agli interlocutori. C’è chi quasi si ignora, conoscendo 
l’esistenza degli altri solo perché si trovano a cacciare sullo stesso 
territorio: ma questo può rendere più facile catturare le prede, e quindi 
dare meno problemi nel dividerle fra più cacciatori. I piccoli sono 
deboli ed hanno bisogno di molte attenzioni, e la madre (soprattutto in 
certe specie molto prolifiche) può avere difficoltà a gestire la 
situazione da sola. Per questo si formano branchi, che vivono insieme, 
cacciano insieme, curano insieme la prole di tutti e la difendono dai 
pericoli. Nel caso in cui la prolificità è molto alta e i piccoli 
richiedono molte cure, può crearsi un ordine sociale più complesso. In 
esso, il numero dei riproduttori è ridotto al minimo necessario per 
garantire la sopravvivenza della colonia, e gli altri si occupano delle 
esigenze di sostentamento. È il caso delle api, delle formiche e delle 
termiti: una regina depone le uova, ci sono operaie dedicate alla cura 
delle uova, alla ricerca delle fonti nutritive, alla raccolta del cibo, alla 
difesa della colonia eccetera. Si tratta, certamente, di 
un’organizzazione molto vicina a quella degli uomini. 
La comunicazione, dunque, influenza l’esistenza di un essere 
vivente in maniera preponderante. In molti casi, come accennato, 
comunicare è farsi capire, ossia trovare un codice comune che associ, 
in modo universalmente accettato, un significante (gesto, verso, 
segno) ad un significato, il contenuto che si vuole far capire 
all’interlocutore. Creare un linguaggio è qualcosa che gli esseri viventi 
hanno stampato nel loro codice genetico, e sono spinti a farlo 
 10
1 Introduzione 
 11
inconsciamente. Fare questo è come dire costruire un’annotazione 
linguistica. 
Per meglio capire l’affermazione appena enunciata è necessario 
spiegare cos’è un’annotazione linguistica. Si tratta, in parole povere, 
di una descrizione di qualsiasi tipo associata a risorse linguistiche 
(LR). Le LR, a loro volta, sono tutte le risorse contenenti materiale 
scritto, parlato, gestuale, ossia tutto ciò che fa comunicare. 
Scegliere, consciamente o meno, un codice comune che faciliti la 
comunicazione, come accennato in precedenza, significa descrivere 
come deve essere un gesto, un verso, un segno per fornire un certo 
significato. Questa è un’annotazione linguistica, nel senso appena 
citato. 
Restringendosi all’ambito umano, il linguaggio (e quindi le 
risorse linguistiche) è diventato sempre più diversificato e complesso, 
e allo stesso modo le annotazioni sono diventate più raffinate. Quel 
codice di comunicazione, che prima si tramandava di padre in figlio, è 
stato formalizzato ad uso didattico, prima oralmente e poi su carta. La 
necessità di diffusione delle tecniche di comunicazione ha reso la 
scrittura più formale, legata al suono delle parole e non più all’idea. 
L’esigenza di standardizzazione si è fatta impellente quando il 
progresso tecnologico ha reso le comunicazioni più facili e diffuse 
geograficamente. Da ultimo, l’avvento di Internet ha reso lo scambio 
d’informazioni immediato e semplice, ma al tempo stesso ha richiesto 
un codice universale di dialogo fra i computer e fra i loro utenti. 
Le nazioni hanno trovato nella lingua comune un forte elemento 
unitario, e l’hanno resa materia dominante nell’insegnamento. La 
scrittura ha cominciato ad usare stili e fonti tipografiche, codifiche su 
carta delle pause, dell’enfasi e dei diversi ruoli delle frasi in un 
discorso. In informatica, i formati per la codifica di testo, immagini e 
collezioni di dati hanno dato significato a stringhe di bit altrimenti 
incomprensibili, e permesso a sistemi diversi di mostrare le stesse 
informazioni. L’avvento delle reti si è basato su protocolli adottati, un 
poco alla volta, su di una miriade di architetture diverse. Tutti questi 
fatti dimostrano l’adozione su scala sempre più larga delle annotazioni 
linguistiche. Proprio l’informatica usa in gran quantità sistemi di 
Annotazioni Linguistiche: una rassegna 
codifica di risorse linguistiche; questo fa prevedere, per il futuro, una 
sempre maggiore importanza e necessità delle annotazioni. 
Questo documento si concentrerà sulle annotazioni linguistiche 
applicate all’informatica, ossia sulle possibilità che i computer offrono 
per fornire contenuto su risorse linguistiche, anch’esse codificate in 
formato comprensibile alla macchina. 
Il trattamento dei testi è stato una conquista piuttosto tarda 
dell’informatica, poiché per circa vent’anni l’uso dei computer è stato 
ristretto, come suggerisce il nome, al solo calcolo di dati, grazie ai 
quali era stata avviata la conquista dello spazio e la gestione 
elettronica della contabilità per servizi pubblici e privati. Poi sono nati 
i primi linguaggi di markup, gli editor WYSIWYG e i programmi di 
DTP, fino alla nascita di SGML, poi affermatosi grazie alle intuizioni 
di Tim Berners-Lee, che vi si ispirò nella creazione del World Wide 
Web, senza dubbio l’applicazione di maggior successo presso il 
grande pubblico tra quelle presenti su Internet. 
Il linguaggio di markup (inteso come una qualsiasi codifica di 
testo su computer con informazioni di punteggiatura, presentazione, 
descrizione, riferimenti) è l’esempio più chiaro di annotazione 
linguistica applicata all’informatica. I linguaggi di markup leggibile, 
in particolare, rappresentano bene l’idea di un’informazione affiancata 
ad un testo; dopotutto, il primo sistema di annotazione che questo 
documento analizzerà, TEI [TEIweb2001], è stato proposto prima 
ancora della nascita di HTML, che come TEI si basa su SGML. 
Esistono tanti esempi di risorse linguistiche, anche nel campo 
dell’informatica: un sito web, un documento Word, un’immagine 
PNG contenente un gesto dell’alfabeto dei sordomuti, una clip MP3 o 
un filmato MPEG contenente un’intervista, sono LR sulle quali è 
possibile esprimere informazione, e al contempo contengono 
annotazioni. Il sito web, infatti, è scritto, come detto, in un linguaggio 
di markup, come il documento Word, dunque contiene informazioni 
strutturali e presentazionali, mentre i formati PNG, MPEG e MP3 
contengono header per l’inserimento di informazioni generiche, come 
autore, data e descrizione del contenuto. 
Una vasta categoria di persone (denominata “LR Community”) si 
interessa delle risorse e delle annotazioni linguistiche. Si va dai gestori 
 12
1 Introduzione 
 13
di risorse e dai ricercatori, il cui ambito di interesse è limitato ma 
necessita di fornire o di usare informazioni molto dettagliate, al 
pubblico, che può richiedere contenuto più vasto ma, di norma, senza 
necessità di completezza. In mezzo si trovano tutti coloro che hanno il 
compito di fornire contenuto al pubblico oppure di usare informazioni 
più complete di quelle disponibili a tutti, come giornalisti, studenti, 
insegnanti, sviluppatori e bibliotecari. Le informazioni di cui hanno 
bisogno sono, per l’appunto, più dettagliate di quelle disponibili al 
pubblico, ma, di norma, non così complesse come quelle usate dai 
gruppi più alti. 
Il rapporto fra risorsa ed annotazione può essere esaminato a vari 
livelli. Una prima distinzione è possibile sulla base della 
segmentazione della risorsa, ossia la granularità della divisione in parti 
della LR. Partendo dall’assunto che tutte le risorse contengono parole, 
codificate in un qualche formato scritto o parlato, la segmentazione 
può partire dal livello dei costituenti della parola (lettere e sillabe) per 
passare alle singole parole, alle parti di una frase, alle frasi intere, alla 
struttura dei documenti oppure ad un documento nella sua interezza. 
Un rapporto da considerare è anche quello tra gli insiemi delle 
risorse e delle annotazioni. È possibile, infatti, fornire più annotazioni 
su una risorsa, di tipi diversi o dello stesso tipo. Ad esempio, si può 
fornire un’annotazione su di un documento HTML, che, come 
accennato in precedenza, contiene già informazioni associate al 
contenuto; oppure è possibile che più autori forniscano lo stesso tipo 
di annotazione sulla stessa risorsa, nel caso in cui tale informazione 
possa variare secondo colui che la fornisce. È anche possibile fornire 
la stessa annotazione per diverse risorse linguistiche; di solito questo 
avviene quando le informazioni sono di tipo standard, come l’autore o 
la data di un documento, oppure la descrizione grammaticale di una 
parola. Si possono, infatti, facilmente avere documenti dello stesso 
autore o editi lo stesso giorno, oppure parole con la stessa forma 
grammaticale. In certi casi, questo parallelismo di risorse sulla stessa 
annotazione è utile per la creazione di archivi navigabili, motori di 
ricerca semantici e altri sistemi di collegamento di contenuti 
omogenei. 
Annotazioni Linguistiche: una rassegna 
Altro legame importante fra risorsa ed annotazione è il rapporto 
causa-effetto. Normalmente, infatti, si può pensare all’annotazione 
come qualcosa che dipende dalla risorsa ed è creata in funzione di 
questa. Questo legame, nel quale la risorsa è la “causa” e 
l’annotazione l’“effetto”, non è però l’unico possibile. In certi casi, 
anzi, si pensa prima a fornire un’informazione linguistica, poi si 
creano risorse ad essa relative, con scopo esemplificativo o 
applicativo. Un dizionario, ad esempio, è una collezione di 
annotazioni che forniscono significato sulle parole di una lingua, sia 
questo contenutistico, sinonimico o di traduzione; le frasi che una 
voce del dizionario può contenere servono a fornire esempi su quel 
termine, a meno che non si trattino di citazioni, cosa che avviene 
spesso, ad esempio, nei vocabolari latini. 
Sistemi nei quali la risorsa è l’effetto, e l’annotazione la causa, 
sono anche quelli che producono risorse automaticamente, i cosiddetti 
sintetizzatori. Un sintetizzatore vocale sa come vanno pronunciate le 
parole di una certa lingua o di più lingue; quando è fornito un testo in 
input, esso produce come output una nuova risorsa audio, che è la 
lettura del testo ricevuto. Allo stesso modo funzionano i traduttori 
automatici, mentre le applicazioni d’Intelligenza Artificiale lavorano 
ad un livello più alto, elaborando un contenuto semantico adeguato 
agli stimoli ricevuti, come una domanda fornita dall’utente, e 
trasformandolo poi in una risorsa fruibile dall’utente stesso. 
L’aspetto più importante in un’Annotazione Linguistica, quello 
che influenza, di norma, tutti gli altri, è però l’approccio seguito 
nell’annotazione, ossia il tipo di informazione che si vuole fornire. È 
fuori di dubbio che la prima cosa da fare per definire un’annotazione 
sia decidere il contenuto che tale annotazione dovrà avere. Tanti sono 
gli approcci utilizzabili, ma è possibile formare alcuni gruppi di 
annotazioni. 
Un primo gruppo è formato dalle annotazioni fonetiche ed 
ortografiche, ossia quelle che studiano la pronuncia e la scrittura delle 
parole. Si tratta di informazioni molto precise e indiscutibili, 
facilmente limitabili ad una sola lingua e che pongono particolari 
problemi di codifica, per rappresentare codici fonetici e caratteri 
speciali (lettere accentate, dieresi ecc.). Le annotazioni fonetiche ed 
 14
1 Introduzione 
 15
ortografiche si applicano particolarmente a sintetizzatori vocali e 
testuali, correttori e traduttori automatici, oltre che ad applicazioni di 
analisi della pronuncia o della grafia, a scopo investigativo o di studio. 
Altro approccio all’annotazione è quello sintattico, ossia la 
fornitura di contenuto riguardante il ruolo delle parole nel discorso 
(annotazione grammaticale) oppure delle parti di una frase o di un 
periodo nella frase o nel periodo stessi (annotazione logica). Queste 
informazioni sono più universali di quelle fonetiche ed ortografiche 
(valgono per tutte le lingue e non hanno esigenze particolari di 
codifica), ma, di norma, altrettanto esatte ed indiscutibili (un 
sostantivo non può essere qualcos’altro, così come un predicato è 
facilmente individuabile). Le annotazioni sintattiche, però, non sempre 
possono essere fornite automaticamente come quelle ortografiche e 
fonetiche, anzi vi è una maggiore possibilità che l’informazione creata 
in modo meccanizzato sia incompleta o errata. Esistono, comunque, 
applicazioni di analisi e correzione sintattica automatiche di 
documenti, ed un’annotazione logica o grammaticale, specie se fornita 
manualmente, può aumentare l’affidabilità e l’efficacia dei traduttori e 
dei sintetizzatori. 
Ultimo e più vasto ambito di informazione esistente è quello 
semantico, termine sotto il quale può stare tutto o quasi. Si tratta, in 
effetti, di indicare il significato di una risorsa, e tale significato può 
essere visto sotto vari aspetti. Una distinzione può essere fatta, però, 
fra le informazioni di tipo strutturale, che permettono di distinguere 
parti di significato diverso nel contenuto linguistico di una risorsa, 
come titoli, paragrafi, liste e tabelle, e quelle che riguardano una 
risorsa nel suo complesso. Queste ultime spaziano da annotazioni 
editoriali semplici, come l’autore, il luogo e la data di pubblicazione, a 
commenti dell’autore o revisore, a traduzioni e testi di confronto. Le 
informazioni strutturali sono il nerbo dei linguaggi di markup, in 
particolare i metalinguaggi come SGML e XML, dove qualsiasi tipo 
di composizione del documento è possibile, e facilitano la navigazione 
all’interno di qualsiasi documento. Le annotazioni prettamente 
semantiche, invece, possono rivelarsi molto utili per sintetizzare e 
tradurre automaticamente; alcune di esse, inoltre, permettono la 
creazione di paralleli e gerarchie fra risorse.