Skip to content

La linguistica dei corpora e le sue ricadute lessicografiche

Con linguistica dei corpora si intende la branca della linguistica che si occupa di elaborare i dati provenienti da larghi insiemi di testi immagazzinati su supporti informatici. Attraverso tali operazioni, gli studiosi ricavano numerose informazioni possibili sui testi e sulla lingua in cui sono scritti.

La storia dei grandi corpora elettronici di testi mostra che ci sono voluti anni per raggiungere l’attuale maturità nelle tecniche d’archiviazione di dati e che è sempre opportuno conservare accanto a versioni etichettate una versione del corpus poco elaborata, perché in futuro si potrebbero scoprire modi migliori di organizzarlo o affermarsi diverse esigenze di interrogazione.

Gli autori del LIP hanno accluso al volume due dischetti con la trascrizione del corpus di italiano parlato su cui sono basati. In tal modo tutti possono utilizzare il materiale da cui provengono le statistiche del volume per trarne altre informazioni. L’optimum sarebbe avere anche le registrazioni da cui sono tratte le trascrizioni, ma già così è un buon risultato. Il lessicografo può trarre molti vantaggi dall’interrogazione di un corpus: può stabilire quali e quanti lemmi debbono far parte di un dizionario fondamentale, o se un’accezione di una parola polisemica è più frequente di un’altra.

Utili al linguista, al glottodidatta e al lessicografo sono le basi di dati linguistici come quelle prodotte in centri che si occupano di linguistica computazionale. Si tratta di liste di lemmi con etichettature grammaticali, sintattiche, semantiche di vario tipo. Un esempio è quella realizzata sul VdB presso l’Istituto di Psicologia del Consiglio Nazionale delle Ricerche da Thornton, Iacobini, Burani (1994).
di Domenico Valenza
Valuta questo appunto:

Continua a leggere:

Altri appunti correlati:

Per approfondire questo argomento, consulta le Tesi:

Puoi scaricare gratuitamente questo appunto in versione integrale.