Skip to content

Aspetti della linguistica dei corpora

Nella linguistica dei corpora viene accordata la priorità alla performance rispetto alla competence, alla descrizione linguistica piuttosto che agli universale. I fatti linguistici sono analizzati nella realtà della loro ricorrenza. Dall’analisi delle scelte operate sugli assi sintagmatico e paradigmatico si evidenzia la rilevanza di queste per la descrizione del fenomeno.

Viene progressivamente a cadere la distinzione fra la linguistica basata sull’intuizione e sull’elaborazione intellettuale del ricercatore e la linguistica basata sull’analisi computazionale dei corpora o, secondo una vivace definizione, fra armchair linguistics e corpus linguistics.

L’inizio degli studi basati sui corpora si colloca negli anni in cui si affermò il generativismo. Nel 1959 fu annunciato da Quirk il progetto SEU (Survey of English Usage) per la costituzione di un corpus non elettronico di inglese britannico, 50% scritto, 50% parlato. Poco dopo, Francio e Kucera posero le basi per il lavoro noto come Brown Corpus. Il SEU e il Brown Corpus confluirono, ad opera di Svartvik, nel London-Lund Corpus (LLC), ancora oggi fonte autorevole per lo studio dell’inglese parlato.

Una descrizione della corpus linguistics necessita di alcune considerazioni, in particolare per quanto concerne la dimensione dei corpora e la loro rappresentatività. Oggi le tecnologie attuali non pongono limiti alle scelte dello studioso, che può estendere la dimensione di un corpus fino ad includere le varietà rilevanti ai fini dell’analisi.

Ogni generalizzazione appare tuttavia controvertibile. Il Brown Corpus, con un milione di parole, è ancora considerato da numerosi studiosi un valido modello. Considerando vari corpora recenti non emerge una classificazione uniforme.

Un ulteriore aspetto da tenere in considerazione ai fini della definizione della dimensione del corpus è dato dall’introduzione dei corpora di monitoraggio, che prevedono un costante aggiornamento tramite un flusso di inserimento determinato da una periodica inserzione di dati. Aspetti controversi non sono dati tanto dalla definizione della dimensione del corpus, quanto piuttosto dalla scelta che deve essere operata fra testi e frammenti di testi.

La definizione della rappresentatività costituisce un momento cruciale nella costruzione di corpus, ma risulta uno degli aspetti maggiormente controversi tra gli specialisti. Se per altri l’estensione dei corpora a centinaia di milioni di parole può compensare una scarsa differenziazione delle varietà rappresentate, per altri un’ampia differenziazione delle varietà è posta come condizione essenziale di ogni operazione di generalizzazione.

Il problema della rappresentatività non cade con le possibilità del corpus ma anzi potrebbe venire da questo evidenziato. Nonostante l’estensione della dimensione a centinaia di milioni di parole, ogni corpus rappresenta un campione limitato della lingua in uso.

di Domenico Valenza
Valuta questo appunto:

Continua a leggere:

Altri appunti correlati:

Per approfondire questo argomento, consulta le Tesi:

Puoi scaricare gratuitamente questo appunto in versione integrale.