parolescritte
interroga:  scripta  ·  bsu  ·  civita

il corpus scripta


esplorazioni verbali


invenzioni verbali


Mettere le parole al loro posto

Un'idea più estesa di rango

Ogni lista ordinata per frequenza delle occorrenze di un testo è un caso a sé, influenzato anzitutto dal contesto di produzione del testo. In un discorso di fisica, per esempio, le parole più frequenti sono ben diverse da quelle che si incontrano in un'enciclica. Il confronto fra due testi come Le nuove vedute sull'intima struttura della materia di Augusto Righi e Pascendi Dominici Gregis di Giuseppe Sarto non lascia dubbi.

Le nuove vedute
sull'intima struttura della materia
Pascendi Dominici Gregis
parola numero di occorrenze frequenza millesimale parola numero di occorrenze frequenza millesimale
raggi 62 6,39 fede 96 4,85
ioni 61 6,28 Chiesa 92 4,64
elettroni 41 4,22 modernisti 87 4,39
particelle 35 3,60 storia 57 2,88
atomi 34 3,50 scienza 51 2,57
gas 32 3,30 Cristo 49 2,47

Benché entrambi i testi parlino di nuove vedute e di modernismo, vale a dire di attualità, per l'epoca, e risalgano perdipiù al medesimo anno (1907), la differenza non potrebbe essere più grande. La cosa non stupisce affatto: i contenuti dei due testi sono talmente diversi e specifici (fisica e teologia) che ogni contatto risulta impossibile.

Il «Vocabolario di base della lingua italiana»

Può essere interessante, però, chiedersi se in un ambito meno settoriale, vale a dire nel comune modo di parlare di cose comuni la distanza fra i testi rimanga sempre così grande come nel confronto appena visto. Questo equivale a chiedersi se, nei testi comuni, le liste ordinate per frequenza delle occorrenze sarebbero poi così diverse.

Nel 1971 fu condotto a termine uno studio mirato a indagare in questa direzione. Dopo alcuni anni i risultati confluirono in una collezione ragionata di parole, prodotta da Tullio De Mauro, che venne denominata «Vocabolario di base della lingua italiana», o più semplicemente Vocabolario di base, e pubblicata in appendice a un prezioso volumetto del 1980 intitolato Guida all'uso delle parole.

Ho riportato sopra le prime parole (stampate con stili diversi per ragioni che spiegherò più avanti) del Vocabolario di base, tratte dall'undicesima edizione della Guida del 1991.

Il Vocabolario di base conteneva circa 7 000 parole, selezionate in base alla loro elevata frequenza in un certo numero di svariati testi; un lavoro abbastanza simile, insomma, a quello appena mostrato sul discorso di Augusto Righi e sull'enciclica di Giuseppe Sarto. Nella preparazione del Vocabolario di base, però, era stato considerato anche un aspetto che faceva una grandissima differenza.

Si era tenuto conto, infatti, della dispersione, vale a dire di un indice numerico che esprime la propensione delle parole a comparire in testi diversi, e risulta tanto più grande quanto più il numero di questi testi è elevato. Combinando la frequenza con la dispersione si era potuto perciò ottenere una valutazione più realistica del rango delle parole considerate, avulso dal contesto specifico dei testi considerati.

Cerco di spiegare meglio il concetto con un esempio. La parola elettroni è molto frequente (4,22‰) nel discorso di Augusto Righi, mentre la parola modernisti è molto frequente (4,39‰), nell'enciclica di Giuseppe Sarto, ma non è vero viceversa, perciò queste due parole, nei due testi, hanno un alto indice frequenza ma un basso indice di dispersione. Al contrario, la parola natura è presente sia nel discorso, sia nell'enciclica, e possiede un rango elevato in entrambi i testi. Essa è dunque, al tempo stesso, molto frequente e ben dispersa.

Ma la parola natura non sta soltanto nei discorsi e nelle encicliche, sta anche nei poemi e nei romanzi, nelle biografie e nei saggi, sta praticamente dappertutto: una condizione ideale per entrare nel Vocabolario di base che difatti la ospita, perché mira a rappresentare la dotazione minima di parole che qualsiasi italiano, che disponga di una pur modesta istruzione, è in grado di comprendere e di adoperare in un discorso basilare.

Il «Grande dizionario italiano dell'uso»

Il Vocabolario di base è poi confluito nel Grande dizionario italiano dell'uso (2007, in edizione informatizzata), sempre di Tullio di Mauro che, da un certo punto di vista, se ne colloca agli antipodi, visto che registra 260 709 parole o, per essere tecnicamente più precisi, lemmi. Ad ognuno di questi lemmi, però, è associata una marca d'uso che rappresenta la classe del suo rango. Queste sono le marche delle parole più ricorrenti:

parola fondamentale: fo

parola di alto uso: au

parola di alta disponibilità ad

Si tratta delle tre suddivisioni del Vocabolario di base, che erano state distinte, al tempo della prima pubblicazione, tramite un diverso stile dei caratteri:

grassetto per le 2 000 parole del cosiddetto vocabolario fondamentale

tondo per le 2 750 parole del vocabolario di alto uso

corsivo per le 2 300 parole del vocabolario di alta disponibilità

Si può concludere, insomma, che un testo prodotto usando soltanto le parole del Vocabolario di base, quelle marcate come fo, au e ad nel gradit, ha un'ottima probabilità di essere compreso praticamente da tutti gli italiani non analfabeti.

Alcuni antecedenti

Il Vocabolario di base non è stato il primo contributo per costituire il lessico elementare di una lingua. Nel 1956 il linguista francese Georges Gougenheim si dedicò alla compilazione di un vocabolario del Français fondamental, che a sua volta ricalcava un'idea di Charles Kay Ogden il quale, nel 1930, elaborò un Basic English artificiale, che comprendeva, fra l'altro, una collezione ragionata di 851 parole fondamentali della lingua inglese.

Il lavoro di Gougenheim, però, era più raffinato di quello di Ogden. Egli aveva elaborato il concetto di disponibilità, secondo il quale una parola può possedere un rango piuttosto basso, in una collezione di testi, ma nonostante ciò è ben conosciuta, sebbene poco usata: in altri termini è disponibile.

La marca ad (alta disponibilità) del Vocabolario di base ricalca proprio questo concetto. Ma il vocabolario di Gougenheim era suddiviso in due parti: la prima comprendeva le noyau des mots fréquents (il nucleo delle parole frequenti) e la seconda le lexique disponible fondamental (il lessico disponibile fondamentale). Si intuisce che quest'ultima parte corrisponde a quella marcata come ad nel Vocabolario di base, ma non mi è chiara la ragione per cui il nucleo delle parole frequenti del Français fondamental è stato sdoppiato nel Vocabolario di base in parole marcate come fo (fondamentali) e au (di alto uso). Una ragione c'è di sicuro, tuttavia mi rimane oscura.

Il «Nuovo vocabolario di base della lingua italiana»

Naturalmente i tempi mutano e con essi la lingua che li riflette. Per questa ragione nel 2016 è stata realizzata una nuova versione del vocabolario, denominata Nuovo vocabolario di base della lingua italiana. Esistono comprensibilmente numerose differenze fra le tre versioni del vocabolario, e la tabella che segue ne mostra, a titolo di esempio, alcune.

N lemma 1980 2007 2016
1 accoglienza AU assente AU
2 acuto AU AD AU
3 affitto AU assente AU
4 barbarie AU assente assente
5 desiderio FO AU FO
6 disinteresse AD AU AD
7 intascare AU FO assente
8 parente FO AD FO
9 pesante assente FO FO
10 semplificare AD assente AU
11 superstite assente AU AU
12 trionfo AU assente AU

Ciò che resta relativamente costante nelle tre versioni del vocabolario è il numero di lemmi, che oscilla fra 7 000 e 8 000, cosa che evidentemente ne ha determinato il cospicuo movimento di ingresso, di uscita e di variazione che la tabella documenta a campione.

Ho incorporato le tre versioni del vocabolario nella base di dati di scripta; quale può essere la sua utilità per le interrogazioni sul corpus?