parole scritte
interroga:  SCRIPTA  ·  BSU  ·  CIVITA

la base di dati SCRIPTA


esplorazioni verbali


invenzioni verbali


Mettere le parole al loro posto

Un'idea più estesa di rango

Ogni lista ordinata per frequenza delle occorrenze di un testo è un caso a sé, influenzato anzitutto dal contesto di produzione dell'opera. In un discorso di fisica, per esempio, le parole più frequenti sono ben diverse da quelle che si incontrano in un'enciclica. Il confronto fra due opere come Le nuove vedute sull'intima struttura della materia di Augusto Righi e Pascendi Dominici Gregis di Giuseppe Sarto non lascia dubbi.

Le nuove vedute
sull'intima struttura della materia
Pascendi Dominici Gregis
parola numero di occorrenze frequenza millesimale parola numero di occorrenze frequenza millesimale
raggi 62 6,39 fede 96 4,85
ioni 61 6,28 Chiesa 92 4,64
elettroni 41 4,22 modernisti 87 4,39
particelle 35 3,60 storia 57 2,88
atomi 34 3,50 scienza 51 2,57
gas 32 3,30 Cristo 49 2,47

Benché entrambi i testi parlino di nuove vedute e di modernismo, vale a dire di attualità, per l'epoca, e risalgano perdipiù al medesimo anno (1907), la differenza non potrebbe essere più grande. La cosa non stupisce affatto: i contenuti delle due opere sono talmente diversi e specifici (fisica e teologia) che ogni contatto risulta impossibile.

Il «Vocabolario di base della lingua italiana»

Può essere interessante, però, chiedersi se in un ambito meno settoriale, vale a dire nel normale modo di scrivere di cose abbastanza comuni la distanza fra i testi rimanga sempre così grande come nel confronto appena visto. Questo equivale a chiedersi se, nei testi per così dire normali, le liste ordinate per frequenza delle occorrenze sarebbero poi così diverse.

Nel 1971 fu condotto a termine uno studio mirato a indagare in questa direzione. Dopo alcuni anni i risultati confluirono in una collezione ragionata di parole, prodotta da Tullio De Mauro, che venne denominata «Vocabolario di base della lingua italiana», o più semplicemente Vocabolario di base, e pubblicata in appendice a un prezioso volumetto del 1980 intitolato Guida all'uso delle parole.

Ho riportato sopra le prime parole (stampate con stili diversi per ragioni che spiegherò più avanti) del Vocabolario di base, tratte dall'undicesima edizione della Guida del 1991.
Il Vocabolario di base conteneva circa 7000 parole, selezionate in base alla loro elevata frequenza in un certo numero di svariati testi; un lavoro abbastanza simile, insomma, a quello svolto sul discorso di Augusto Righi e sull'enciclica di Giuseppe Sarto. Nella preparazione del Vocabolario di base, però, era stato considerato anche un aspetto che faceva una grandissima differenza.

Si era tenuto conto, infatti, della dispersione, vale a dire di un indice numerico che esprime la propensione delle parole a comparire in testi diversi, e risulta tanto più grande quanto più il numero di questi testi è elevato. Combinando la frequenza con la dispersione si era potuto perciò ottenere una valutazione più realistica del rango delle parole considerate, avulso dal contesto specifico dei testi considerati.

Cerco di spiegare meglio con un esempio. La parola elettroni è molto frequente (4,22‰) nel discorso di Augusto Righi, mentre la parola modernisti è molto frequente (4,39‰), nell'enciclica di Giuseppe Sarto, ma non è vero viceversa, quindi queste due parole, nei due testi, hanno un alto indice frequenza ma un basso indice di dispersione. Al contrario, la parola natura è presente sia nel discorso, sia nell'enciclica, e possiede un rango elevato in entrambi i testi. Essa è dunque, al tempo stesso, molto frequente e ben dispersa.

Ma la parola natura non sta soltanto nei discorsi e nelle encicliche, sta anche nei poemi e nei romanzi, nelle biografie e nei saggi, sta praticamente dappertutto: una condizione ideale per entrare nel Vocabolario di base che difatti la ospita, perché mira a rappresentare la dotazione minima di parole che qualsiasi italiano, che disponga di una pur modesta istruzione, è in grado di comprendere e di adoperare in un discorso basilare

Il «Grande dizionario italiano dell'uso»

Il Vocabolario di base è poi confluito nel «Grande dizionario italiano dell'uso» (GRADIT, 1999-2007), sempre di Tullio di Mauro, che, da un certo punto di vista, si colloca ai suoi antipodi, visto che registra 260.709 parole o, per essere tecnicamente più precisi, lemmi. Ad ognuno di questi lemmi, però, è associata una marca d'uso che rappresenta la classe del suo rango. Queste sono le marche delle parole più ricorrenti:

parola fondamentale: FO

parola di alto uso: AU

parola di alta disponibilità AD

Si tratta delle tre suddivisioni del Vocabolario di base, che erano state distinte, al tempo della prima pubblicazione, tramite un diverso stile dei caratteri:

grassetto per le 2000 parole del cosiddetto vocabolario fondamentale

tondo per le 2750 parole del vocabolario di alto uso

corsivo per le 2300 parole del vocabolario di alta disponibilità

Si può concludere, insomma, che un testo prodotto usando soltanto le parole del Vocabolario di base, o quelle marcate come FO, AU e AD nel GRADIT, ha un'ottima probabilità di essere comprensibile praticamente per tutti gli italiani non analfabeti.

In verità, fra le due collezioni esistono parecchie differenze. Eccone alcune, fra le diverse centinaia rilevabili:

parola Vocabolario di base GRADIT
tumulto assente AD
superstite assente AU
commesso assente FO
manovale AD assente
gargarismo AD AU
cretina (sostantivo) AD FO
sissignore (interiezione) AU assente
tranquillità AU AD
intascare AU FO
ricco (sostantivo) FO assente
parente FO AD
desiderio FO AU

Qualche osservazione aggiuntiva

Le differenze rilevabili fra il Vocabolario di base e il GRADIT non sono preoccupanti. Al contrario, mostrano che la lingua muta, e che il lessicografo adegua col tempo gli strumenti atti a descriverla.

Ciò che mi suscita alcune perplessità, piuttosto, è il numero (circa 7000) delle parole che compongono il Vocabolario di base, e il criterio secondo il quale esse sono distribuite nelle tre classi marcate FO, AU e AD.

Anzitutto il numero: perché proprio 7044 nel Vocabolario di base (se ho fatto bene i conti, visto che le ho pazientemente ricopiate dalla carta)? E perché 6728 nel GRADIT (come si deduce dalla versione informatica)? Perché non 6000? Oppure 8000? In coscienza, non mi è riuscito di scoprire la ragione per cui proprio quelle poche, indispensabili parole sono state separate dalla sterminata massa del lessico italiano. Che parola dovesse appartenere al Vocabolario di base, e che favella non dovesse, mi sembra abbastanza evidente. Ma perché includere un aggettivo come aostano, ed escluderne uno come barese?

In secondo luogo viene la suddivisione delle parole nelle tre classi marcate FO, AU e AD. Nel 1956 il linguista francese Georges Gougenheim si dedicò alla compilazione di un vocabolario del Français fondamental, che a sua volta ricalcava un'idea di Charles Kay Ogden il quale, nel 1930, elaborò un Basic English artificiale, che comprendeva, fra l'altro, una collezione ragionata di 851 parole fondamentali della lingua inglese.

Il lavoro di Gougenheim era più raffinato di quello di Ogden. Egli aveva elaborato il concetto di disponibilità, secondo il quale una parola può possedere un rango piuttosto basso, in una collezione di testi, ma nonostante ciò è ben conosciuta, sebbene poco usata: in altri termini è disponibile.

La marca AU (alta disponibilità) del Vocabolario di base ricalca proprio questo concetto. Ma il vocabolario di Gougenheim era suddiviso in due parti: la prima comprendeva le noyau des mots fréquents (il nucleo delle parole frequenti) e la seconda le lexique disponible fondamental (il lessico disponibile fondamentale). Si intuisce che quest'ultima parte corrisponde a quella marcata come AD nel Vocabolario di base, ma non è chiara la ragione per cui il nucleo delle parole frequenti del Français fondamental è stato sdoppiato nel Vocabolario di base in parole marcate come FO (fondamentali) e AU (di alto uso). Una ragione c'è di sicuro, tuttavia mi rimane oscura.

Ma in definitiva queste sono osservazioni che non intaccano il valore del Vocabolario di base, che resta perciò uno strumento fondamentale per orientarsi nella selva sterminata del lessico italiano.