parolescritte
interroga:  scripta  ·  bsu  ·  civita

il corpus scripta


esplorazioni verbali


invenzioni verbali


Contare le parole dell'italiano

Parole ben formate candidabili anche all'uso

Mi sembra evidente, per gli esempi riportati, che la buona forma italiana di una parola è una condizione necessaria, ma non sufficiente, per candidarla all'uso. Solo una piccolissima frazione delle parole italiane ben formate può aspirare a entrare un domani nel lessico attestato della lingua.

Per determinare l'entità di questa piccolissima frazione ho applicato su una scala molto più grande le condizioni già rilevate statisticamente in una situazione limitata, ritenendo che il fattore di scala non influenzi troppo il risultato. Ancora una volta, una tabella servirà per lo scopo.

n parole ben formate parole candidabili all'uso freq. proposta (%) freq. rilevata (%)
1 5 0 0,0 0,0
2 90 13 0,0 0,0
3 768 491 0,0 0,1
4 10 205 9 833 0,0 0,9
5 121 286 118 162 0,1 3,1
6 1 372 863 893 893 0,5 6,2
7 16 536 732 4 366 082 2,6 11,3
8 193 292 324 13 978 383 8,2 13,8
9 2 281 320 200 29 621 791 17,4 15,8
10 26 795 439 224 41 825 759 24,6 15,5
11 314 728 096 171 39 538 022 23,3 12,5
12 3 696 665 454 505 25 109 959 14,8 9,0
13 43 419 496 539 399 10 742 178 6,3 5,5
14 509 987 366 435 114 3 102 073 1,8 3,1
15 5 990 099 716 780 893 605 671 0,4 1,6
16 70 357 222 508 851 600 80 061 0,0 0,7
17 826 386 703 595 692 000 7 173 0,0 0,3
18 9 706 394 873 587 250 000 436 0,0 0,2
19 114 007 281 375 736 000 000 18 0,0 0,1
20 1 339 082 159 335 490 000 000 1 0,0 0,0

La colonna parole ben formate è quella già presentata, dove confrontavo il numero delle combinazioni alfabetiche con quello delle parole ben formate, e che ha condotto al deludente risultato già discusso.

Bisogna osservare, però, che l'enorme espansione delle parole ben formate, al crescere del numero di lettere, mal si accorda con la distribuzione verificata nel corpus linguistico scripta, e sintetizzata nell'istogramma già mostrato. Voglio allora presentare una versione modificata di quel grafico.

Esso mostra una funzione analitica (in evidenza) che rappresenta il migliore adattamento ai dati dell'istogramma (in secondo piano). L'espressione matematica della funzione è la seguente:

dove p è il numero di parole, L è il numero di lettere della parola e i parametri a, b, c e d servono per adattare opportunamente la funzione ai dati dell'istogramma.

Ho cercato di applicare questa funzione ai valori della colonna parole ben formate, al fine di impedire che essi crescano in maniera esagerata, ma soprattutto irrealistica, ove si consideri che una parola ben formata non è automaticamente candidabile all'uso.

In particolare, ho imposto questi vincoli all'andamento della funzione per potare i valori delle parole ben formate:

[A] i primi 8 valori devono essere minori o uguali rispetto a quelli registrati nella verifica su scripta, e discostarsene progressivamente;

 

[B] la percentuale massima di parole deve trovarsi in corrispondenza di quella ricavata dalla verifica su scripta, ovvero per parole lunghe 9 lettere;

 

[C] lo scarto fra le frequenze di distribuzione delle parole ben formate e delle parole candidabili all'uso deve essere il più piccolo possibile;

 

[D] la funzione deve estinguersi per parole lunghe 20 e più lettere.

Rappresentata in un grafico, la tabella si presenta così:

Come è facile indovinare, la linea rossa rappresenta l'andamento delle parole ben formate, mentre la linea verde quello delle parole candidabili all'uso.

Molte proposte, un solo ordine

Il grafico esprime perfettamente il principio secondo il quale le parole candidabili all'uso sono solo una frazione ‒ e assai modesta ‒ delle parole ben formate. Se si esamina la tabella, tuttavia, si nota che nessuno dei vincoli dichiarati viene rispettato con esattezza. D'altra parte, bisogna anche aggiungere che nessuno di essi è stato clamorosamente violato.

Il fatto non deve stupire, perché è possibile ottenere diversi scenari concorrenti: tutti egualmente ragionevoli, tutti egualmente discutibili.

In un caso, per esempio, si può privilegiare la concordanza delle percentuali (vincolo [B]) che nella tabella non risulta rispettata, ma questo porta a un azzeramento troppo precoce della funzione; in un altro caso, si può privilegiare un accordo migliore con i primi 8 valori (vincolo [A]) ma allora a soffrirne sarebbe il vincolo [B], e così di seguito. Quello che propongo è un ragionevole compromesso tutti i vincoli, non certo l'unico.

170 000 000

numero delle parole italiane ben formate e candidabili all'uso

Uno stimolo per la ricerca

La cifra tonda ha il suo fascino, tuttavia, devo ripetere che modificando opportunamente i parametri della funzione è possibile ottenere risultati meno icastici, ma altrettanto ragionevoli. Quello che conta di più, però, è l'ordine di grandezza già anticipato, che quindi vorrei adeguatamente mettere in rilievo.

108

ordine di grandezza del numero delle parole italiane ben formate
e candidabili all'uso

In verità, io sono persuaso che il valore più aderente al vero sia 107 ma purtroppo non sono in grado di affermarlo con qualche buona ragione. 170 000 000 parole, comunque, è un numero ingente, ma non è un numero che spaventa, esso invoglia piuttosto alla ricerca e all'invenzione, come quella degli eteronimi anagrammatici.

I due più grandi dizionari italiani, il Grande dizionario della lingua italiana di Salvatore Battaglia e il già nominato Grande dizionario italiano dell’uso di Tullio De Mauro, contengono, rispettivamente, circa 180 000 e 260 000 lemmi. Come è naturale, quasi ogni lemma ammette un certo numero di flessioni, sicché il numero totale dei lemmi e delle forme flesse della lingua italiana, come ricordava lo stesso De Mauro, si attesta intorno a qualche milione. Ne mancano ancora parecchi, di milioni, prima di raggiungere il numero di parole dell'Elenco ridotto delle parole italiane ben formate.

I neologisti hanno ancora molto di che sbizzarrirsi.