Contare le parole dell'italiano
Un campione significativo
Ho applicato il validatore di parole italiane, appena descritto, alle 631 845 parole quasi sicuramente italiane di scripta, ottenute, a loro volta, dalle 824 917 parole distinte del corpus.
Il risultato è stato di 589 969 parole, con una ulteriore abbattimento del rumore di quasi il 7% o, se si preferisce, di circa il 28% rispetto alle parole distinte.
Questo numero, dunque, rappresenta una cospicua quantità di parole che possono essere considerate più che ragionevolmente italiane. Se si considera che il Grande dizionario italiano dell’uso di Tullio De Mauro, una delle opere lessicografiche più importanti di cui disponiamo, comprende 260 709 lemmi (valore ricavato dalla versione digitale del 2007) si può valutare la consistenza di questo campione.
Come si può impiegare, allora, questo campione per contare le parole dell'Elenco completo delle parole italiane ben formate?
Un utile istogramma
Anzitutto mi sono chiesto come si distribuiscono queste 589 969 parole in relazione alla loro lunghezza. La risposta è nel grafico che segue.

Ho riportato in una pagina a parte i dati numerici, per chi fosse interessato ai dettagli. Osservando l'istogramma, comunque, si nota che non vi sono parole più lunghe di 20 lettere. Certo, precipitevolissimevolmente conta 26 lettere, ma la cosa è di scarso di rilievo statistico; dunque il valore 20 può essere assunto come ragionevole lunghezza massima delle parole italiane.
Allora si possono calcolare, in una prima, grossolana approssimazione, tutte le combinazioni possibili con l'alfabeto italiano per parole lunghe da 1 fino a 20 lettere; la formula per farlo è la seguente:

dove C è il numero totale di combinazioni, che dipende dalla quantità di lettere a dell'alfabeto (21) e dal numero di lettere L di ogni parola considerata (un numero compreso fra 1 e 20). Questo è lo spaventoso risultato:
292 129 350 919 299 000 000 000 000
combinazioni generabili con le 21 lettere l'alfabeto italiano
di parole lunghe da 1 a 20 lettere
Di nuovo il validatore all'opera
Fatto questo, ho pensato di applicare il validatore di parole italiane a tutte queste cieche, straripanti combinazioni (quasi trecento milioni di miliardi di miliardi), per distillare quelle ben formate, che possono dunque entrare nell'Elenco completo delle parole italiane ben formate.
Il validatore dovrebbe scartare, per fare qualche esempio, sequenze come l'insulsa iumsra, l'impresentabile mmcoersriua e la mostruosa nrsuabilcnioeeetnmmm, mentre dovrebbe accettare parole attestate come misura, commisurare e incommensurabilmente, che sono sensati anagrammi delle prime.
Ma dovrebbe prendere per buoni anche anagrammi come rimusa, auroscremmi e anescrumblinemmonite, parole che non significano un bel niente, questo è vero, ma sono ben formate, e direi quasi in attesa che qualcuno le scelga per dare loro anche una consistenza semantica. Una cosa come:
rimusa (ri-mù-sa) s. f.
locale, ma anche edificio, in cui provvisoriamente vengono raccolti senza ordine vari oggetti in attesa di una destinazione definitiva
auroscremmi (au-ro-scrèm-mi) s. m. pl.
avanzi della lavorazione dell'oro
anescrumblinemmonite (a-ne-scrum-bli-nem-mo-nì-te) s. f.
sottordine di cefalopodi appartenente alle estinte ammoniti
Ecco, sono anche queste le parole che meritano di entrare nell'Elenco completo delle parole italiane ben formate, ma purtroppo non è facile valutare il loro numero. L'unica cosa certa è che sono meno dei quasi trecento milioni di miliardi di miliardi calcolati; ma il problema è: quanto meno?