parolescritte
interroga:  scripta  ·  bsu  ·  civita

il corpus scripta


esplorazioni verbali


invenzioni verbali


Contare le parole dell'italiano

Ancora una volta il Validatore all'opera

Ho messo di nuovo all'opera il Validatore. Per trovare tutte le combinazioni accettabili di una sola lettera la macchina ha impiegato 12 millisecondi e ha scodellato 5 (si fa per dire…) combinazioni. In realtà, questa la sapevo anch'io: si tratta delle cinque vocali, perché in italiano non sono ammesse consonanti isolate. Il resto della ricerca è sintetizzato nella tabella che segue.

numero di lettere combinazioni accettabili tempo di ricerca
1 5 12 ms
2 90 20 ms
3 848 0,186 s
4 11 660 4,6 s
5 140 225 2 min : 2 s
6 1 702 594 53 min : 17 s
7 21 142 514 23 ore : 20 min : 40 s

Può stupire che con sette lettere il tempo di ricerca sia di sole ventiquattr'ore scarse. Ma non bisogna farsi ingannare. Procedendo nella ricerca la durata diventerebbe presto intollerabile e i risultati deludenti, dal momento che, come mostra l'istogramma, dopo aver raggiunto il culmine alla lunghezza 9 il numero delle parole italiane ben formate cala rapidamente.

I dati della tabella, però, sono preziosi, quantunque scarsi. Li ho riportati del grafico successivo, sotto forma di grossi punti di colore verde.

Essi appaiono quasi tutti appiattiti sullo zero, ma si tratta di un'impressione, dovuta alla loro esigua entità. Spicca però il settimo valore della tabella, appena sopra 20 000 000, che infatti intercetta la scala proprio intorno a quel valore.

Vicini alla meta?

L'importanza di questi dati risiede nel fatto che, dopo aver ricavato una funzione matematica dai dati dell'istogramma, ovvero dalla distribuzione delle parole italiane ben formate presenti in scripta, ho potuto applicare quella stessa funzione ai dati della tabella, ricavando la curva di colore rosso più chiaro del grafico, ovvero quella che svetta fino a oltrepassare il valore di 280 000 000 parole. Di quella un po' più scura parlerò fra un momento, ma qui voglio richiamare l'attenzione su quella ancora più scura, appiattita sull'asse delle ascisse: si tratta della funzione che si adatta alla distribuzione dell'istogramma. È apparentemente ma comprensibilmente piatta, in confronto alla curva più elevata.

Questa curva, infatti, racchiude un ipotetico istogramma di tutte le parole italiane ben formate, che espande ragionevolmente i dati della tabella, ricavati dal Validatore, a tutte le combinazioni, lunghe fino a venti lettere. Questa ragionevole espansione ha prodotto il risultato riportato qui di seguito,

788 335 279

stima del numero di parole italiane ben formate lunghe da 1 a 20 lettere

che costituisce dunque la risposta alla prima domanda. In breve: combinando sistematicamente delle sequenze di lettere di lunghezza compresa fra 1 e 20, ma rispettando le regole dell'italiano, si riuscirebbe a trovarne un numero assai inferiore a un miliardo.

Un discorso aperto

E la risposta alla seconda domanda? Qui il discorso si fa molto più difficile.

Come già detto, è evidente che non tutte le parole italiane ben formate possono essere considerate italiane. falciare lo è di sicuro, calafrie potrebbe esserlo, ma abacadafagalamanapara è da escludere, benché rispetti le regole di formazione. Scremare tutte le parole come quest'ultima dall'insieme delle parole ben formate è un'impresa difficile e io ‒ almeno per il momento ‒ non so come affrontarla. Immagino che l'Intelligenza Artificiale potrebbe offrire un ausilio al riguardo, ma per il momento è solo un pensiero.

Tuttavia, una risposta provvisoria non è da escludere. La curva intermedia del grafico è stata disegnata abbattendo di un ordine di grandezza i dati della curva superiore. Approssimando i risultati, si ottiene il seguente valore,

80 000 000

stima del numero di parole italiane ben formate e usualmente accettabili

che rappresenta una risposta provvisoria alla seconda domanda. Personalmente, ritengo che questo numero sia ancora troppo elevato, ma non ho sensati elementi di giudizio per abbatterlo ulteriormente.