parole scritte
interroga:  SCRIPTA  ·  BSU  ·  CIVITA

la base di dati SCRIPTA


esplorazioni verbali


invenzioni verbali


Contare le parole dell'italiano

Una questione di tempo

In linea di principio la questione è semplice: si dà in pasto al validatore i quasi trecento milioni di miliardi di miliardi di sequenze calcolate, e si aspetta che scodelli il numero di quelle ben formate per la lingua italiana.

Purtroppo, anche nell'ipotesi ottimistica che la macchina impieghi un microsecondo a decidere se una determinata sequenza può essere considerata anche una parola italiana, ci vorrebbero solo un po' meno di diecimila miliardi di anni (per la precisione 9 257 020 524 986) per condurre a termine il lavoro. Ora, se si considera che l'Universo esiste soltanto da 13,82 miliardi di anni, ci si rende conto di quanto sia assurda l'impresa, nel caso si pensi di affrontarla direttamente.

Un aiuto dalla matematica

Questo non vuol dire, però, che ci si debba rassegnare a una rinuncia. Al contrario, impiegando un po' di astuzia matematica, si può ottenere un risultato ragionevole, quantunque non esatto.

La tabella che segue riassume il discorso che mi accingo a fare.

n combinazioni parole ben formate rapporto proiezione
1 21 5 0,238095 0,299895
2 441 90 0,204082 0,167736
3 9 261 768 0,082928 0,093817
4 194 481 10 205 0,052473 0,052473
5 4 084 101 121 286 0,029697 0,029349
6 85 766 121 1 372 863 0,016007 0,016415
7 1 801 088 541 16 536 732 0,009182 0,009181
8 37 822 859 361 193 292 324 0,005110 0,005135
9 794 280 046 581 2 281 320 200 0,002872
10 16 679 880 978 201 26 795 439 224 0,001606
11 350 277 500 542 221 314 728 096 171 0,000899
12 7 355 827 511 386 641 3 696 665 454 505 0,000503
13 154 472 377 739 119 000 43 419 496 539 399 0,000281
14 3 243 919 932 521 510 000 509 987 366 435 114 0,000157
15 68 122 318 582 951 700 000 5 990 099 716 780 893 0,000088
16 1 430 568 690 241 990 000 000 70 357 222 508 851 600 0,000049
17 30 041 942 495 081 700 000 000 826 386 703 595 692 000 0,000028
18 630 880 792 396 715 000 000 000 9 706 394 873 587 250 000 0,000015
19 13 248 496 640 331 000 000 000 000 114 007 281 375 736 000 000 0,000009
20 278 218 429 446 952 000 000 000 000 1 339 082 159 335 490 000 000 0,000005
292 129 350 919 299 000 000 000 000 1 463 699 127 058 180 000 000

Il fatto che non sia possibile verificare sistematicamente le quasi trecento milioni di miliardi di miliardi di sequenze alfabetiche non significa che non se ne possa verificare un discreto numero, per poi ricavare dalle verifiche una ragionevole previsione per tutte le altre.

La colonna combinazioni della tabella riporta in dettaglio i valori di queste ultime, in relazione alla lunghezza della sequenza. Per le lunghezze fino a otto lettere (in chiaro nella tabella) ho potuto determinare con precisione la frazione di parole le quali, quantunque prive di significato, si possono considerare ben formate per lingua italiana (colonna parole ben formate della tabella). Le parole di lunghezza pari a 3 lettere, per esempio, permettono 9 261 combinazioni, tuttavia solo 768 di esse superano l'esame del validatore.

Con otto risultati certi ho potuto imbastire una ragionevole previsione. La colonna rapporto della tabella mette in relazione le parole ben formate con le corrispondenti combinazioni. Se si rappresenta su un grafico il valore di questo rapporto in funzione della lunghezza delle parole, si nota che esso presenta una buona regolarità.

Gli otto risultati certi corrispondono ai punti rossi sul grafico. Essi si adattano a una tipica funzione di rilassamento che si può esprimere con la seguente formula:

dove R è il rapporto fra le parole ben formate e le combinazioni in relazione al numero L di lettere della parola; a e b sono due coefficienti che, scelti opportunamente, permettono il migliore adattamento della funzione ai valori ricavati dall'elaborazione della macchina..

Ma il possesso di una funzione analitica (colonna proiezione nella tabella) permette determinare ragionevolmente anche i valori che non è stato possibile ricavare per via diretta, per le enormi difficoltà di calcolo.

Un risultato deludente

È inutile negarlo: il procedimento di calcolo sviluppato per la stima del numero di parole contenute nell'Elenco completo delle parole italiane ben formate mi sembra abbastanza rigoroso, ma sono deluso dal risultato. Ecco la somma dei valori contenuti nella colonna parole ben formate:

1 463 699 127 058 180 000 000

numero delle parole italiane ben formate
ma non necessariamente dotate di significato

Non mi consola il fatto che si tratta di un numero che è di cinque ordini di grandezza più piccolo di quello delle combinazioni (1,5 · 1021 rispetto a 2,9 · 1026), perché resta comunque un numero spaventosamente grande.

Confesso di averlo immaginato molto più piccolo, e in realtà sono convinto che esso è davvero molto più piccolo, ma per trovarlo occorre spingersi oltre, ed escogitare un ragionevole sistema per potare quella terribile siepe di cifre che ingombra la parte bassa della tabella.