parolescritte
interroga:  scripta  ·  bsu  ·  civita

il corpus scripta


esplorazioni verbali


invenzioni verbali


Contare le parole dell'italiano

Un numero non troppo grande, ma piuttosto sfuggente

Il numero delle parole italiane ben formate, anche se prive di significato, non è infinito, e neppure troppo grande, come si potrebbe immaginare d'acchito, ma determinarlo non è facile. Queste pagine sono dedicate alla ricerca di una ragionevole stima di quel numero.

L'idea di base è che studiando alcune caratteristiche di una cospicua collezione di testi ‒ ovvero un corpus linguistico ‒ si possa elaborare un procedimento abbastanza rigoroso per determinarlo. Il corpus in questione, naturalmente, è scripta.

Il corpus linguistico scripta, al 24 settembre 2017, conteneva 4 375 testi italiani, per un totale di 133 429 036 parole. Questo numero si riduce a 824 917, se si considera il numero di parole distinte, che è il punto di partenza dell'elaborazione.

Molte di queste 824 917 parole, tuttavia, non possono essere considerate italiane. In numerosi testi, per esempio, sono presenti termini latini, francesi, tedeschi, inglesi, ecc. che vanno scartati. Anche altre sequenze di lettere, come i numeri romani (es. xxxviii), non possono essere ammesse. Per eliminare tutti questi termini ho filtrato l'elenco sulla base di un certo numero di regole euristiche.

[A] le parole non devono contenere le lettere jkwxy;

 

[B] sono ammessi solo i trigrammi che chi ghe ghi e qua que qui quo;

 

[C] la lettera h non può essere presente all'inizio di parola (con buona pace delle voci verbali ho, hai e di pochissime altre eccezioni);

 

[D] non sono ammesse vocali duplicate;

 

[E] non sono ammesse consonanti triplicate;

 

[F] ogni parola deve terminare necessariamente per vocale (con buona pace delle preposizioni e di pochissime altre eccezioni);

Applicando queste regole ho potuto purificare il numero delle parole distinte di scripta, riducendolo da 824 917 fino a 631 845, eliminando così un 23% di rumore.

Ancora più purezza

Le 631 845 parole ottenute, però, non possono ancora essere considerate tutte italiane, perché una certa quota di rumore è ancora presente nell'elenco. Se, per esempio, la parola inglese hardcore è stata eliminata grazie alla regola [C], non si può dire lo stesso per l'analoga parola softcore, che rispetta tutte le regole riportate sopra, ma non si mostra affatto ben formata secondo quelle della lingua italiana, per via dell'indigeribile gruppo consonantico ftc.

Con l'elenco parzialmente purificato, tuttavia, ho potuto realizzare un validatore di parole italiane ben formate, che sarà utile, in diverse passaggi, per giungere alla stima dell'agognato numero delle parole contenute nell'Elenco completo delle parole italiane ben formate.

La prossima pagina è totalmente dedicata alla descrizione dell'algoritmo che governa il validatore. Chi non fosse interessato a questi dettagli può tranquillamente saltare alla pagina successiva.