Contare le parole dell'italiano
Il validatore di parole, ovvero: la macchina impara l'italiano
Per valutare le dimensioni dell'Elenco completo delle parole italiane ben formate occorre insegnare alla macchina come riconoscerle. Per esempio:
. . . . .
iumsra: non va bene: non è ben formata;
. . . . .
misura: va bene: è ben formata;
. . . . .
rimusa: va bene: è ben formata;
. . . . .
e così di seguito.
Per un essere umano si tratta di un compito facile, che viene svolto per istinto linguistico, ma la macchina non possiede questo automatismo e quindi va addestrata pazientemente.
Mi sono posto per la prima volta questo problema per gioco, quando ho sviluppato il programma Mescola, e ora ci ritorno con uno scopo preciso.
Citando sempre l'articolo pubblicato su mc-microcomputer, riporto le cinque regole con cui avevo istruito il mio Commodore 64, perché in parte sono ancora valide.
[A] Non è posta alcuna limitazione al numero di elementi dei gruppi vocalici, fatta eccezione per quelli contenenti vocali uguali e consecutive (aeiou va bene, mentre aeei non va bene);
[B] Sono ammessi gruppi consonantici di massimo tre elementi;
[C] Le regole di formazione dei gruppi consonantici sono condensate nella tabella che si trova in testa al programma. Per verificare l'ortografia della generica coppia di lettere c1+c2 occorre cercare il numero determinato dall'intersezione della riga di c1 con la colonna di c2.
Se il numero vale 0 non c'è possibilità di accordo (cz, fn, ecc.);
se vale 1 c'è possibilità di combinazione, ma purché prima del gruppo vi sia una vocale o purché il gruppo non stia all'inizio di una parola (nd, mb, ecc.);
se vale 2 c'è sempre possibilità di combinazione (cr, pl, ecc.);
se vale 3 è come nel caso 1 ma va bene all'inizio della parola (sb, st, ecc.);
[D] Le consonanti h e q sono trattate a parte e in conformità alla loro ortografia anomala;
[E] Nessuna parola può terminare per consonante.
Le vocali vanno abbastanza d'accordo
Il nuovo validatore ha reso più restrittiva la regola [A]. La macchina accetta solo gruppi vocalici di due lettere, tranne alcune eccezioni di tre lettere di cui renderò conto fra un momento. Niente di mutato, invece, per quanto riguarda le vocali uguali e consecutive, nonostante alcuni legittimi plurali in ee (es. maree) e in ii (es. addii).
Al tempo di Mescola non disponevo di scripta, perciò allora mi sono regolato seguendo un criterio astratto. In effetti, non c'è un limite di principio alla dimensione dei gruppi vocalici che una parola italiana può contenere, ma in concreto, quanto possono essere ragionevolmente lunghi questi gruppi?
Cercando nell'elenco delle parole quasi sicuramente italiane (631 845 parole) è saltato fuori che la frequenza dei gruppi di tre vocali è molto bassa, figuriamoci quella dei gruppi di quattro, cinque o addirittura sei vocali come in cuoiaio.
La Tabella dei gruppi trivocalici mostra che solo cinque gruppi galleggiano sopra la soglia dell'1‰ e per questa ragione li ho considerati accettabili, a differenza di tutti i rimanenti.
Le consonanti sono più bisbetiche
La regola [B] resta valida: non è il caso di raggruppare più di tre consonanti. Per metterle d'accordo, comunque, ci vuole parecchia diplomazia. In Mescola, la tabella riportata sotto a sinistra, e relativa alla regola [C], permetteva di evitare i conflitti.


Ho modificato la tabella di Mescola, basandomi sulle informazioni oggettive ricavate dall'elenco delle parole quasi sicuramente italiane (631 845 voci). Il risultato è la tabella a destra. È simile a quella di Mescola; la differenza più importante è che essa regola anche l'accoppiamento fra vocali e consonanti, secondo questi criteri:
codice 0: inaccettabile;
codice 1: accettabile, ma solo ad alcune condizioni;
codice 2: sempre accettabile;
codice 8: caso particolare dei digrammi ch e gh;
codice 9: caso particolare del digramma qu.
Il criterio di selezione delle coppie di lettere accettabili si basa, come già accennato, sulle caratteristiche dell'elenco delle parole quasi sicuramente italiane (631 845 voci), documentate nella Tabella dei gruppi biconsonantici.
Sulle base di queste interrogazioni ho considerato accettabili solo i gruppi con una frequenza superiore all'1‰, ammettendo qualche rara eccezione, come i gruppi ct, pt e ph, più frequenti di quanto ci si aspetterebbe.
I problemi del menage a tre
Il fatto che certe consonanti stiano bene in coppia non significa necessariamente che possano stare altrettanto bene in un terzetto.
Il gruppo ns, per esempio, ha un'ottima frequenza (22,3‰), mentre sf ha una frequenza più che accettabile (7,9‰). Ma nella Tabella dei gruppi triconsonantici il gruppo nsf, che possiamo far derivare dalla fusione di ns+sf, può vantare solo una misera frequenza dello 0,2‰, e dunque è stato scartato, ovvero non è considerato accettabile in una parola italiana, quantunque in transfuga, per esempio, lo sia indubbiamente.
In generale, ho considerato accettabili i gruppi triconsonantici con una frequenza superiore all'1‰, senza riguardo per il fatto che provengano magari dalla fusione di digrammi assai più frequenti.
Un caso a parte, poi, è costituito dalle consonanti h e q che possono stare solo nei trigrammi che, chi, ghe, ghi e qua, que, qui, quo, in conformità alla regola [D] già applicata in Mescola.
Ultima, ma non meno importante, è la regola [E], secondo la quale una parola italiana deve terminare necessariamente per vocale. Non si tratta di un vincolo assoluto, perché soprattutto i testi in metrica sono un vero e proprio ricettacol di parole che terminano per consonante, tuttavia, con buona pace della licenza poetica, la regola rispecchia molto bene la realtà dell'italiano in prosa.
Interroghiamo la macchina
Dopo aver insegnato alla macchina a riconoscere una parola italiana, finalmente, si può metterla alla prova, per verificare se ha imparato la lezione. Ecco dunque una maschera predisposta per eseguire a piacere dei test.
Bisogna dire che molte parole, sicuramente italiane, non passano il test. Il fatto, però, non dipende da un difetto tecnico del validatore, bensì dalla consapevole scelta di non considerare alcune delle combinazioni fra le lettere dell'alfabeto che sono consentite in una parola italiana, ma non possiedono altresì una rilevanza statistica.
D'altra parte, lo scopo del validatore non è quello di essere molto preciso nel riconoscere una parola italiana, anche se non suona molto familiare. Il suo scopo è purificare ulteriormente l'elenco delle parole quasi sicuramente italiane (631 845 voci) per una stima più accurata del numero di parole contenute nell'Elenco completo delle parole italiane ben formate.