parolescritte
interroga:  scripta  ·  bsu  ·  civita

il corpus scripta


esplorazioni verbali


invenzioni verbali


Contare le parole dell'italiano

Un campione significativo

Ho applicato il Validatore di parole italiane ben formate, descritto nella pagina precedente, a 1 335 809 parole distinte contenute nel corpus scripta. Il risultato è stato una riduzione di questo numero a 930 865.

Ho poi determinato la distribuzione delle parole ottenute, che si possono considerare ben formate in italiano, in base alla loro lunghezza, da un valore minimo di 1 fino a un valore massimo di 20. In realtà alcune parole esorbitano da questa lunghezza (precipitevolissimevolmente, per esempio, conta 26 lettere), ma il loro numero è talmente esiguo, in confronto al resto, che si può considerarlo irrilevante.

Un importante istogramma

L'istogramma che segue mostra l'andamento di questa distribuzione.

La linea continua rappresenta invece l'andamento di una funzione matematica che esprime il miglior adattamento possibile ai dati reali mostrati dall'istogramma. Questa è la sua espressione.

dove n è il numero di parole ben formate il relazione alla lunghezza L. I parametri a, b, c e d servono a ottenere il miglior adattamento.

Di nuovo il Validatore all'opera

Quando è stata accarezzata l'idea ingenua di sottoporre al Validatore tutte le combinazioni, lunghe da 1 a 20 lettere, per ricavare il numero delle parole italiane ben formate, non era neppure chiaro quale avrebbe potuto essere la distribuzione di quel gran numero parole. Ma dopo l'esame di 289 465 768 parole del corpus scripta, dalle quali sono state selezionate 1 335 809 parole distinte, ulteriormente ridotte a 930 865 parole distinte e ben formate, almeno l'andamento della distribuzione dovrebbe essere palese. Ebbene, non c'è ragione per temere che quella distribuzione esaustiva sarebbe diversa da questa distribuzione parziale, mostrata nell'istogramma. Sarebbe incomparabilmente più ricca, ma non diversa, per quanto riguarda la forma.

A questo punto è opportuno fare una osservazione capace di aggirare l'ostacolo insormontabile che impedisce di esplorare sistematicamente tutte le combinazioni di lettere di lunghezza compresa fra 1 e 20.

Dal momento che è disponibile una funzione di adattamento a tutti i numerosi dati reali ricavati da scripta, nulla impedisce di adattare questa funzione a una parte di combinazioni ben formate prodotte sistematicamente dal Validatore, lasciando che la funzione approssimi ragionevolmente i dati mancanti.

Questa è la strada che ho imboccato per provare a rispondere finalmente alla prima domanda.