Contare le parole dell'italiano
Un risultato deludente, dicevo
Devo ripetere che sono deluso del risultato che ho ottenuto. Il numero delle parole italiane ben formate, anche se prive di significato, è enorme.
Del resto, ciò è proprio quello che afferma Tullio De Mauro nell'Introduzione al proprio Grande dizionario italiano dell’uso, dopo aver spiegato che il lessico di una lingua contempla non solo i vocaboli attestati, quelli che finiscono nei dizionari, ma anche quelli che, prima o poi, potrebbero finirci.
È ben vero: il lessico di una lingua include anzitutto il numero vastissimo di vocaboli attestati. Si tratta di un numero che, per alcune grandi lingue, quali l'inglese e il francese, lingue dunque d'uso antico, vario e molteplice come quello dell'italiano, si è potuto far ascendere a diversi milioni di parole. Ma questa cifra, pur in sé imponente, è poca cosa dinanzi al numero dei vocaboli possibili. Per restare all'italiano, si pensi, per fare un esempio, alle schiere interminabili si aggettivi e sostantivi non attestati (o, al momento, non ancora reperiti in testi scritti e discorsi parlati) e tuttavia comprensibili a producibili solo che a vocaboli già dati si premetta un anti- o un super-. Oppure si pensi alla schiera non meno sterminata di verbi estraibili da sostantivi e aggettivi con la semplice aggiunta di -izzare e, ancora, di sostantivi derivabili a loro volta da tali verbi con l'aggiunta di un -zione. Questi e tanti altri esempi analoghi ci dicono che se il lessico di una lingua è di una numerosità dell'ordine di 106 quando si guardi ai soli vocaboli attestati (e, almeno per ora e finora, attestati soprattutto in testi scritti) esso, dati i meccanismi della formazione delle parole, è addirittura di numero potenzialmente illimitato se si bada anche ai vocaboli possibili che, in qualsiasi momento, possono essere prodotti, intesi e immessi nell'uso.
Dunque, il numero dei vocaboli possibili sarebbe potenzialmente illimitato. Io ci credo poco, e mi domando: non si riesce a determinarne almeno l'ordine di grandezza, come si fa per quelli attestati (106), per non accontentarsi di un generico Googol?
L'Elenco ridotto delle parole italiane ben formate
Sono annientato e rispettoso davanti all'Elenco completo delle parole italiane ben formate ma tutt'altro che rassegnato ad arrendermi, perciò immagino un Elenco ridotto delle parole italiane ben formate che dovrebbe restare fedele al principio di contenere parole italiane ben formate, sebbene prive in gran parte di senso, ma dovrebbe tralasciare tutte quelle che per ragioni difficili da dimostrare, ma facili da intuire, non potrebbero mai essere scelte come neologismi.
Dopo aver accertato che il numero totale delle combinazioni generabili con le lettere dell'alfabeto italiano ha un ordine di grandezza di 1026, dopo aver preso atto che il numero di parole dell'Elenco completo delle parole italiane ben formate ha un ordine di grandezza di 1021, dopo aver ricordato che quello del lessico attestato di una importante lingua d'uso antico, vario e molteplice, come l'italiano, è 106 vorrei provare almeno a collocare l'ordine di grandezza del numero di parole dell'Elenco ridotto delle parole italiane ben formate sulla linea delle cifre del Googol.

Una posizione non troppo precisa
Sullo schema riportato sopra ho assegnato una posizione all'Elenco ridotto delle parole italiane ben formate sulla linea delle cifre del Googol: 108. Adesso cercherò di giustificarla.
La verità, però, è che questa posizione non è, ma soprattutto non può essere, troppo precisa. E non mi riferisco alla evidente difficoltà di giungere a un numero esatto, parlo in primo luogo del fatto che nel successo di un neologismo c'è ben poco di oggettivo, e l'Elenco ridotto è costituito, per definizione, soprattutto da parole candidate al neologismo.
Provo a spiegarmi con alcuni esempi. Non mi risulta che la parola roro faccia parte del lessico attestato della lingua italiana, ma sicuramente è stata selezionata dal validatore per entrare nell'Elenco completo, e non c'è ragione per non includerla anche nell'Elenco ridotto. "Dottore, ci ho un roro al gomito che mi tormenta da qualche giorno" potrebbe lamentarsi un domani qualcuno. Lo stesso discorso vale per rororo, magari con un bell'accento finale (rororò): "E falla finita con tutto questo rororò!".
Con rorororo, tuttavia, la candidatura si complica: sembra una parola troppo ripetitiva; con rororororo, poi, diventa inaccettabile, e siamo solo a metà (10 lettere) della lunghezza massima di una parola. Quali di queste parole vanno scartate? Di sicuro va scartata rorororororororororo (20 lettere), e così a calare, ma fino a rorororo, con le sue misere 8 lettere? Siamo proprio sicuri?
Si potrebbe dire: questi sono esempi un po' estremi. Niente affatto. Ho impiegato il validatore per fare un interessante esperimento. Dopo aver generato ben 100 000 combinazioni casuali di 9 lettere ‒ 100 000 combinazioni fra le 2,9 · 1026 possibili, per intenderci ‒ ho chiesto alla macchina di selezionare quelle ben formate. Ecco il risultato:
ABOLOBODE ACADOGOBO ACLITIZEI ACOTEMIFO AECECANZE AEMANAOPU AEMOSARBA AETURBONA ALIGURETO AMAFUSUBU AMPESURME ANILCOPUO AOPARCUDU ARITATUGU ARMOSEBLE ARRESUALI ARZAULUNA ASDUNVAVI ASUSSIOGE AUCRERDIO AURILZENI AZIRBIULA AZULCOIVE AZZETAODO BAOSBIOTE BAUCIGEDA BAVAOFASU BEMIMAPLA BIORODRAI BLUMIMEVE BOIVEDUVU BORCOELZE BOUNZORMU CAIZUBILA CAMASFIGU CETUDOLCE CICUICLAE CIGNUSCRA CIOMUSNIU COLCHILCI COSBIZUMU CRILINOPO CRUTOULPU CURCINFIE CUZELAONU DAGATINSA DAPLAEDDE DASSUBENA DEPAPUICO DIPREMAGI DONURUASU DROGILERU DRUOGAPAU DUDARZEVI DUIMUSEVI DUNZABULO DURNOZUVI EASIRDOBU ECROETAIO EILDIMBUA EIMPEOSBI EISARLOMA ELDAGIAPO ELPOASAMU EMULCIOGO ENIBUESLO ENISIUSEA ENUEVEULO EOMOSAEPI EOSILUELO EOZEDOIPU EOZOTUSVI EPIDAMUNO ERPIGANEO ERZEGURPO ESARSECCA ESEOVINVA ESNARMATU ETRAIERLU EUPUIRITE EZESUASCI EZUAGUIPI FABLISEDE FANNALDOE FAVRUPIFO FEBEZIODA FEPIGAFFA FESMOMORO FICARBUZE FOARTIBRI FOULEOCAI FOZEPOFLI FUDOADAMU FUDRELEBI GAZEPOLCA GEIPETUCI GEISAVANI GENENORBA GEPPEDIZO GLENOBEDO GNAVUZAPU GNUNOVICA GOELZUADI GORELOUVU GORPOZESE GOSLEUNVA GROREVACI GUNIGAZUO IANSIARBU ICUCRILTI ICUREVIFO IDAGNAEFO IFALAVOCA IFEMMESVA IFIFOERBE ILCOSTUFO ILONERIDI ILUVAURVA IMEUTUREU INFESULCE INGOREMUO IOGECROBE IPESTOSFE IPPROVOVE IPRUCAGOE IPULMICOI IRGAZUADU IRGIVOUMI ISELAZUGO ISGEGULCU ISLAGGANI ISTURREZU ITIERUCLA ITOARIFOU IUGIULTUO IUODAUPRA IURACAEPE IVEUTIVVI IVOFEBIZA IZOPUSESE IZOUBBUNO LACASUDOA LANGATEFI LARVIBASA LECOLTEDI LEZARLAIA LIDRIPUTE LOBULINNU LODIBBUFO LORURTUSU LOTTESBOA LOUNECETU LURIGIOPI MEFEMEMAE MERTOTAFU MIFROMIVE MOGIFUMEI MOSTUBAFE NASCINEMO NEFANILDE NEMENIVIU NEURIDIUO NICCANIPA NICEUZITO NILIPIBEA NIOPIORNO NOEVIMUVE NOZZUCATO NUCRIBELI NUOSMUARE NUTAOPOTU OACADESBO OCLOZEIFE ODRISORLI ODUDUDEMA OFFOCULDO OGAZASISA OLFIMOPLE OLMEIRABO OLOSCENGE OMIBOLOLO ONDEODUMA ONDIOCROU ONGEDADUA ONTUERZAI ORBECORSA ORDIOZUSU ORFILARBU ORIVOATOE ORVIOCASA OSFORSUPE OTATAMMOE OTOEPRISI OTTOGACRO OVEFAIDAO OZINIOPLI OZOETAZAI OZOZUMEPU PARASUALA PAULITOGU PEARNAQUI PIRUNAVRO PLIBETAFI PODOVVUSU POENEOPUO POREVUVOI PROEMENCE PUFEDOUGI PUINEDOMA PUVAUGESI PUVOEPUTA QUAMBUFUA QUANALCUE RANTERCOE RASBIGEZU REPEGUBLA RILTOPROA RIMBEVASU RITENVUFA RITOLLUFE SAIERLITO SAPPIPULI SDOLPAROI SDURESMEU SGEOMOFOE SGOSECITE SIEBOPASA SMUMEURDI SOLTOISCO SPAMIUCLU STREPUNCI SUIPIGABA SVADISSEO SVODUNSAU SVONFALBO SVOSNULDI TAOBELUMU TEARBIGLI TIASDAOMA TICOLVARI TIMBUAFFE TONOUTAZO TOVAIRAZE TUCOIDODO TUMIPIUBO TURAVICHI UBERSOPRE UBETAEGAE UCOFOSOLA UDINENIVE UDUSDEMAI UECONORMI UEFAFUNAI UEPPOSOMI UESEGOCAE UGANGUITI UGIPALSEA UGOZOECIE UIBETEIGU UIBUPORPI UIPEPIUSI UIZASSERI ULFELUORE ULSARBIRE ULUVIFEPI UNNASGROA UNNUERUME UNSAVULCA UONIROEFA UPRUOVIFU URAEGIECU URGIRELMU UVUFOULIO VAIZZAEDA VALSAEFRI VAPEILUZE VEATEROFO VEBATETEA VENAIEMIE VIMMIRDIA VIOBUFLOU VIOFEICLE VIRBIASLA VISTEOLUI VOMANOPRA VONEGREGA VREZINEFA VUBOPPAMI VUENEQUIA ZANSOROFE ZATIOCAZO ZAVUOCODE ZETTEOTOI ZEVALOBBU ZEZZEGNOA ZIUFOATTU ZOZOZZEVE ZUGECENOI ZUPOLZEBA ZUTIDELZA
Delle trecento parole indubbiamente ben formate, secondo le regole della lingua italiana, ho potuto selezionarne solo 15, sulle quali nutro peraltro seri dubbi riguardo alla loro candidabilità all'uso. Se poi si ripete l'esperimento (sempre con 100 000 combinazioni di partenza) per 12 lettere, il risultato è ancora più sconcertante. Dopo diverse decine di prove che non hanno condotto a nulla, finalmente ho ottenuto questo risultato di 50 parole sicuramente ben formate, ma a dir poco imbarazzanti per un italiano:
AMOZESUTRIBO ANDAUVEUSTIO AORINNEUGROA ARVAIRTAORCO ATTELEZUPATI AULAUVAEZOBA AUREODIPEBIA BIMECIFUANUE BIRUZAERVUCI CINELUCOREMI CLOMUOVREFAO COISTOTORREO CROMPEPEZADI EALELMOVVIRO EGOEVOABOUCA EOMMAETRUPUO EUZOAZUGORTA FEBUTEOPAUGO FOSDOLGOSUCO GAINUSIAIPEI GNITIDONFOCI GUPLOGUCUOVA IORABBOCCIBO IUTEDIRMAURO MELGIOLAORPE MOZEFUDANGAO NIAIFEVVERBO NUAZESPANFRI ONVOCECOPPUA OVUMBUFLOCIO PIMELDILAEZE PORVUTTOSAPA PUCILEVOSIDE QUALVICOADEA RADUZAONAUMA RIELZEZAVEDE RIOPEAVAOTRU SBOZOBRASFIO SFOBOTASEFRO SNENVULIZIRO TOBICIEMMECU UDIACUICIRDO UEMEPIPARANA UILTEONZOLIE USILTEBOBECI VIAGOPOSNEDA VIRISTIDATRU VOCEILGEAZIE VOECADONEREU VUSAOQUIBERI
Ecco, solo cinelucoremi sembra davvero un piccola perla: mi fa pensare ai bagliori emessi dalla macchina di proiezione cinematografica; anche aureodipebia potrebbe avere qualche possibilità, ma per quanto riguarda il resto...