parolescritte
interroga:  scripta  ·  bsu  ·  civita

il corpus scripta


esplorazioni verbali


invenzioni verbali


Mettere le parole al loro posto

Valutare la semplicità di un testo

Il Vocabolario di base di Tullio De Mauro ‒ nelle sue tre versioni ‒ appare uno strumento molto utile per valutare, in maniera abbastanza oggettiva, la semplicità di un testo.

Quanto più l'insieme delle parole impiegate in un certo testo si avvicina a quello del Vocabolario di base ‒ considerato come la fonte delle parole da impiegare per scrivere in modo semplice ‒ tanto più quel testo dovrebbe risultare comprensibile a un gran numero di persone. Guidato da questo idea generale ho cercato di applicarla ai testi contenuti nel corpus linguistico scripta per tentare di quantificare il loro tasso di semplicità, naturalmente riferito al periodo storico in cui esso è stato prodotto.

Il «Vocabolario» non basta

Il Vocabolario di base, però, contiene solo lemmi, vale a dire parole ricondotte sistematicamente a una forma canonica. Il verbo pizzicare, per esempio, è presente in tutte e tre le versioni del vocabolario (sempre con la marca ad), ma solo nella forma infinita: il lemma, appunto.

È evidente che occorre tenere conto di tutte le forme flesse del verbo, se si vuole valutare correttamente il contributo di questo verbo di base alla semplicità di un certo testo. La parola pizzicherebbero, per esempio, va presa in considerazione, benché ‒ ovviamente ‒ non sia contenuta nel Vocabolario di base. Come fare?

La soluzione che ho adottato è stata il ricorso a Morph-It!, il formario (lista delle forme flesse dei lemmi) di un corpus di circa 380 milioni di parole, ovvero tutte quelle pubblicate dal quotidiano la Repubblica tra il 1985 e il 2000. Il formario, a sua volta, rimanda a un lemmario di circa 30 000 parole che possono essere considerate un prezioso distillato del lessico giornalistico italiano della fine del xx secolo.

Ecco, per esempio, come Morph-It! tratta il verbo pizzicare:

Nlemmacategoriaformaflessione
1pizzicareVERpizzicheremmocond+pres+1+p
2pizzicareVERpizzichereicond+pres+1+s
3pizzicareVERpizzicherestecond+pres+2+p
4pizzicareVERpizzicheresticond+pres+2+s
5pizzicareVERpizzicherebbercond+pres+3+p
6pizzicareVERpizzicherebberocond+pres+3+p
7pizzicareVERpizzicherebbecond+pres+3+s
8pizzicareVERpizzicandoger+pres
9pizzicareVERpizzichiamoimpr+pres+1+p
10pizzicareVERpizzicateimpr+pres+2+p
11pizzicareVERpizzicaimpr+pres+2+s
12pizzicareVERpizzicheremoind+fut+1+p
13pizzicareVERpizzicheròind+fut+1+s
14pizzicareVERpizzichereteind+fut+2+p
15pizzicareVERpizzicheraiind+fut+2+s
16pizzicareVERpizzicheranind+fut+3+p
17pizzicareVERpizzicherannoind+fut+3+p
18pizzicareVERpizzicheràind+fut+3+s
19pizzicareVERpizzicavamoind+impf+1+p
20pizzicareVERpizzicavoind+impf+1+s
21pizzicareVERpizzicavateind+impf+2+p
22pizzicareVERpizzicaviind+impf+2+s
23pizzicareVERpizzicavanind+impf+3+p
24pizzicareVERpizzicavanoind+impf+3+p
25pizzicareVERpizzicavaind+impf+3+s
26pizzicareVERpizzicammoind+past+1+p
27pizzicareVERpizzicaiind+past+1+s
28pizzicareVERpizzicasteind+past+2+p
29pizzicareVERpizzicastiind+past+2+s
30pizzicareVERpizzicaronind+past+3+p
31pizzicareVERpizzicaronoind+past+3+p
32pizzicareVERpizzicòind+past+3+s
33pizzicareVERpizzichiamoind+pres+1+p
34pizzicareVERpizzicoind+pres+1+s
35pizzicareVERpizzicateind+pres+2+p
36pizzicareVERpizzichiind+pres+2+s
37pizzicareVERpizzicanind+pres+3+p
38pizzicareVERpizzicanoind+pres+3+p
39pizzicareVERpizzicaind+pres+3+s
40pizzicareVERpizzicarinf+pres
41pizzicareVERpizzicareinf+pres
42pizzicareVERpizzicatepart+past+p+f
43pizzicareVERpizzicatipart+past+p+m
44pizzicareVERpizzicatapart+past+s+f
45pizzicareVERpizzicatopart+past+s+m
46pizzicareVERpizzicantipart+pres+p+f
47pizzicareVERpizzicantipart+pres+p+m
48pizzicareVERpizzicantepart+pres+s+f
49pizzicareVERpizzicantepart+pres+s+m
50pizzicareVERpizzicassimosub+impf+1+p
51pizzicareVERpizzicassisub+impf+1+s
52pizzicareVERpizzicastesub+impf+2+p
53pizzicareVERpizzicassisub+impf+2+s
54pizzicareVERpizzicassersub+impf+3+p
55pizzicareVERpizzicasserosub+impf+3+p
56pizzicareVERpizzicassesub+impf+3+s
57pizzicareVERpizzichiamosub+pres+1+p
58pizzicareVERpizzichisub+pres+1+s
59pizzicareVERpizzichiatesub+pres+2+p
60pizzicareVERpizzichisub+pres+2+s
61pizzicareVERpizzichinsub+pres+3+p
62pizzicareVERpizzichinosub+pres+3+p
63pizzicareVERpizzichisub+pres+3+s

Collegando le varie forme flesse presenti nei testi di scripta al formario di Morph-It!, il quale, come si è visto, è intimamente connesso al relativo lemmario, e collegando quest'ultimo al Vocabolario di base, che per sua natura è anch'esso un lemmario, è possibile conoscere, con una modesta quantità di rumore, quali sono le parole di scripta che appartengono al Vocabolario di base.

Questa è la teoria. Propongo adesso due esempi estremi per verificarla con evidenza. Si tratta di altrettanti aforismi ‒ non proprio fulminanti, bisogna ammetterlo ‒ che impiegano parole che appartengono e che non appartengono al Vocabolario di base, fatte salve comunque alcune parole grammaticali (in corsivo) che vi appartengono in ogni caso.

Lo scontento brontola. Brontola... brontola... ma finché brontola dimentica che chi brontola, spesso brontola invano.

Si tratta di 15 parole che appartengono tutte al Vocabolario di base. Se si definisce R, perciò, come indice di semplicità del testo, considerato secondo la seguente formula:

R = V P 100 R = {V} over {P} cdot {100}

dove V rappresenta il numero di parole contenute nel Vocabolario di base e P è il numero totale delle parole del testo, allora risulta che in questo aforisma il rapporto è pari a 15/15, ovvero al 100%, come c'è da aspettarsi e come è facile verificare.

Nel successivo aforisma ho impiegato solo parole estranee al Vocabolario di base, sempre senza voler considerare le parole grammaticali, che quindi sono le uniche a sollevare il valore di R sopra lo zero.

L'ipocondriaco rimugina. Rimugina... rimugina... ma sinché rimugina oblia che chi rimugina, sovente rimugina indarno.

Le parole grammaticali sono 4 su un totale di 15, quindi il rapporto in percentuale deve risultare pari al 26,7%, come è facile verificare, anche in questo caso, ottenendo pure informazioni supplementari, ove si voglia considerare le parole non parzialmente ripetute, come avviene in qualsiasi testo, bensì distinte.