parole scritte
interroga:  SCRIPTA  ·  BSU  ·  CIVITA

la base di dati SCRIPTA


esplorazioni verbali


invenzioni verbali


Mettere le parole al loro posto

Valutare la semplicità di un testo

Il Vocabolario di base di Tullio De Mauro, poi rifuso nel suo «Grande dizionario italiano dell'uso» (GRADIT), appare uno strumento molto utile per valutare, in maniera abbastanza oggettiva, la semplicità di un testo.

Quanto più, infatti, l'insieme delle parole impiegate in un certo testo si avvicina a quello del Vocabolario di base - considerato come la fonte delle parole necessarie per scrivere in modo semplice - tanto più quel testo risulterà accessibile a un gran numero di persone.

Guidato da questo idea generale ho cercato di applicarla ai testi contenuti nella base di dati SCRIPTA per tentare di quantificare il loro tasso di semplicità.

Tre strumenti a disposizione

Il Vocabolario di base, però, non è l'unico strumento utile per questa impresa. Esistono infatti diversi corpora della lingua italiana dai quali si possono ricavare informazioni sulle parole che gli italiani usano preferibilmente, e quindi che dovrebbero essere adoperate per scrivere testi semplici.

Due di essi, in particolare, mi sono sembrati utili e accessibili: il lemmario Morph-It!, ricavato da un corpus di articoli del quotidiano la Repubblica, e il lemmario del «Corpus e Lessico di Frequenza dell'Italiano Scritto» (COLFIS), entrambi disponibili sull'internet per scopi non commerciali.

Morph-It! è il lemmario di un corpus di circa 380 milioni di parole, ovvero tutte quelle pubblicate dal quotidiano la Repubblica tra il 1985 e il 2000. Si tratta di circa 30 000 parole che possono essere considerate un prezioso distillato del lessico giornalistico italiano della fine del XX secolo.

Il lemmario del COLFIS proviene invece da un insieme di testi volutamente più eterogenei (libri, riviste, giornali); si tratta di materiale molto simile a quello impiegato per la costituzione del Vocabolario di base, ma è più recente (1992-1994 rispetto al 1971, benché il GRADIT abbia aggiornato i dati del Vocabolario di base), è più ricco (circa tre milioni di parole rispetto alle 500 000 del Vocabolario di base) ma soprattutto è più equilibrato, perché è stato scelto in accordo con i risultati di una ricerca ufficiale dell'ISTAT sulle abitudini di lettura degli italiani svolta nel 1993. Contiene circa 40 000 parole.

Sovrapposizioni e divergenze

La figura sopra è una rappresentazione abbastanza accurata dei rapporti che intercorrono fra i tre lemmari. In particolare, esiste un'area comune fra il lemmario del COLFIS e il lemmario Morph-It! che comprende quasi 25.000 parole. L'area del Vocabolario di base sintetizza bene il suo significato di nocciolo del lessico italiano più essenziale.

In verità, esistono alcune decine di parole del Vocabolario di base che sorprendentemente sono estranee ai due lemmari più cospicui, ma si tratta di dettagli non molto rilevanti, di cui parlo in una pagina a parte.

Ciò che invece solleva un importante motivo di riflessione è il fatto che le parole del lemmario del COLFIS, a differenza di quelle di Morph-It! sono tutte ordinabili secondo un rango, che esprime, come detto altrove, una sintesi ragionata dei concetti di di frequenza e di dispersione. Mentre dunque il Vocabolario di base (e poi il GRADIT) suddividono le parole in ampie classi di rango, denominate marche, il lemmario del COLFIS associa a ogni lemma un preciso rango mediante il quale è possibile ordinare ogni parola del lemmario secondo la combinazione frequenza-dispersione.

Questa differenza non sarebbe significativa se ci fosse concordanza fra le marche, ovvero le classi di rango del Vocabolario di base (rifuse poi nel GRADIT), e i ranghi del lemmario del COLFIS, ma purtroppo questo è vero solo in parte.

L'aggettivo osseo, per esempio, che il Vocabolario di base definisce come fondamentale (FO) nel lemmario del COLFIS occupa la remota posizione di rango 21.404. Viceversa, l'avverbio naturalmente, che non compare nel Vocabolario di base, occupa il rango 643 nel lemmario del COLFIS.

D'altra parte, quest'ultimo sconta il limite di provenire da un corpus cospicuo e ben distribuito, ma cronologicamente ristretto, dal momento che deriva da testi pubblicati nel triennio 1992-1994, che furono gli anni dell'inchiesta giudiziaria cosiddetta Mani pulite di Milano. Solo così si spiega la presenza massiccia, ma dopotutto effimera, nel lemmario del cognome Craxi (rango 1780), ovvero di Bettino Craxi, che all'epoca era segretario politico del PSI e fu gravemente coinvolto nell'inchiesta, sicché la stampa ne parlò ampiamente, e ciò ebbe un riflesso sensibile nel corpus, e quindi nel lemmario, del COLFIS.

Il «Vocabolario minimo»

Per tornare al mio proposito iniziale di valutare il tasso di semplicità dei testi contenuti in SCRIPTA devo concludere che, per le diverse ragioni che ho appena addotto, né il Vocabolario di base (rifuso nel GRADIT), né il lemmario Morph-It!, né il lemmario del COLFIS, presi singolarmente, si prestano allo scopo in maniera ideale.

Ho pensato perciò di fonderli in un lemmario unificato, in modo che ciascuno di questi strumenti dia un contributo significativo alla realizzazione di un Vocabolario minimo con cui saggiare la semplicità lessicale dei testi contenuti in SCRIPTA. Ecco le regole che ho adottato per ottenerlo:

1. tutti i nomi propri contenuti nel lemmario del COLFIS sono stati esclusi (chi volesse, comunque, giocare con i quasi duemila nomi propri di persona, contenuti nel lemmario unificato, può visitare la pagina degli eteronimi anagrammatici);

2. tutte le parole del Vocabolario di base prive di un rango nel lemmario del COLFIS sono state escluse;

3. tutte le parole del Vocabolario di base con un rango nel lemmario del COLFIS superiore a 20000 sono state escluse;

4. tutte le parole grammaticali (articoli, preposizioni, congiunzioni, avverbi, pronomi, interiezioni) del Vocabolario di base sono state inserite, senza considerazione per il rango posseduto nel lemmario del COLFIS;

5. tutte le parole del lemmario del COLFIS con un rango inferiore a 4 000 sono state inserite, anche se non appartengono al Vocabolario di base.

E il lemmario Morph-It!? Dal momento che questo lemmario non presenta le parole in maniera gerarchica (come fanno invece il Vocabolario di base e il lemmario del COLFIS) non è stato di alcuna utilità per la selezione delle parole del Vocabolario minimo.

Fortunatamente, però, a questo lemmario è associato un formario, ovvero una collezione di forme flesse (per esempio abbracciassero) collegate alla forma canonica (abbracciare) tipica del lemmario. Una volta che una parola entra nel Vocabolario minimo, perciò, può essere riconosciuta in tutte le sue varianti morfologiche grazie al contributo del formario di Morph-It!

Devo ricordare, naturalmente, che siccome SCRIPTA non è un corpus annotato, benché il lemmario unificato lo sia, grazie ai tre lemmari che lo compongono, il Vocabolario minimo non è in grado di discriminare le parole sotto il profilo morfologico, e questo può comportare una certa imprecisione nei risultati della ricerca.

In altri termini, se un certo testo contiene la parola romanzo, per esempio, essa verrà riconosciuta come comune, perché appartiene al Vocabolario minimo, sebbene solo come sostantivo (caso frequente). Se in quel particolare testo, tuttavia, la parola figurasse come aggettivo (caso raro) dovrebbe essere esclusa, ma ciò non succederebbe, con un certo danno alla precisione del risultato, perché SCRIPTA non registra la categoria morfologica delle parole che ospita.