parolescritte
interroga:  scripta  ·  bsu  ·  civita

il corpus scripta


esplorazioni verbali


invenzioni verbali


Mettere le parole al loro posto

Il rango delle parole

Uno dei modi più interessanti per distinguere le parole all'interno di un testo consiste nell'assegnare loro un rango.

Il rango di una parola è la posizione che essa occupa nella lista di tutte parole distinte contenute in un testo, qualora tale lista venga ordinata per frequenza decrescente.

La frequenza delle parole

Chi vuole nominare il luogo dove si vive abitualmente può usare parole come casa, dimora oppure magione, però è quasi certo che casa verrà scelta molto più spesso di magione. Anche Gabriele D'Annunzio, per esempio, che è uno scrittore molto ricercato sotto il profilo lessicale, non sfugge a questa regola. Nel suo romanzo Il fuoco usa 48 volte la parola casa, tre volte dimora e una volta soltanto magione.

Ciò permette di assegnare a queste parole una frequenza f, cioè una misura del privilegio statistico di cui esse godono nel venire scelte nella composizione di un testo. La frequenza di una parola si definisce dunque come il rapporto (millesimale, ma solo per comodità di presentazione) fra il numero di occorrenze n di quella parola e il numero totale N di parole del testo che la contiene.

f = n N 1000 {f} = {n} over {N} cdot {1000}

Nel caso particolare del romanzo dannunziano, composto di 101 617 parole, questi sono i risultati del calcolo:

parola numero di occorrenze frequenza millesimale
casa 48 0,4724
dimora 3 0,0295
magione 1 0,0098

Come si vede, la parola casa ha una frequenza di circa 0,5‰, molto più alta di quella di dimora e di magione. Il suo rango, perciò, sarà proporzionalmente più elevato.

La relazione tra frequenza e rango non è casuale. Il linguista americano George Kingsley Zipf nel 1935 formulò in proposito una legge denominata legge di Zipf.

f 1 z a {f} sim 1 over z^a

Secondo questa legge la frequenza f di una determinata parola è (quasi) inversamente proporzionale al rango z, dal momento che l'esponente a tende ad assumere, in genere, valori molto prossimi a 1.

Il rango e la frequenza nel vocabolario di un autore

L'esempio de Il fuoco di Gabriele D'Annunzio mostra come si possano analizzare quantitativamente le parole di un testo per ricavare indirettamente delle informazioni sul vocabolario del suo autore.

Il corpus linguistico scripta consente di eseguire alcune ricerche di questo genere. Per ogni testo registrato, infatti, è possibile ottenere una lista delle parole più usate, ordinate in base al rango.

Occorre aggiungere, però, che nella maggior parte dei casi queste parole sono semplici congiunzioni (per esempio e) o avverbi (come non) ‒ le cosiddette parole grammaticali ‒ perciò prima di trovare delle parole significative, sotto il profilo semantico, è necessario scorrere la lista verso il basso di parecchi ranghi.

La soluzione salomonica offerta da scripta consiste in una doppia possibilità: da un lato si può ottenere la lista di frequenza di tutte le parole di un testo, dall'altro lato si può avere una selezione ragionata che esclude le parole più frequenti.

Per tornare un'ultima volta all'esempio de Il fuoco di Gabriele D'Annunzio, si può scegliere quindi fra l'opzione completa e l'opzione filtrata, per la quale è disponibile, in una pagina dedicata, la lista delle parole deliberatamente escluse dalla ricerca.