parole scritte
interroga:  SCRIPTA  ·  BSU  ·  CIVITA

la base di dati SCRIPTA


esplorazioni verbali


invenzioni verbali


La base di dati SCRIPTA: utili informazioni (forse)

Qualche risultato di una certa utilità

Con il crescere delle dimensioni di SCRIPTA, però, è cresciuto anche il mio desiderio di trasformare in qualcosa di più utile, sotto il profilo culturale o addirittura scientifico, ciò che all'inizio è stato poco più di un capriccio intellettuale. Dopotutto, la base di dati era un corpus, ovvero una collezione omogenea di testi, quel genere di archivio che da una ventina di anni a questa parte costituisce il terreno di ricerca della linguistica dei corpora, un argomento terribilmente serio e interessante, con il quale ho pensato di prendere qualche confidenza per chiedermi se SCRIPTA consentisse di ottenere qualche risultato in questo ambito.

La risposta? È stata positiva, ma bisogna precisare a quali condizioni.

Linguistica dei corpora

In un prezioso articolo Fabio Tamburini spiega che la linguistica computazionale, una disciplina sorta negli anni Cinquanta del secolo scorso e subito orientata alla ricerca per regole formali, sulla scia degli auspicati, ma purtroppo trascurabili successi della Intelligenza artificiale, dagli anni Novanta si è rivolta verso metodi di ricerca più pragmatici, elaborati su base statistica, dei quali i corpora cominciarono a costituire la necessaria base di conoscenza.

In un primo tempo i testi contenuti nei corpora non possedevano alcuna risorsa accessoria, ma in seguito, per migliorarne il valore ai fini della ricerca, si iniziò spesso ad annotarli, ovvero ad associare ad ogni parola registrata l’opportuna classe grammaticale di appartenenza e altre varie informazioni di supporto. Una parola come volante, per esempio, prediletta da Emilio Salgari che la impiega in tutti i sensi, può significare "cosa che vola" ma anche "impugnatura dello sterzo di un veicolo" e addirittura "pattuglia di polizia", e ciò introduce una spiacevole ambiguità nei risultati di una ricerca, in mancanza di una adeguata annotazione.

Un corpus non annotato

A questo proposito è bene dichiarare che SCRIPTA non è un corpus annotato. Sconta la sua origine ardimentosa e deliberatamente orientata alla quantità, ma d'altra parte bisogna aggiungere che il lavoro di annotazione è gravosissimo, benché esistano ormai strumenti automatici di supporto, i cosiddetti tagger, ed esorbita dalle possibilità di un singolo, se la l'ambizione è produrre un corpus contenente decine di milioni di parole.

Sulla necessità assoluta di annotare un corpus, d'altra parte, i pareri non sono del tutto concordi. "Non bisogna enfatizzare la contrapposizione fra testo grezzo e testo annotato.", si legge per esempio in Testo e computer di Alessandro Lenci, Simonetta Montemagni e Vito Pirrelli (Carocci, 2014, p. 187). "Esiste piuttosto una cascata incrementale di livelli di analisi linguistica sempre più astratti, che possiamo attraversare in diversi modi, anche partendo dal testo nudo e crudo, se disponiamo di strumenti di esplorazione testuale adeguati".

Questa dichiarazione mi ha molto confortato mentre riflettevo sulla possibilità di impiegare SCRIPTA come base di conoscenza per qualche ricerca non del tutto ignobile nell'ambito della linguistica dei corpora.

Caratteri, parole, frasi

I "livelli di analisi linguistica sempre più astratti", di cui parla il libro, scendono evidentemente verso le profondità di una semantica sempre più raffinata. "A un certo livello di astrazione", si legge ancora, "quest'analisi a cascata rappresenta una simulazione del processo attraverso cui il lettore umano giunge alla comprensione del testo".

La semantica è al di fuori degli orizzonti di SCRIPTA, tuttavia penso che impiegando "strumenti di esplorazione testuale adeguati", essenzialmente di carattere statistico, anche la sua umile ma imponente sequenza di caratteri, di parole e di frasi può servire per ricavare qualche utile informazione sulla struttura linguistica sottostante dei testi registrati.

Ho provato a ricavare alcune di queste informazioni nella sezione del sito denominata esplorazioni verbali. Ho tentato, per esempio, di dare corpo a una mia vecchia idea sul rapporto fra prosa e musica seriale e l'ho applicata alle tre stesure del romanzo I promessi sposi di Alessandro Manzoni.

Classificazione testuale

Benché SCRIPTA non sia un corpus canonicamente annotato, comunque, esso possiede alcune risorse che permettono egualmente di collocarlo su un livello di analisi linguistica leggermente più profondo, per tornare alle osservazioni di Testo e computer, rispetto a quello della pura analisi statistica del contenuto grezzo.

Stimolato infatti dalla difficoltà di etichettare i testi introdotti, i quali, sempre ricordando l'originario scopo pantagruelico del progetto, sono della più varia natura, ho cercato di elaborare una classificazione sistematica dei testi del corpus, sconfinando perciò nel territorio della linguistica testuale, una cosa che mi procura qualche sudore per l'oggettiva difficoltà dell'operazione, ma anche una discreta eccitazione intellettuale per l'ambizione di proporre un modello parzialmente diverso da quelli ormai consolidati.

Analisi del rango lessicale

Inoltre, la recente scoperta del progetto Morph-it!, e l'antica frequentazione del Vocabolario di base di Tullio de Mauro, mi hanno fornito la possibilità di aggiungere ulteriori risorse ai testi grezzi contenuti nella base di dati. Come è spiegato in dettaglio nella pagina sul rango delle parole, associando a SCRIPTA alcuni dati provenienti dai risultati di entrambe queste ricerche, SCRIPTA è in grado di fornire un profilo abbastanza preciso delle caratteristiche di leggibilità del lessico di ogni testo registrato.