parole scritte
interroga:  SCRIPTA  ·  BSU  ·  CIVITA

il corpus SCRIPTA


esplorazioni verbali


invenzioni verbali


Che cosa si può trovare?

Se c'è premura...

Chi vuole avere subito e personalmente la risposta alla domanda del titolo non deve fare altro che saltare alla pagina delle interrogazioni, evitando di leggere quello che segue.

Chi invece preferisce avere qualche ragguaglio preliminare sulle ricerche che si possono condurre nel corpus linguistico SCRIPTA sappia che vi sono tre linee di ricerca (per autori, per opere e per parole o espressioni) che possono intrecciarsi e ritornare su se stesse.

Ricerca per autori

Gli autori presenti nel corpus appartengono anzitutto alla storia letteraria italiana dal XIII secolo fino ai primi anni del XX secolo. Le loro opere non sono più soggette al diritto d'autore e provengono dai siti Liber Liber, Biblioteca dei Classici Italiani, Biblioteca Italiana, Wikisource, stefanodurso, ai quali, naturalmente, va tutta la mia gratitudine.

Gli autori più recenti, invece, sono presenti grazie ad uno spoglio personale, abbastanza cospicuo, di opere pubblicate (o ripubblicate) di recente in formato digitale.

Gli autori presenti in SCRIPTA, tuttavia, non riguardano solo l'ambito letterario, che rimane comunque preponderante, ma anche quello giornalistico, politico, storico e scientifico, sebbene in maniera non sistematica.

In particolare, vi sono molti articoli di Eugenio Scalfari e di Roberto Saviano, ricavati dal sito del quotidiano Repubblica, pubblicati in un periodo compreso fra il 2001 e il 2010.

Non sono affatto un estimatore di Benito Mussolini, ma siccome mi sono occupato, per la stesura del racconto Una selvaggia normalità, di cose del fascismo mi è tornato utile far ingoiare al corpus anche i discorsi del duce per studiare il lessico del regime fascista. In un primo tempo si trattava di una antologia, ma poi, per non lasciare le cose a metà li ho introdotti in maniera sistematica.

Ho inserito inoltre, in maniera altrettanto sistematica, tutte le encicliche papali disponibili, benché io non sia neppure un grande estimatore dei successori di Pietro, a cominciare da quelle di Leone XIII, ricavandole dal sito del Vaticano. È risaputo che, di norma, questi documenti sono redatti in latino e quindi, per il criterio di base del popolamento del corpus linguistico SCRIPTA, nata per ospitare solo opere composte in italiano, avrei dovuto escluderle. Tuttavia, l'ufficialità indiscutibile delle traduzioni e soprattutto il vantaggio che potrebbe derivare dalle ricerche in un corpus così cospicuo e omogeneo mi hanno suggerito una deroga alla norma.

Ho applicato la stessa deroga, del resto, anche a celebri traduzioni di classici in greco e in latino, come per esempio l'Iliade rifatta in endecasillabi da Vincenzo Monti.

Ricerca per opere

Il numero dei testi contenuti in SCRIPTA cresce di continuo, grazie ai sistematici versamenti. Non è possibile, però, ottenere un elenco completo perché risulterebbe troppo lungo. Ho preferito perciò raggrupparli prima di tutto per genere, e solo in subordine mostrarli sotto ciascuna delle corrispondenti classificazioni. È anche possibile, comunque, cercare un testo in base a un frammento del suo titolo.

Si va dal tipico, lapidario discorso di Benito Mussolini, che egli sapeva gonfiare con le sue proverbiali pause e smorfie, fino all'imponente relazione di viaggio denominata Navigazioni e viaggi del diplomatico, geografo e umanista Giovan Battista Ramusio, costituita di ben 2 095 096 parole.

Ogni opera, comunque, può essere esaminata singolarmente, per ricavare:

1. la percentuale delle parole in funzione delle rispettive lunghezze;

2. la percentuale dei periodi in funzione delle rispettive lunghezze;

3. la lista delle 100 occorrenze più numerose (sia completa, sia filtrata);

4. la percentuale delle parole comuni contenute nel Vocabolario minimo.

Ricerca per parole o espressioni

Le parole contenute in SCRIPTA, in questo momento, sono 156 259 722, distribuite su base cronologica secondo il grafico che segue.

image/svg+xml numero di parole (milioni) 0 6 12 18 24 30 periodo 1201-1225 1226-1250 1251-1275 1276-1300 1301-1325 1326-1350 1351-1375 1376-1400 1401-1425 1426-1450 1451-1475 1476-1500 1501-1525 1526-1550 1551-1575 1576-1600 1601-1625 1626-1650 1651-1675 1676-1700 1701-1725 1726-1750 1751-1775 1776-1800 1801-1825 1826-1850 1851-1875 1876-1900 1901-1925 1926-1950 1951-1975 1976-2000 2001-2025

Si può interrogare il corpus sottoponendo vocaboli interi o frammenti iniziali di essi purché, in entrambi i casi, siano lunghi almeno quattro lettere.

Ho introdotto questa limitazione per evitare ricerche troppo gravose per la macchina. Esistono tuttavia delle parole brevi e assai comuni, come vita, per esempio, che produrrebbero egualmente una massa mostruosa, e tutto sommato inutile, di risultati. Per questa ragione va anche detto che si possono ottenere solo i primi mille risultati di una ricerca e, siccome essi vengono presentati cronologicamente, questo significa che, volendo cercare la parola vita senza condizioni, si può venire a sapere quante volte Dante la impiega nella Vita nuova ma non quante volte la impiega Aldo Busi nel suo romanzo Vita standard di un venditore provvisorio di collant che è stato pubblicato nel 1985. Ciò non vuol dire che è impossibile ottenere questo risultato; per averlo è sufficiente condizionare la ricerca a un autore, a un genere letterario, oppure ad entrambi.

Si possono eseguire le ricerche sulle parole sia in forma compatta, ottenendo solo il numero di occorrenze, per un determinato criterio di ricerca, sia in forma verbosa, ricavando le cosiddette concordanze in contesto, ovvero tutte le occorrenze del caso inserite in un breve frammento del testo (cinque parole prima e cinque dopo) che le contiene. Anche in questo caso la ricerca incondizionata è ristretta ai primi mille risultati, ma è sempre possibile restringere la ricerca a un autore, a un genere letterario, oppure ad entrambi.

Nei limiti di quaranta caratteri totali è anche possibile eseguire una ricerca per gruppi di parole. Va segnalato il fatto che la ricerca è tanto più veloce quanto meno le parole sono comuni, quindi una ricerca per «forse che sì forse che no» potrebbe condurre a niente (tempo di ricerca troppo lungo), mentre una risposta per «arzigogoli stiracchiati» dovrebbe essere pressoché istantanea.

Infine, va tenuto presente che per le espressioni non è possibile ottenere le concordanze in contesto, bensì solo il numero di volte che esse compaiono in una determinata opera.