parolescritte
interroga:  scripta  ·  bsu  ·  civita

il corpus scripta


esplorazioni verbali


invenzioni verbali


Che cosa si può trovare?

Se c'è premura...

Chi vuole avere subito una risposta alla domanda del titolo può saltare subito alla pagina delle interrogazioni, senza leggere quello che segue.

Chi invece preferisce avere qualche ragguaglio preliminare sulle ricerche che si possono condurre nel corpus linguistico scripta deve sapere che vi sono tre linee di ricerca: per autori, per testi e per parole o espressioni.

Ricerca per autori

Gli autori presenti nel corpus appartengono tutti alla letteratura italiana, intesa nel senso più ampio di questa espressione, che va dal xiii secolo fino ad oggi.

Il testi prodotti da questi autori, pertanto, sono in buona parte opere di natura creativa, ma non mancano quelli di carattere scientifico, tecnico, filosofico, storico, religioso, politico, economico e giornalistico.

La tabella che segue è un esempio di quanto appena detto: comprende le collezioni più numerose di testi prodotti da un singolo autore (almeno 25 elementi) raggruppati per genere.

nautoregeneretesti
1Guia Sonciniarticolo di costume1000
2Benito Mussolinidiscorso985
3Ercole Pattirecensione898
4Eugenio Scalfariarticolo di fondo429
5Italo Calvinolettera309
6Fulvio Abbatearticolo di costume281
7Giuseppe Pontiggiaparere di lettura187
8Carlo Emilio Gaddalettera182
9Umberto Ecobustina di Minerva148
10Alberto Moravianovella o racconto124
11Vittorio Alfieriepigramma123
12Carlo Goldonicommedia116
13Filippo Panantiepigramma116
14Sandro Pertinilettera112
15Federico Caffèarticolo di fondo110
16Giovanni Papininovella o racconto105
17Dino Buzzatiarticolo culturale100
18Vanda di Marscianolettera97
19Eugenio Cortilettera91
20Ugo Bettinovella o racconto86
21Vitaliano Brancatinovella o racconto86
22Giorgio Manganellilettera86
23Giacomo Matteottilettera84
24Emilio Salgariromanzo84
25Giuliano Gramignarecensione79
26Fernanda Pivanoarticolo di costume76
27Guido Gozzanolettera70
28Roberto Savianoarticolo di fondo66
29Pietro Metastasiolibretto d'opera61
30Pietro Nennilettera60
31Pietro Citatiarticolo culturale57
32Renato Serralettera53
33Sebastiano Timpanarosaggio divulgativo51
34Tommaso Landolfielzeviro50
35Anna Bantinovella o racconto46
36 [autore collettivo]costituzione45
37Eugenio Pacellienciclica41
38Amalia Guglielminettilettera40
39Giorgio Scerbanenconovella o racconto40
40Cesare Pavesenovella o racconto36
41Luigi Pirandellocommedia35
42Andrea Vitaliromanzo35
43Vincenzo da Filicajalettera35
44Felice Andreasimonologo33
45Grazia Deleddaromanzo32
46Mario Appeliusdiscorso31
47Achille Rattienciclica31
48Aldo Bizzarrirecensione30
49Pier Paolo Pasoliniarticolo di costume30
50Gioacchino Peccienciclica30
51Alessandro Voltalettera28
52Anton Giulio Barriliromanzo27
53Vincenzo Spinosonovella o racconto25

Ricerca per testi

Il numero dei testi contenuti in scripta cresce di continuo, grazie ai sistematici versamenti. Non è possibile, però, ottenerne un elenco completo perché risulterebbe troppo lungo. Ho preferito, perciò, raggrupparli per genere. È possibile, comunque, cercare un testo in base a un frammento del titolo.

Ogni testo può essere esaminato singolarmente, per ricavare:

1. la percentuale delle parole in funzione delle rispettive lunghezze;

2. la percentuale dei periodi in funzione delle rispettive lunghezze;

3. la lista delle 100 occorrenze più numerose (sia completa, sia filtrata);

4. la percentuale delle parole comuni contenute nel Vocabolario di base.

Ricerca per parole o espressioni

Le parole contenute attualmente in scripta sono 327 633 780, distribuite su base cronologica secondo il grafico che segue:

1201-1225 1226-1250 1251-1275 1276-1300 1301-1325 1326-1350 1351-1375 1376-1400 1401-1425 1426-1450 1451-1475 1476-1500 1501-1525 1526-1550 1551-1575 1576-1600 1601-1625 1626-1650 1651-1675 1676-1700 1701-1725 1726-1750 1751-1775 1776-1800 1801-1825 1826-1850 1851-1875 1876-1900 1901-1925 1926-1950 1951-1975 1976-2000 2001-2025 2026-2050 100 90 80 70 60 50 40 30 20 10 0 milioni di parole periodo

Può risultare interessante anche conoscere come sono distribuite le parole in base alla classificazione dei testi. Una prima distinzione di massima è rappresentata nel grafico che segue.

testi letterari (59%)testi non letterari (41%)

Per testi letterari bisogna intendere poemi, romanzi, lirica e, in generale, i testi di invenzione. Ovviamente, per testi non letterari bisogna intendere i rimanenti.

Ci si può fare un'idea più precisa di questa suddivisione in base alla tabella che segue, la quale esplicita, in maniera quantitativa, una tabella più dettagliata.

ntipo di testonumero di parolepercentuale
1testo inclassificabile 532 8400,2
2testo espressivo 7 635 0262,3
3testo riferitivo con patto finzionale 186 552 92256,9
4testo riferitivo senza patto finzionale 63 689 03619,4
5testo dichiarativo 8 600 1122,6
6testo argomentativo debole 19 988 2556,1
7testo argomentativo forte 34 374 74910,5
8testo normativo condizionato 4 589 6251,4
9testo normativo non condizionato 1 671 2150,5

Si può interrogare il corpus sottoponendo vocaboli interi o frammenti iniziali di essi purché, in entrambi i casi, siano lunghi almeno quattro lettere.

Ho introdotto questa limitazione per evitare ricerche troppo gravose per la macchina. Esistono tuttavia delle parole brevi e assai comuni, come vita, per esempio, che produrrebbero egualmente una massa esagerata e, tutto sommato, inutile di risultati. Per questa ragione va anche detto che si possono ottenere solo i primi mille risultati di una ricerca e, siccome essi vengono presentati cronologicamente, questo significa che, volendo cercare la parola vita senza condizioni, si può venire a sapere quante volte Dante la impiega nella Vita nuova ma non quante volte la impiega Aldo Busi nel suo romanzo Vita standard di un venditore provvisorio di collant che è stato pubblicato nel 1985. Ciò non vuol dire che è impossibile ottenere questo risultato; per averlo è sufficiente condizionare la ricerca a un autore, a un genere letterario, oppure ad entrambi.

Si possono eseguire le ricerche sulle parole sia in forma compatta, ottenendo solo il numero di occorrenze, per un determinato criterio di ricerca, sia in forma verbosa, ricavando le cosiddette concordanze in contesto, ovvero tutte le occorrenze del caso inserite in un breve frammento del testo (cinque parole prima e cinque dopo) che le contiene. Anche in questo caso la ricerca incondizionata è ristretta ai primi mille risultati, ma è sempre possibile restringere la ricerca a un autore, a un genere letterario, oppure ad entrambi.

Nei limiti di quaranta caratteri è anche possibile eseguire una ricerca per le espressioni. Va segnalato il fatto che la ricerca è tanto più veloce quanto meno le parole che compongono le espressioni sono comuni. Una ricerca per «io non vedo l'ora», perciò, potrebbe essere molto lunga, mentre la risposta per «arzigogoli stiracchiati» dovrebbe essere pressoché istantanea.

Infine, va tenuto presente che per le espressioni non è possibile ottenere le concordanze in contesto, bensì solo il numero di volte che esse compaiono in un determinato testo.