IL CORPUS TESTUALE

Il Corpus Testuale

Il corpus testuale dell’OVI è la maggiore base di dati oggi disponibile riguardante la lingua italiana anteriore al 1400. È articolato in due versioni, una più estesa, tendente all’esaustività, l’altra lemmatizzata: la prima è il Corpus OVI dell’Italiano antico (o semplicemente Corpus OVI), e contiene attualmente 2.386 testi per 23.858.719 parole (occorrenze); la seconda è il Corpus TLIO, cioè la parte lemmatizzata che serve di base al vocabolario, e contiene attualmente 2.268 testi per 22.590.236 occorrenze. Entrambi sono implementati in GATTO, in una versione di rete locale sulla quale viene sviluppata la lemmatizzazione; entrambi sono quindi resi interrogabili in rete mediante GattoWeb. Una versione non lemmatizzata del corpus è stata interrogabile in rete tramite ItalNet (questa versione è quella da più lungo tempo nota agli studiosi, essendo stata in rete dal 1998; la prima pubblicazione della versione GattoWeb è di ottobre 2005).

La versione ItalNet della Banca Dati dell'Italiano Antico dell'OVI non è stata più aggiornata dal 2005, e perciò non è affidabile.

La banca dati dell'italiano antico, su cui si fonda il TLIO, è stata costituita, riprendendo anche i materiali precedentemente preparati dall'Accademia della Crusca, da Valentina Pollidori, che l'ha gestita con la collaborazione di Franca Bertini fino al 2004. Dopo la prematura dolorosa scomparsa di Valentina Pollidori nel 2004, responsabile della banca dati è Pär Larson. La banca dati è implementata in GATTO da Andrea Boccellari, dopo il pensionamento nel 2014 di Domenico Iorio-Fili, autore del software.
La versione interrogabile nel sito Italnet, basata sui testi preparati dall'OVI, è un prodotto del consorzio Italnet (direttore esecutivo Theodore J. Cachey; programmatore capo del database Mark Olsen; assistente alla programmazione e disegnatore dell'interfaccia web Christian Dupont). La lemmatizzazione è stata sviluppata fino al 2006 da Roberta Cella (con la collaborazione di Patricia Frosini fino al 2002). Dopo il passaggio di Roberta Cella all'Università la responsabilità della lemmatizzazione è passata a Elena Artale, coadiuvata dal 2017 da Diego Dotto. Per i metodi di lemmatizzazione, via via aggiornati, è in lavorazione una riscrittura di Piero Esperti, Grammatichetta della lingua italiana ad uso del calcolatore, in d'Arco Silvio Avalle, Al servizio del vocabolario della lingua italiana, Firenze, Accademia della Crusca, 1979, pp. 123-87. Una prima versione della banca dati fu implementata in DBT di Eugenio Picchi con la collaborazione di Elisabetta Marinai e resa interrogabile in rete con un sistema client-server di Lisa Biagini.
Il recupero dei materiali codificati in formati precedenti DBT è stato realizzato da Rosalba Cigliana e Valentina Pollidori con la collaborazione di Rita Marinelli e, per la parte informatica, di Giuseppe Camuglia, Manuela Sassi, Elisabetta Marinai e Antonio Sapuppo. Per la prima fase dei lavori che hanno portato a costituire la banca dati cfr. Avalle, Al servizio del vocabolario,cit.; Aldo Duro, L'impianto del nuovo vocabolario: profilo storico, in La Crusca nella tradizione letteraria e linguistica italiana, Firenze, Accademia della Crusca, 1985, pp. 431-42; Domenico De Robertis, L'ufficio filologico dell'Opera del vocabolario, il suo impianto, il suo lavoro, ivi, pp. 443-51. Si ringraziano tutti gli studiosi che hanno anticipato all'OVI testi da loro editi o che ne hanno facilitato l'immissione nel corpus fornendo materiali in formato elettronico. La bibliografia dei citati comprende edizioni 'provvisorie' o 'interne' preparate in funzione del corpus, come viene dichiarato nelle singole schede bibliografiche.