Opera del Vocabolario Italiano

Istituto del Consiglio Nazionale delle Ricerche

Il Corpus Testuale

Il corpus testuale dell’OVI è la maggiore base di dati oggi disponibile riguardante la lingua italiana anteriore al 1400. È articolato in due versioni, una più estesa, tendente all’esaustività, l’altra lemmatizzata: la prima è il Corpus OVI dell’Italiano antico (o semplicemente Corpus OVI), e al 13 settembre 2021 contiene 3.218 testi per 29.926.438 parole (occorrenze); la seconda è il Corpus TLIO per il vocabolario, cioè la parte lemmatizzata che serve di base al vocabolario, e contiene attualmente 2.948 testi per 23.435.445 occorrenze. Entrambi sono implementati in GATTO, in una versione di rete locale sulla quale viene sviluppata la lemmatizzazione; entrambi sono quindi resi interrogabili in rete mediante GattoWeb. Una versione non lemmatizzata del corpus è stata interrogabile in rete tramite ItalNet (questa versione è quella da più lungo tempo nota agli studiosi, essendo stata in rete dal 1998; la prima pubblicazione della versione GattoWeb è di ottobre 2005).

Per segnalazioni di eventuali errori o anche semplicemente per fare osservazioni o esprimere dubbi,  si prega di inviare un messaggio di posta elettronica ai responsabili della lemmatizzazione, Elena Artale e Diego Dotto.

La versione ITALNET della banca dati dell'italiano antico dell'OVI non è stata più aggiornata dal 2005, e perciò non è affidabile. 
 
La banca dati dell'italiano antico, su cui si fonda il TLIO, è stata costituita, riprendendo anche i materiali precedentemente preparati dall'Accademia della Crusca, da Valentina Pollidori, che l'ha gestita con la collaborazione di Franca Bertini fino al 2004. Dopo la prematura dolorosa scomparsa di Valentina Pollidori nel 2004, responsabile della banca dati è Pär Larson. La banca dati è implementata in GATTO da Andrea Boccellari, dopo il pensionamento nel 2014 di Domenico Iorio-Fili, autore del software.
La versione, ormai superata, interrogabile nel sito Italnet, basata sui testi preparati dall'OVI, è un prodotto del consorzio Italnet (direttore esecutivo Theodore J. Cachey; programmatore capo del database Mark Olsen; assistente alla programmazione e disegnatore dell'interfaccia web Christian Dupont). La lemmatizzazione è stata sviluppata fino al 2006 da Roberta Cella (con la collaborazione di Patricia Frosini fino al 2002). Dopo il passaggio di Roberta Cella all'Università la cura della lemmatizzazione è passata a Elena Artale e Diego Dotto. Per i metodi di lemmatizzazione, via via aggiornati, è in lavorazione una riscrittura della Grammatichetta della lingua italiana ad uso del calcolatore, a cura di Piero Esperti (in d'Arco Silvio Avalle, Al servizio del vocabolario della lingua italiana, Firenze, Accademia della Crusca, 1979, pp. 123-87). Una prima versione della banca dati fu implementata in DBT di Eugenio Picchi con la collaborazione di Elisabetta Marinai e resa interrogabile in rete con un sistema client-server di Lisa Biagini.
Il recupero dei materiali codificati in formati precedenti DBT è stato realizzato da Rosalba Cigliana e Valentina Pollidori con la collaborazione di Rita Marinelli e, per la parte informatica, di Giuseppe Camuglia, Manuela Sassi, Elisabetta Marinai e Antonio Sapuppo. Per la prima fase dei lavori che hanno portato a costituire la banca dati cfr. Avalle, Al servizio del vocabolario, cit.; Aldo Duro, L'impianto del nuovo vocabolario: profilo storico, in La Crusca nella tradizione letteraria e linguistica italiana, Firenze, Accademia della Crusca, 1985, pp. 431-42; Domenico De Robertis, L'ufficio filologico dell'Opera del vocabolario, il suo impianto, il suo lavoro, ivi, pp. 443-51.
Si ringraziano tutti gli studiosi che hanno anticipato all'OVI testi da loro editi o che ne hanno facilitato l'immissione nel corpus fornendo materiali in formato elettronico. La bibliografia dei citati comprende edizioni 'provvisorie' o 'interne' preparate in funzione del corpus, come viene dichiarato nelle singole schede bibliografiche.