IL CORPUS TESTUALE

Il Corpus Testuale

Il corpus testuale del Tesoro della Lingua Italiana delle Origini è la maggiore base di dati oggi disponibile riguardante la lingua italiana anteriore al 1375. Articolato in tre databases, contiene attualmente 2318 testi per 23.173.538 parole (occorrenze) nel Corpus OVI dell'Italiano antico; 1998 testi per 21.868.415 occorrenze costituiscono il Corpus TLIO, che è la parte lemmatizzata che serve di base al vocabolario, mentre il Corpus TLIO aggiuntivo, non lemmatizzato, raccoglie 320 testi per 1.305.123 occorrenze.

È implementato in GATTO in una versione di rete locale sulla quale viene sviluppata la lemmatizzazione; il corpus lemmatizzato è quindi reso interrogabile in rete mediante GattoWeb. Una versione non lemmatizzata dello stesso corpus è stata interrogabile in rete tramite ItalNet (questa versione è quella da più lungo tempo nota agli studiosi, essendo stata in rete dal 1998; la prima pubblicazione della versione GattoWeb è di ottobre 2005).

La versione ItalNet della Banca Dati dell'Italiano Antico dell'OVI non è stata più aggiornata dal 2005, e perciò non è affidabile.

La banca dati dell'italiano antico, su cui si fonda il TLIO, è stata costituita, riprendendo anche i materiali precedentemente preparati dall'Accademia della Crusca, da Valentina Pollidori, che l'ha gestita con la collaborazione di Franca Bertini fino al 2004. Dopo la prematura dolorosa scomparsa di Valentina Pollidori, responsabile della banca dati è ora Pär Larson.

La banca dati è implementata in GATTO da Andrea Boccellari, dopo il pensionamento nel 2014 di Domenico Iorio-Fili, autore del software.

La versione interrogabile nel sito Italnet, basata sui testi preparati dall'OVI, è un prodotto del consorzio Italnet (direttore esecutivo Theodore J. Cachey; programmatore capo del database Mark Olsen; assistente alla programmazione e disegnatore dell'interfaccia web Christian Dupont).

La lemmatizzazione è stata sviluppata fino al 2006 da Roberta Cella (con la collaborazione di Patricia Frosini fino al 2002). Dopo il passaggio di Roberta Cella all'Università la responsabilità della lemmatizzazione è passata a Elena Artale. Per i metodi di lemmatizzazione cfr. Piero Esperti, Grammatichetta della lingua italiana ad uso del calcolatore, in d'Arco Silvio Avalle, Al servizio del vocabolario della lingua italiana, Firenze, Accademia della Crusca, 1979, pp. 123-87.

Una prima versione della banca dati fu implementata in DBT di Eugenio Picchi con la collaborazione di Elisabetta Marinai e resa interrogabile in rete con un sistema client-server di Lisa Biagini.

Il recupero dei materiali codificati in formati precedenti DBT è stato realizzato da Rosalba Cigliana e Valentina Pollidori con la collaborazione di Rita Marinelli e, per la parte informatica, di Giuseppe Camuglia, Manuela Sassi, Elisabetta Marinai e Antonio Sapuppo. Per la prima fase dei lavori che hanno portato a costituire la banca dati cfr. Avalle, Al servizio del vocabolario,cit.; Aldo Duro, L'impianto del nuovo vocabolario: profilo storico, in La Crusca nella tradizione letteraria e linguistica italiana, Firenze, Accademia della Crusca, 1985, pp. 431-42; Domenico De Robertis, L'ufficio filologico dell'Opera del vocabolario, il suo impianto, il suo lavoro, ivi, pp. 443-51.

Si ringraziano tutti gli studiosi che hanno anticipato all'OVI testi da loro editi o che ne hanno facilitato l'immissione nel corpus fornendo materiali in formato elettronico. La bibliografia dei citati comprende edizioni 'provvisorie' o 'interne' preparate in funzione del corpus, come viene dichiarato nelle singole schede bibliografiche.