Opera del Vocabolario Italiano

Istituto del Consiglio Nazionale delle Ricerche

News

L’OVI AGGIORNA I SUOI CORPORA  

12-05-2021

L’OVI pubblica una nuova versione dei suoi corpora, il Corpus TLIO per il vocabolario e il Corpus OVI dell’italiano antico, in linea con l’assetto elaborato nell’ambito del progetto «RENOVO. Rigenerare il corpus OVI: rinnovo e ottimizzazione di metodi, contenuti, strumenti» (PRIN 2017), mirato al rinnovamento filologico e testuale dei due corpora in continuità con il progetto «CoVo. Il corpus del vocabolario italiano delle origini: aggiornamento filologico e interoperabilità» (PRIN 2015). Si vedano i criteri per l'aggiornamento.

Corpus TLIO per il vocabolario

Corpus lemmatizzato, è il corpus di riferimento per la redazione del TLIO. Sono state aggiornate le edizioni di 6 testi già presenti nel Corpus TLIO in edizioni superate (vedi elenco qui) e sono stati inseriti 26 testi nuovi, finora assenti (vedi elenco qui). La nuova versione del Corpus TLIO che oggi si pubblica on line comprende 2.756 testi (con un incremento di 27 unità rispetto alla versione precedente), per un totale di 23.093.113 occorrenze (con un incremento di 63.197 occorrenze), 482.023 forme grafiche distinte, 123.511 lemmi e 4.275.491 occorrenze lemmatizzate (con un incremento di 32.479 occorrenze).

Corpus OVI dell’italiano antico

Corpus non lemmatizzato (ma interrogabile con la funzione “lemmi muti” di GATTOWeb), che comprende il Corpus TLIO e lo estende fino a includere tendenzialmente tutti i testi pubblicati databili entro la fine del sec. XIV: è il corpus che mira a consentire l’interrogazione dell’intero patrimonio testuale dell’italiano antico. Vi si sono inseriti 3 testi non lemmatizzati finora assenti, che non rientrano nei criteri di inclusione nel Corpus TLIO (vedi elenco qui). La nuova versione del Corpus OVI che oggi si pubblica on line comprende 2.978 testi (con un incremento di 30 unità rispetto alla versione precedente), per un totale di 29.354.411 occorrenze (con un incremento di 146.052 occorrenze) e 540.210 forme grafiche distinte.