Tutte le notizie

Con il progetto «CoVo. Il corpus del vocabolario italiano delle origini: aggiornamento filologico e interoperabilità» (PRIN 2015), l’OVI ha riavviato l’aggiornamento sistematico del Corpus TLIO e del Corpus OVI, con una serie di operazioni che oggi vedono una prima uscita on line.

Corpus TLIO. Corpus lemmatizzato, si conferma il corpus di riferimento del vocabolario. Si è iniziata la sostituzione di testi già presenti nel corpus, ma pubblicati in edizioni recenti più affidabili (vedi elenco qui). Si è inoltre riversata nel Corpus TLIO la maggior parte dei testi temporaneamente inseriti nel Corpus TLIO Aggiuntivo, che è stato quindi disattivato (vedi elenco qui). Si stanno infine preparando i primi testi che finora non facevano parte del Corpus TLIO e che si cominceranno a inserire fin dal prossimo aggiornamento: visto l’onere della lemmatizzazione, tali nuovi inserimenti non potranno essere esaustivi, e dovranno rispondere a criteri di maggiore rilevanza lessicografica (vedi criteri qui). La nuova versione del Corpus TLIO che oggi si pubblica on line comprende dunque 2.268 testi (con un incremento di 145 rispetto alla versione precedente), per un totale di 22.590.236 occorrenze (incremento di 658.218), 458.502 forme distinte (incremento di 12.586), 119.587 lemmi (incremento di 2.155), e 3.965.093 occorrenze lemmatizzate (incremento di 157.477).

Corpus OVI. Corpus solo parzialmente lemmatizzato, che comprende il Corpus TLIO e lo estende fino a includere tendenzialmente tutti i testi pubblicati, databili entro la fine del sec. XIV. Tale Corpus OVI non è dunque più, come è stato finora, la somma di Corpus TLIO e di Corpus TLIO Aggiuntivo, che era un corpus provvisorio i cui testi erano destinati a essere lemmatizzati e a entrare nel Corpus TLIO, ma un corpus che dovrebbe consentire la ricerca su tutto il patrimonio testuale dell’italiano antico. In esso si sono iniziati a inserire i testi finora assenti che non rientrano nei criteri di inclusione nel Corpus TLIO (vedi elenco qui). La nuova versione del Corpus OVI che oggi si pubblica on line comprende dunque 2.386 testi (con un incremento di 51 rispetto alla versione precedente), per un totale di 23.858.719 occorrenze (incremento di 682.010), 476.689 forme distinte (incremento di 9.470).