Lemmatizzazione
Logo definitivo

Ambienti di Lemmatizzazione

Ambiente Lemmatizzazione per singolo testo

All'interno di GATTO è possibile procedere alla lemmatizzazione dei testi inclusi in un corpus, selezionando di volta in volta il testo sul quale agire. In GATTO lemmatizzaresignifica associare un certo lemma ad una specifica occorrenza di una specifica forma in uno specifico testo. Se il lemma utilizzato non era presente precedentemente nel lemmario del corpus vi viene aggiunto automaticamente.

Una volta portata a termine una lemmatizzazione, questa ha una duplice conseguenza: realizza una connessione tra il lemma e l'occorrenza cui è stato associato (e questo era ovvio) ma in più crea una connessione più generale tra il lemma e la forma di cui l'occorrenza era espressione.

La lemmatizzazione può essere effettuata in maniera standard o in maniera sequenziale: in tutti i casi opera su un solo testo per volta.

La lemmatizzazione standard consente di scegliere la forma ed eventualmente la specifica occorrenza che si intende lemmatizzare e di passare quindi alle altre occorrenze della stessa forma o alle forme alfabeticamente adiacenti.

La lemmatizzazione sequenziale passa in rassegna, consentendone la lemmatizzazione, le parole che compongono il testo nell'ordine in cui vi compaiono.

Nel corso della lemmatizzazione è possibile, volendolo, associare all'occorrenza oltre al lemma anche un iperlemma.

Ogni volta che, nel corso di una lemmatizzazione, vengono utilizzati un lemma o un iperlemma non presenti fino a quel momento nel corpus, questi vi vengono aggiunti automaticamente; in particolare il lemma entra a far parte del dizionario di macchina della parola lemmatizzata e come tale verrà proposto all'utente, come possibile scelta, nel corso di successive lemmatizzazioni riferite alla stessa forma, anche se in testi diversi dello stesso corpus; un discorso analogo vale per l'iperlemma.

Entrambe le modalità di lemmatizzazione sono agevolate dall'uso del dizionario di macchina e da una tabella degli omografi operanti a livello di corpus, a loro volta modificati automaticamente in tempo reale dalle operazioni di lemmatizzazione.

Lemmario e dizionario di macchina costruiti nell'ambito di un corpus possono essere riutilizzati in seguito per lemmatizzare corpus diversi nella stessa lingua.

Sempre in questo ambiente è possibile modificare o eliminare le lemmatizzazioni precedentemente assegnate.

 

Ambiente Lemmatizzazione sul corpus

Questo ambiente, non presente nelle precedenti versioni del programma, integra le funzionalità del Lemmatizzatore per singolo testo, rispetto al quale non dispone del meccanismo di lemmatizzazione sequenziale mentre consente di operare su più forme e più testi contemporaneamente.

L'operazione di lemmatizzazione ha inizio, in questo caso, selezionando i contesti a partire da una generica ricerca nel corpus o in sottocorpus; i contesti così ottenuti possono poi essere lemmatizzati singolarmente, a gruppi o tutti insieme, anche con uno stesso lemma (e iperlemma).

In sostanza vengono rimossi i tre limiti presenti nel Lemmatizzatore per singolo testo, ovvero lemmatizzazione di una sola occorrenza di una sola forma in un solo testo per ogni operazione di lemmatizzazione.

Le altre caratteristiche di questa modalità di lemmatizzazione sono uguali a quelle dell'ambiente precedente.