I-CAB (Italian Content Annotation Bank) è un corpus italiano annotato con informazioni semantiche e relazionali che si propone come benchmark nel campo dell’estrazione automatica di informazione da testi. In particolare, I-CAB contiene espressioni temporali, entità e relazioni tra entità annotate manualmente usando formati di rappresentazione standard. Per entità si intende un oggetto o una serie di oggetti nel mondo, in particolare: Persone (Ciampi), Organizzazioni (ONU), Entità Geo-Politiche (Italia) e Luoghi (P.zza S.Marco, 4). Laddove all’interno di un documento un’entità sia nominata più volte, le singole menzioni, cioè le sue diverse realizzazioni testuali, vengono annotate separatamente e associate ad essa. Ad esempio, la frase Ciampi farà visita alla sua città natale contiene un’entità di tipo Persona a cui sono associate due menzioni: il nome proprio Ciampi e l’aggettivo possessivo sua.I-CAB è parte del progetto triennale ONTOTEXT (finanziato dalla Provincia Autonoma di Trento) che mira allo sviluppo di sistemi di annotazione automatica, di Knowledge Extraction e Ontology Learning and Population.Dai programmi statunitensi ACE e TIDES, principali punti di riferimento per la creazione di I-CAB, sono stati ripresi gli standard TIMEX2 (Ferro et al., 2005) per l’annotazione delle espressioni temporali e Entity Detection and Tracking (EDT) per l’annotazione delle entità. Le linee guida sviluppate per l’inglese sono state estese e adattate alle specifiche caratteristiche morfo-sintattiche dell’italiano (Lavelli et al., 2005). Per esempio, secondo le linee guida inglesi, gli articoli fanno parte della realizzazione testuale di un’entità, mentre le preposizioni sono escluse. Questa regola non è applicabile all’italiano data la presenza delle preposizioni articolate; è stato quindi deciso di includere tale tipo di preposizioni in modo da mantenere gli articoli all’interno dell’annotazione. Nuovi tipi di menzioni sono stati aggiunti (è il caso del tag creato per annotare i clitici la cui estensione non può essere identificata a livello di parola, per esempio vederla) e altri sono stati eliminati (come il tag usato per i pre-modificatori; l’italiano, infatti, a differenza dell’inglese, non ammette nomi in tale posizione). Infine, la gamma di entità da annotare è stata estesa con l’aggiunta di un tag specifico per le entità congiunte: per esempio, Ciampi e la signora Franca.I-CAB è formato da 525 articoli tratti dal quotidiano trentino “L’Adige”, per un totale di 182.564 parole (in media 348 parole per articolo). Sono state annotate 4.553 espressioni temporali, 7.087 entità persona (in media, 13,5 entità per articolo) e 16.059 menzioni delle entità persona (30,6 menzioni per articolo). Le future fasi di annotazione di I-CAB riguarderanno i restanti tipi di entità e alcuni tipi di relazioni tra di esse (e.g. la relazione data-di-nascita che connette una data a una persona).

Annotazione di contenuti concettuali in un corpus italiano: I-CAB

Magnini, Bernardo;Pianta, Emanuele;Speranza, Manuela;Sprugnoli, Rachele;Romano, Lorenza;Girardi, Christian;Negri, Matteo
2006-01-01

Abstract

I-CAB (Italian Content Annotation Bank) è un corpus italiano annotato con informazioni semantiche e relazionali che si propone come benchmark nel campo dell’estrazione automatica di informazione da testi. In particolare, I-CAB contiene espressioni temporali, entità e relazioni tra entità annotate manualmente usando formati di rappresentazione standard. Per entità si intende un oggetto o una serie di oggetti nel mondo, in particolare: Persone (Ciampi), Organizzazioni (ONU), Entità Geo-Politiche (Italia) e Luoghi (P.zza S.Marco, 4). Laddove all’interno di un documento un’entità sia nominata più volte, le singole menzioni, cioè le sue diverse realizzazioni testuali, vengono annotate separatamente e associate ad essa. Ad esempio, la frase Ciampi farà visita alla sua città natale contiene un’entità di tipo Persona a cui sono associate due menzioni: il nome proprio Ciampi e l’aggettivo possessivo sua.I-CAB è parte del progetto triennale ONTOTEXT (finanziato dalla Provincia Autonoma di Trento) che mira allo sviluppo di sistemi di annotazione automatica, di Knowledge Extraction e Ontology Learning and Population.Dai programmi statunitensi ACE e TIDES, principali punti di riferimento per la creazione di I-CAB, sono stati ripresi gli standard TIMEX2 (Ferro et al., 2005) per l’annotazione delle espressioni temporali e Entity Detection and Tracking (EDT) per l’annotazione delle entità. Le linee guida sviluppate per l’inglese sono state estese e adattate alle specifiche caratteristiche morfo-sintattiche dell’italiano (Lavelli et al., 2005). Per esempio, secondo le linee guida inglesi, gli articoli fanno parte della realizzazione testuale di un’entità, mentre le preposizioni sono escluse. Questa regola non è applicabile all’italiano data la presenza delle preposizioni articolate; è stato quindi deciso di includere tale tipo di preposizioni in modo da mantenere gli articoli all’interno dell’annotazione. Nuovi tipi di menzioni sono stati aggiunti (è il caso del tag creato per annotare i clitici la cui estensione non può essere identificata a livello di parola, per esempio vederla) e altri sono stati eliminati (come il tag usato per i pre-modificatori; l’italiano, infatti, a differenza dell’inglese, non ammette nomi in tale posizione). Infine, la gamma di entità da annotare è stata estesa con l’aggiunta di un tag specifico per le entità congiunte: per esempio, Ciampi e la signora Franca.I-CAB è formato da 525 articoli tratti dal quotidiano trentino “L’Adige”, per un totale di 182.564 parole (in media 348 parole per articolo). Sono state annotate 4.553 espressioni temporali, 7.087 entità persona (in media, 13,5 entità per articolo) e 16.059 menzioni delle entità persona (30,6 menzioni per articolo). Le future fasi di annotazione di I-CAB riguarderanno i restanti tipi di entità e alcuni tipi di relazioni tra di esse (e.g. la relazione data-di-nascita che connette una data a una persona).
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11582/3389
 Attenzione

Attenzione! I dati visualizzati non sono stati sottoposti a validazione da parte dell'ateneo

Citazioni
  • ???jsp.display-item.citation.pmc??? ND
social impact