In questo lavoro viene presentato WIT3, il sito web che abbiamo sviluppato per distribuire una versione pronta all'uso della collezione di sottotitoli multilingua degli interventi alle conferenze TED. Siamo persuasi che questa collezione rappresenti una risorsa preziosa per la comunita` scientifica che si occupa di traduzione automatica, data la sua dimensione in continua crescita e data la sua varieta` sia in termini di lingue sia di argomenti trattati. Infatti gia` ad oggi, giugno 2013, il sito TED raccoglie la registrazione di piu` di 2000 interventi che spaziano su tutto lo scibile umano, dalla tecnologia all'intrattenimento, dall'economia alla scienza; le trascrizioni in inglese sono gia` disponibili per la maggior parte delle registrazioni, mentre le traduzioni vengono via via aggiunte e al momento coprono fino a 100 lingue diverse. La nostra ambizione e` di fornire attraverso WIT3 un servizio adeguato alla comunita` scientifica distribuendo: (a) per un numero consistente di coppie di lingue il materiale per l'addestramento di sistemi statistici di traduzione e la loro valutazione, insieme a delle traduzioni generate automaticamente che possono fungere da riferimento; (b) i file originali del sito di TED con degli strumenti di elaborazione che consentono a chiunque di preparare autonomamente l'ambiente sperimentale per qualsiasi coppia di lingue.

WIT3: il corpus dei sottotitoli multilingue degli interventi alle conferenze TED

Cettolo, Mauro;Girardi, Christian;Federico, Marcello
2013-01-01

Abstract

In questo lavoro viene presentato WIT3, il sito web che abbiamo sviluppato per distribuire una versione pronta all'uso della collezione di sottotitoli multilingua degli interventi alle conferenze TED. Siamo persuasi che questa collezione rappresenti una risorsa preziosa per la comunita` scientifica che si occupa di traduzione automatica, data la sua dimensione in continua crescita e data la sua varieta` sia in termini di lingue sia di argomenti trattati. Infatti gia` ad oggi, giugno 2013, il sito TED raccoglie la registrazione di piu` di 2000 interventi che spaziano su tutto lo scibile umano, dalla tecnologia all'intrattenimento, dall'economia alla scienza; le trascrizioni in inglese sono gia` disponibili per la maggior parte delle registrazioni, mentre le traduzioni vengono via via aggiunte e al momento coprono fino a 100 lingue diverse. La nostra ambizione e` di fornire attraverso WIT3 un servizio adeguato alla comunita` scientifica distribuendo: (a) per un numero consistente di coppie di lingue il materiale per l'addestramento di sistemi statistici di traduzione e la loro valutazione, insieme a delle traduzioni generate automaticamente che possono fungere da riferimento; (b) i file originali del sito di TED con degli strumenti di elaborazione che consentono a chiunque di preparare autonomamente l'ambiente sperimentale per qualsiasi coppia di lingue.
2013
9788878709010
File in questo prodotto:
File Dimensione Formato  
AISV2013_cettolo_lavoro.pdf

accesso aperto

Tipologia: Documento in Pre-print
Licenza: PUBBLICO - Pubblico con Copyright
Dimensione 142.91 kB
Formato Adobe PDF
142.91 kB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11582/179812
 Attenzione

Attenzione! I dati visualizzati non sono stati sottoposti a validazione da parte dell'ateneo

Citazioni
  • ???jsp.display-item.citation.pmc??? ND
social impact