La tesi è finalizzata all`integrazione di una tecnica di localizzazione basata su schiere di microfoni con un sistema di riconoscimento del parlato continuo indipendente dal parlatore. La schiera, composta da quattro microfoni omnidirezionali e collocata su una parete dell`ambiente, raccoglie il segnale vocale. Alle quattro versioni del messaggio acustico si applica una tecnica di compensazione dei ritardi (TDC) che genera uno spettro migliorato equivalente del segnale originale. Tre tecniche di compensazione riducono il disallineamento tra i parametri acustici estratti in fase di test, in cui il segnale è distorto da riverberi e rumori, e quelli utilizzati per l`addestramento del sistema ricavati in ambiente isolato e con singolo microfono. La prima agisce a livello dello spettro di potenza del segnale, stimando run-time la componente di rumore. La seconda normalizza i parametri acustici con trasformazioni lineari. Infine una tecnica di adattamento dei modelli di Markov consente un parziale avvicinamento tra le condizioni di addestramento in ambiente `pulito` e quelle rumorose d`impiego. Lo scenario che si prospetta è un adattamento veloce a parlatore, ambiente e canale di un riconoscitore funzionante viva-voce e in tempo reale
Interfaccia basata su schiere di microfoni per un sistema di riconoscimento del parlato continuo
Matassoni, Marco
1995-01-01
Abstract
La tesi è finalizzata all`integrazione di una tecnica di localizzazione basata su schiere di microfoni con un sistema di riconoscimento del parlato continuo indipendente dal parlatore. La schiera, composta da quattro microfoni omnidirezionali e collocata su una parete dell`ambiente, raccoglie il segnale vocale. Alle quattro versioni del messaggio acustico si applica una tecnica di compensazione dei ritardi (TDC) che genera uno spettro migliorato equivalente del segnale originale. Tre tecniche di compensazione riducono il disallineamento tra i parametri acustici estratti in fase di test, in cui il segnale è distorto da riverberi e rumori, e quelli utilizzati per l`addestramento del sistema ricavati in ambiente isolato e con singolo microfono. La prima agisce a livello dello spettro di potenza del segnale, stimando run-time la componente di rumore. La seconda normalizza i parametri acustici con trasformazioni lineari. Infine una tecnica di adattamento dei modelli di Markov consente un parziale avvicinamento tra le condizioni di addestramento in ambiente `pulito` e quelle rumorose d`impiego. Lo scenario che si prospetta è un adattamento veloce a parlatore, ambiente e canale di un riconoscitore funzionante viva-voce e in tempo realeI documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.