L’interazione vocale con microfoni a distanza (Distant Speech Recognition) costituisce un passo importante verso lo sviluppo di interfacce vocali sempre più user-friendly e consente una vasta gamma di implementazioni in contesti dove è preferibile o necessario operare in modalità “hands-free”. Tuttavia, l’attuale stato dell’arte di questa tecnologia non offre ancora garanzie di prestazioni elevate, in particolare in ambienti rumorosi e riverberanti. Uno scenario applicativo particolarmente interessante e sfidante è rappresentato dall’interazione vocale a distanza in ambito domotico. In questo lavoro viene descritta un’attività svolta nell’ambito del progetto DOMHOS (DOMotic and HOSpital speech interaction) e avente lo scopo di effettuare un’azione di trasferimento tecnologico per le tecniche e le componenti software maggiormente consolidate. Il progetto si propone di introdurre un sistema di interazione vocale in ambiente domestico, atto al controllo di vari dispositivi della casa e rivolto principalmente ad utenti affetti da disabilità motoria. E’ stato progettato e realizzato un prototipo funzionante di appartamento domotico controllabile attraverso la voce e dotato delle seguenti caratteristiche: • lʼinterazione avviene a distanza dai microfoni; • il sistema è sempre in ascolto, pronto a rilevare dei comandi vocali; • il sistema funziona in tempo reale; • tutta lʼelaborazione viene svolta sulla piattaforma di elaborazione, senza inviare o memorizzare alcun dato, nel pieno rispetto della privacy dellʼutente. Le principali attività che hanno portato alla realizzazione del prototipo sono state le seguenti: • definizione requisiti utente: raccolta dei bisogni e dei desideri dell’utente, raccolta informazioni relative alla domotizzazione già esistente, raccolta delle informazioni logistiche per la progettazione generale del sistema; • analisi della scena acustica: misurazione delle risposte all’impulso dei vari ambienti dell’abitazione, registrazione del rumore di fondo dei vari ambienti, raccolta di qualsiasi informazione, a livello acustico, utile alla progettazione del sistema; • scelta ed installazione della componentistica hardware necessaria: scelte relative alla tipologia e disposizione di microfoni, scheda audio, computer e piccoli altoparlanti da incasso; • progettazione e sviluppo dell’architettura del sistema: modulo di acquisizione del segnale audio multi-microfonico, modulo di Voice Activity Detection, modulo di riconoscimento vocale, modulo di interfaccia con la centralina domotica dell’appartamento; • creazione, tramite tecniche di contaminazione, di modelli acustici del riconoscitore vocale adatti al riconoscimento vocale a distanza; • adattamento dei modelli acustici alla voce del parlatore, unico utente del sistema; • creazione e progressivo miglioramento delle grammatiche contenenti i comandi vocali specifici di ogni ambiente; • ottimizzazione congiunta delle varie componenti del sistema al fine di minimizzare il numero degli errori di riconoscimento. Sono state effettuate numerose modifiche e ottimizzazioni mirate alla diminuzione progressiva sia dei mancati rilevamenti che dei falsi allarmi. I mancati rilevamenti si verificano quando non viene notificato un comando che in realtà dovrebbe essere catturato. I falsi allarmi avvengono invece quando un contenuto audio qualsiasi viene erroneamente decodificato come un comando pur non essendolo. Tra le due tipologie di errori, la condizione più stringente è quella relativa ai falsi allarmi: si vuole ridurre il più possibile il loro numero per evitare che si manifestino spiacevoli situazioni, come ad esempio lʼapertura non voluta di porte e finestre. Nel complesso i risultati in termini di falsi allarmi appaiono soddisfacenti, facendo registrare, in media sui 4 quattro riconoscitori vocali attivi in parallelo, 1 falsa attivazione ogni circa 10 giorni di flusso audio ininterrotto.
Interazione vocale a distanza in ambiente domestico
Sosi, Alessandro;Ravanelli, Mirco;Matassoni, Marco;Cristoforetti, Luca;Omologo, Maurizio;
2014-01-01
Abstract
L’interazione vocale con microfoni a distanza (Distant Speech Recognition) costituisce un passo importante verso lo sviluppo di interfacce vocali sempre più user-friendly e consente una vasta gamma di implementazioni in contesti dove è preferibile o necessario operare in modalità “hands-free”. Tuttavia, l’attuale stato dell’arte di questa tecnologia non offre ancora garanzie di prestazioni elevate, in particolare in ambienti rumorosi e riverberanti. Uno scenario applicativo particolarmente interessante e sfidante è rappresentato dall’interazione vocale a distanza in ambito domotico. In questo lavoro viene descritta un’attività svolta nell’ambito del progetto DOMHOS (DOMotic and HOSpital speech interaction) e avente lo scopo di effettuare un’azione di trasferimento tecnologico per le tecniche e le componenti software maggiormente consolidate. Il progetto si propone di introdurre un sistema di interazione vocale in ambiente domestico, atto al controllo di vari dispositivi della casa e rivolto principalmente ad utenti affetti da disabilità motoria. E’ stato progettato e realizzato un prototipo funzionante di appartamento domotico controllabile attraverso la voce e dotato delle seguenti caratteristiche: • lʼinterazione avviene a distanza dai microfoni; • il sistema è sempre in ascolto, pronto a rilevare dei comandi vocali; • il sistema funziona in tempo reale; • tutta lʼelaborazione viene svolta sulla piattaforma di elaborazione, senza inviare o memorizzare alcun dato, nel pieno rispetto della privacy dellʼutente. Le principali attività che hanno portato alla realizzazione del prototipo sono state le seguenti: • definizione requisiti utente: raccolta dei bisogni e dei desideri dell’utente, raccolta informazioni relative alla domotizzazione già esistente, raccolta delle informazioni logistiche per la progettazione generale del sistema; • analisi della scena acustica: misurazione delle risposte all’impulso dei vari ambienti dell’abitazione, registrazione del rumore di fondo dei vari ambienti, raccolta di qualsiasi informazione, a livello acustico, utile alla progettazione del sistema; • scelta ed installazione della componentistica hardware necessaria: scelte relative alla tipologia e disposizione di microfoni, scheda audio, computer e piccoli altoparlanti da incasso; • progettazione e sviluppo dell’architettura del sistema: modulo di acquisizione del segnale audio multi-microfonico, modulo di Voice Activity Detection, modulo di riconoscimento vocale, modulo di interfaccia con la centralina domotica dell’appartamento; • creazione, tramite tecniche di contaminazione, di modelli acustici del riconoscitore vocale adatti al riconoscimento vocale a distanza; • adattamento dei modelli acustici alla voce del parlatore, unico utente del sistema; • creazione e progressivo miglioramento delle grammatiche contenenti i comandi vocali specifici di ogni ambiente; • ottimizzazione congiunta delle varie componenti del sistema al fine di minimizzare il numero degli errori di riconoscimento. Sono state effettuate numerose modifiche e ottimizzazioni mirate alla diminuzione progressiva sia dei mancati rilevamenti che dei falsi allarmi. I mancati rilevamenti si verificano quando non viene notificato un comando che in realtà dovrebbe essere catturato. I falsi allarmi avvengono invece quando un contenuto audio qualsiasi viene erroneamente decodificato come un comando pur non essendolo. Tra le due tipologie di errori, la condizione più stringente è quella relativa ai falsi allarmi: si vuole ridurre il più possibile il loro numero per evitare che si manifestino spiacevoli situazioni, come ad esempio lʼapertura non voluta di porte e finestre. Nel complesso i risultati in termini di falsi allarmi appaiono soddisfacenti, facendo registrare, in media sui 4 quattro riconoscitori vocali attivi in parallelo, 1 falsa attivazione ogni circa 10 giorni di flusso audio ininterrotto.I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.