A comparison of read and spontaneous children`s speech recognition

Gerosa, Matteo; Giuliani, Diego

In this paper, we present a series of phone and word recognition experiments carried out on read and spontaneous speech collected from children. A recognition system was developed exploiting clean read speech, collected from children aged 7-13, and written text. Word recognition experiments were carried out exploiting 4-gram language models with recognition vocabulary of different sizes: 10k, 64k and 1210k words. Phone recognition experiments were carried out by exploiting several n-gram phone language models: 7-gram, 5-gram, 3-gram, 2-gram and phone-loop LMs. Experiments show that very high recognition performance can be achieved on clean read children`s speech (e.g. 6.9% phone error rare). However, performance drops drastically when the system is applied to spontaneous speech collected from children (e.g. 27.2% phone error rate).