Speech separation for speech recognition

A. DE CHEVEIGNÉ; H. KAWAHARA; K. AIKAWA; A. LEA

doi:doi:10.1051/jp4:19945117

Numéro		J. Phys. IV France Volume 04, Numéro C5, Mai 1994 3ème Congrés français d'acoustique 3rd French conference on acoustics


Page(s)		C5-545 - C5-548
DOI		https://doi.org/10.1051/jp4:19945117

3ème Congrés français d'acoustique
3rd French conference on acoustics

J. Phys. IV France 04 (1994) C5-545-C5-548
DOI: 10.1051/jp4:19945117

Speech separation for speech recognition

A. DE CHEVEIGNÉ¹, H. KAWAHARA², K. AIKAWA² and A. LEA²

¹ Laboratoire de Linguistique Formelle, CNRS, Université Paris 7, Case 7003, 2 place Jussieu, 75251 Paris cedex 05, France
² ATR Human Information Processing Laboratories, 2-2 Hikaridai, Seika-cho Soraku-gun, Kyoto 619-02, Japan

Résumé
Divers modèles de séparation de voix parasites sont implémentés à l'entrée d'un système de reconnaissance de la parole. L'objectif est d'estimer, au travers des taux de reconnaissance, l'efficacité des principes de traitement. Un premier modèle utilise l'annulation harmonique des voix parasites dans le domaine temporel. Nous analysons les limites de son efficacité, et étudions les moyens de dépasser ces limites. Un deuxième modèle utilise le renforcement harmonique de la voix cible. Ce deuxième modèle se révèle moins efficace, du fait de la nature non stationnaire de la parole. Ce résultat apporte un élément de réponse à une question explorée dans un autre article présenté à ce congrès : le système auditif utilise-t-il le renforcement harmonique, l'annulation harmonique, ou les deux, pour séparer des voix simultanées ?