≡ Biometrie - Biometrics - [these] Reconnaissance du locuteur en milieu bruité, Université d'Avignon

[these] Reconnaissance du locuteur en milieu bruité, Université d'Avignon

Nous disposons d'une possibilité de bourse ministrielle pour une thèse dans le domaine de la reconnaissance du locuteur en mileu bruité.

Les personnes intéressées doivent m'envoyer leur CV le plus rapidement possible.

Nous avons atteint ces dernières années de très bonnes performances en reconnaissance du locuteur. Et ce, malgré la présence de la variabilité session. En effet, le variabilité session est prise en compte lors du scoring en utilisant une matrice de covariance modélisant cette dernière. Ce processus est effectué dans l'espace des i-vectors [1]. Le concept des i-vectors est devenu un standard en reconnaissance du locuteur.

Dans la dernière évaluation internationale NIST 2012, nous avons été confrontés à une nouvelle difficulté qui est le bruit additif [2], c'est à dire le bruit ambiant. La recherche pour réduire l'impact du bruit dans les systèmes de reconnaissance du locuteur est motivée en grande partie par le besoin d'appliquer les technologies de reconnaissance du locuteur sur des appareils portables ou sur l'Internet. Alors que les technologie promet un niveau supplémentaire de sécurité biométrique pour protéger l'utilisateur, la mise en œuvre pratique de ces systèmes doit faire face à de nombreux défis. Un des plus importants défis à surmonter est le bruit environnemental. En raison de la mobilité de ces systèmes, les sources de bruit peuvent être très variables dans le temps et potentiellement inconnus.

Nous proposons de travailler dans ce cadre : proposer des stratégies permettant de compenser l'effet du bruit additif, ces stratégies peuvent intervenir à différents niveaux du processus de reconnaissance: au niveau du signal, au niveau des modèles acoustiques, au niveau des i-vectors et au niveau du scoring....) .

- Débruitage des signaux

- Effet du bruit sur la VAD (Voice activity detection)

- Bruitage des modèles

- Intégration des caractéristiques statistiques du bruit dans la phase du scoring

Dans une deuxième partie du travail, nous proposons de nous mettre dans les meilleures conditions pour que le système soit le plus robuste au bruit. Par exemple, le choix de l'énoncé à prononcer par le locuteur peut avoir de l'influence sur les performances du système [3]. Faut a t-il avoir avoir le même énoncé pour tous les locuteurs, ou au contraire chaque locuteur se distingue des autres locuteur sur un ensemble bien précis d'unités acoustiques. Dans ce dernier cas, il faut trouver une stratégie, qui permet de déterminer l'ensemble des unités acoustiques qui différencient le plus possible un locuteur (des autres locuteurs).
D'autres stratégies de robustesse au bruit doivent être proposées et étudiées dans le cadre de cette thèse. Une des pistes à explorer est l'utilisation de la théorie des caractéristiques manquantes (missing-feature theory), qui a été utilisée dans le domaine du traitement de la parole [4][5][6].

Les systèmes de reconnaissance du locuteur de l'état de l'art sont fondamentalement basés sur l'utilisation de l'UBM (Universal Backgroud Model), il s'agit d'un modèle trop simple pour le traitement et la modélisation de la parole. Dans le cas de la reconnaissance en milieu bruité, la tâche devient plus complexe, il est donc légitime de se reposer la question sur l'adéquation de ce modèle pour cette tâche. Nous proposons d'adapter une approche utilisant des HMM (ou autre modèle) à cette tâche tout en profitant des avancées récemment proposées ( Factor analysis, I-vectors, …).

*[1] Bousquet Pierre-Michel, Matrouf Driss and Bonastre Jean-François, «*Intersession compensation and scoring methods in the i-vectors space for speaker recognition/ » /Interspeech 2011, Florence.

[2]*Miranti Indar Mandasari, Mitchell McLaren and David A. van Leeuwen,* « The Effect of noise on modern automatic speaker recognition systems » , ICASSP 2012.

*[3] *Anthony Larcher
http://www.informatik.uni-trier.de/%7Eley/pers/hd/l/Larcher:Anthony.html *,
*Pierre-Michel Bousquet
http://www.informatik.uni-trier.de/%7Eley/pers/hd/b/Bousquet:Pierre=Michel.html *,
*Kong-Aik Lee
http://www.informatik.uni-trier.de/%7Eley/pers/hd/l/Lee:Kong=Aik.html *, Driss Matrouf, *Haizhou Li http://www.informatik.uni-trier.de/%7Eley/pers/hd/l/Li:Haizhou.html *,
*Jean-François Bonastre
http://www.informatik.uni-trier.de/%7Eley/pers/hd/b/Bonastre:Jean=Fran=ccedil=ois.html *,*« I-vectors in the context of phonetically-constrained short utterances for speaker verification. » ICASSP 2012
http://www.informatik.uni-trier.de/%7Eley/db/conf/icassp/icassp2012.html#LarcherBLMLB12 :
4773-4776.

[4] *M.P. Cooke, P.G. Green, L. Josifovski, and A. Vizinho,* « Robust ASR with

unreliable data and minimal assumptions, » in Proc., Robust’99, 1999

[5] *M.P. Cooke, P.G. Green, L. Josifovski, and A. Vizinho,* « Robust AutomaticSpeech Recognition with missing and unreliable acoustic data, » Speech Communication,, 2000.

[6] *B. Raj, M.L. Seltzer, and R.M. Stern,* « Reconstruction of missing features forrobust speech recognition, » Speech Communication, 2004.
*[1] Bousquet Pierre-Michel, Matrouf Driss and Bonastre Jean-François, «*Intersession compensation and scoring methods in the i-vectors space for speaker recognition/ » /Interspeech 2011, Florence.

--
Driss MATROUF
Maître de Conférences de l'Université d'Avignon

------
Message redirigé par le relais d'information sur les sciences de la cognition (RISC) sans virus
http://www.risc.cnrs.fr.