|
Reconnaissance vocale
Menu des autres pages [ Présentation ] [ Abréviations ] [ Bibliographie ]
L'identification de la voix est considérée par les utilisateurs comme une des formes les plus normales de la technologie biométrique, car elle n'est pas intrusive et n'exige aucun contact physique avec le lecteur du système.
La technologie d’analyse de la voix (aussi appelée analyse du locuteur) s’applique avec succès là où les autres technologies sont difficiles à employer. Elle est utilisée dans des secteurs comme les centres d’appel, les opérations bancaires, l’accès à des comptes, sur PC domestiques, pour l’accès à un réseau ou encore pour des applications judiciaires.
Il est important de ne pas confondre analyse du locuteur et dictée vocale. Dans un cas on cherche à déterminer l’identité d’un individu grâce à sa voix ; dans l’autre on cherche à déterminer ce que dit la personne sans se soucier de son identité.
Les systèmes d'identification de la voix se concentrent sur les seules caractéristiques de voix qui sont uniques à la configuration de la parole d'un individu. Ces configurations de la parole sont constituées par une combinaison des facteurs comportementaux et physiologiques.
Les imitateurs essayent habituellement de reproduire les caractéristiques vocales qui sont les plus évidentes au système auditif humain et ne recréent pas les caractéristiques moins accessibles qu'un système automatisé d'identification de voix analyse. Il n'est donc pas possible d'imiter la voix d'une personne inscrite dans la base de données.
La variabilité d’une personne à une autre démontre les différences du signal de parole en fonction du locuteur. Cette variabilité, utile pour différencier les locuteurs, est également mélangée à d’autres types de variabilité - variabilité due au contenu linguistique, variabilité intra-locuteur (qui fait que la voix dépend aussi de l’état physique et émotionnel d’un individu), variabilité due aux conditions d’enregistrement du signal de parole (bruit ambiant, microphone utilisé, lignes de transmission) - qui peuvent rendre l’identification du locuteur plus difficile.
Malgré toutes ces difficultés apparentes, la voix reste un moyen biométrique intéressant à exploiter car pratique et disponible via le réseau téléphonique, contrairement à ses concurrents.
L’Authentification Automatique du Locuteur (AAL)
Il s’agit de reconnaître automatiquement l’identité d’une personne prononçant une ou plusieurs phrases, comme un auditeur humain identifie son interlocuteur au cours d’une conversation. Nous distinguerons :
La difficulté de la tâche d’authentification n’est pas la même d’une application à une autre. Dans le cas des applications « sur site », l’environnement de prononciation de la phrase ou du mot de passe est plus facilement contrôlé que dans le cas des applications via le réseau téléphonique (distorsions dues au canal, différences entre les combinés téléphoniques, bande passante limitée). Les applications judiciaires présentent quant à elles des difficultés d’un autre ordre (locuteurs non-coopératifs, enregistrements de mauvaise qualité).
Capture de la voix
En effet, cette qualité dépend de la variabilité de la voix du locuteur dans le temps comme dans le cas de maladie (un rhume), des états émotionnels (l’angoisse ou la joie) et de l’âge.
De plus, les conditions d’acquisition de la voix tels que le bruit et la réverbération, ainsi que la fidélité des équipements tel que le microphone jouent très fortement sur la qualité de la capture, et donc sur la qualité des résultats.
Pour pouvoir être traité numériquement, le signal sonore est numérisé sur 8 ou 16 bits à une fréquence d’échantillonnage qui varie entre 8 kHz et 48 kHz.
Traitement numérique de la voix
Bien que des systèmes performants de reconnaissance soient aujourd’hui disponibles sur le marché, l’identification du locuteur est encore un domaine de recherche très actif. Il est donc difficile de faire un portrait précis des méthodes utilisées. Nous pouvons néanmoins décrire un système standard de la façon suivante :
Dépendance et Indépendance au texte
La distinction est faite entre les systèmes dépendants et indépendants du texte. En mode dépendant du texte, le texte prononcé par le locuteur (pour être reconnu du système) est le même que celui qu’il a prononcé lors de l’apprentissage de sa voix. En mode indépendant du texte, le locuteur peut prononcer n’importe quelle phrase pour être reconnu.
Néanmoins, il existe plusieurs niveaux de dépendance au texte suivant les applications (listés selon le degré croissant de dépendance au texte) [Bimbot, 93] [Bimbot, 94] :
Les systèmes dépendants du texte donnent généralement de meilleures performances d’authentification que les systèmes indépendants du texte car la variabilité due au contenu linguistique de la phrase prononcée est alors neutralisée.
Evaluation des performances en AAL
Les performances d’identification du locuteur en ensemble fermé sont données par le taux d’erreur d’identification (pourcentage des cas où le système ne reconnaît pas le bon locuteur.
Dans le cas d’un système de vérification du locuteur, on distingue le taux de fausse acceptation (pourcentage des cas où le système accepte le locuteur alors que celui-ci n’est pas la personne qu’il prétend être) ; et le taux de faux rejet(situation où le système rejette le locuteur alors qu’il est vraiment la personne qu’il prétend être).
L’évaluation des performances d’un système d’AAL n’est cependant pas un problème commun et on ne peut comparer deux systèmes à partir de ces seuls taux d’erreur qui dépendent de multiples facteurs. Ainsi, les éléments suivants doivent également être pris en compte :
Les problèmes d’évaluation sont largement discutés dans le cadre du projet européen EAGLES [Chollet, 97] qui a pour but d’uniformiser les procédures d’évaluation. Des campagnes d’évaluation en AAL ont également été lancées (campagnes NIST (National Institute of Standards and Technology) ) pour comparer les performances des systèmes sur une même base de données ("bench-mark programmes") et dans des conditions identiques pour tous. On trouvera aussi un bon exemple sur le problème de l’évaluation des performances dans [Oglesby, 95].
Systèmes d’AAL
Dans cette section, sont présentés la structure générale et les différents modules d’un système d’AAL. Une revue critique des méthodes existantes est ensuite proposée en soulignant les atouts et défauts respectifs de chaque méthode. A ce propos, il est à noter que le taux d’erreur d’identification (ou les taux d’acceptation / faux rejet) d’un système d’AAL n’est pas le seul critère de sa qualité. Sont à ajouter :
Structure d’un système d’AAL
La tâche d’authentification automatique du locuteur peut se subdiviser en trois étapes :
Un premier module de traitement du signal réalise l’analyse acoustique du signal de parole. A l’issue de cette étape, le signal est représenté par des vecteurs de coefficients, ce qui permet de réduire l’information en quantité et en redondance. Ces vecteurs sont éventuellement représentés par un modèle mathématique ; on parle alors de méthodes paramétriques. Dans la phase de classification, les vecteurs du signal de test (ou leur modèle) sont comparés aux vecteurs des locuteurs de référence (ou à leurs modèles). La phase de décision désigne le locuteur finalement reconnu.
Schéma modulaire d’un système d’identification du locuteur en ensemble fermé [Besacier, 98, page 9]
Les différents systèmes d’AAL existants se distinguent, d’une part suivant les paramètres qu’ils utilisent, et d’autre part suivant les différents classificateurs qui prennent la décision finale.
La paramétrisation
Dans son article sur le choix de paramètres efficients pour l’authentification du locuteur, [Wolf, 72] décrit les attributs nécessaires des « bons paramètres » pour l’AAL. Idéalement, les paramètres (ou traits acoustiques) doivent :
En pratique, il est très difficile de réunir tous ces attributs en même temps. La sélection de traits acoustiques pertinents pour l’AAL est donc un sujet largement traité : sélection de paramètres séparant les locuteurs en terme de F-ratio (ou ses variantes) [Sambur, 75] [Bonastre, 92] ; sélection par programmation dynamique [Cheung, 78] ; sélection suivant les taux d’identification [Atal, 74]. Finalement, il ressort que les seuls types de paramètres vraiment pertinents et utilisables efficacement sont les paramètres de l’analyse spectrale et éventuellement les paramètres prosodiques. Nous pouvons noter qu’ils sont respectivement corrélés à la forme du conduit vocal et à la source de l’appareil de production de la parole.
Paramètres de l’analyse spectraleLes principaux paramètres de l’analyse spectrale utilisés en AAL sont les coefficients de prédiction linéaire et leurs différentes transformations (LPC (Linear Predictive Coefficients), LPCC (Linear Predictive Cepstral Coefficients), ...), ainsi que les coefficients issus de l’analyse en banc de filtres et leurs différentes transformations (coefficients banc de filtres, MFCC (Mel Frequency Cepstral Coefficients), ...).
Pour les coefficients de prédiction linéaire, on se référera par exemple aux thèses de [Grenier, 77] et [Homayounpour, 95]. Les articles suivants proposent quand à eux une bonne synthèse sur le choix de paramètres spectraux : [Reynolds, 94a] [Homayounpour, 94] [Ong, 94] [Charlet, 97]. Sans oublier l’utilisation des versions numériques : la TDF (Transformée Discrète de Fourier), un algorithme de calcul rapide : FFT (Fast Fourier Transform). Toutefois, la TDF ne peut opérer sur des séquences trop courtes de signal [Haton, 91].
Paramètres prosodiquesLe terme "paramètres prosodiques" réunit l’énergie, la durée [Van den Heuvel, 94] et la fréquence fondamentale (ou pitch) [Atal, 72]. Ces paramètres s’avèrent cependant fragiles en pratique et ne permettent pas, à eux seuls, de discriminer les locuteurs. En conséquence, ils sont souvent associés aux paramètres de l’analyse spectrale (surtout l’énergie). C’est aussi le cas pour la durée dans [Forsyth, 93] et pour la fréquence fondamentale dans [Matsui, 90] et [Dubreucq, 94].
Paramètres exploitant la dynamique du signal de paroleLa prise en compte d’une information de type dynamique peut être un facteur d’amélioration des performances d’identification du locuteur.
Nouvelles paramétrisationsAujourd’hui, les paramètres utilisés sont pratiquement les mêmes pour la plupart des systèmes d’AAL. Il existe cependant quelques exceptions comme [Thevenaz, 95] et [Hayakawa, 97] qui proposent d’utiliser le résidu de l’analyse par prédiction linéaire, combiné avec les coefficients LPC. [Wenndt, 97] utilise des paramètres issus d’un bi-spectre (statistiques d’ordre supérieur), plus robustes aux dégradations en milieu bruité. Enfin, AEGIR SYSTEMS qui a participé à la campagne d’évaluation NIST 97 [Nist, 97], utilise des coefficients issus d’une transformée en paquets d’ondelettes. La transformée en ondelettes ainsi que les autres transformées permettant une analyse multi-résolution du signal [Cohen, 95] sont très peu utilisées en traitement de la parole, malgré leur présence dans de nombreux autres domaines. On trouvera cependant quelques références sur le sujet dans [Navarro-Mesa, 92] [Wassner, 96] et [Bernstein, 97].
La classification
Cette étape consiste à comparer les vecteurs du signal du locuteur testé aux vecteurs des locuteurs de référence de la base de données. Il existe différentes techniques de classification utilisées lors de l’identification du locuteur indépendante du texte ; quelques-unes vous sont présentées ci-après :
Méthodes algébriques
Méthodes connexionnistesL’utilisation des réseaux de neurones en AAL est relativement récente [Oglesby, 90] [Bennani, 90]. On trouvera cependant un bon exemple sur le sujet dans [Bennani, 95].
Modélisation multi-classes
La seconde possibilité consiste à utiliser des modèles probabilistes. [Poritz, 82] propose un HMM à 5 états pour classer les vecteurs de paramètres du signal d’un locuteur en 5 catégories correspondant chacune à un état du HMM. [Tishby, 91] propose une extension de ces modèles en décrivant un état comme une combinaison linéaire (mixture) de gaussiennes. Cependant, une expérience de [Matsui, 92] comparant les approches VQ aux HMM en mode indépendant du texte n’a pas montré une différence de performance significative entre les deux techniques. Ces modèles à base de mixtures de gaussiennes (GMM (Gaussian Mixture Model) ) sont désormais largement utilisés en AAL [Reynolds, 94b] [Gish, 94] [Reynolds, 95] [Markov, 96] [Lamel, 97] [Schmidt, 97] et fournissent les meilleurs résultats actuels. Les GMM semblent également être un peu plus robustes quand les environnements d’apprentissage et de tests diffèrent [Van Vuuren, 96].
Un point sur les performances actuelles
L’institut américain NIST organise chaque année une campagne d’évaluation des systèmes d’identification du locuteur. En 1997, la campagne portait sur la tâche de vérification du locuteur indépendante du texte [Nist, 97]. Neuf compétiteurs ont participé à cette campagne : Aegir, BBN, Dragon, ENST, IDIAP, ITT, MIT, OGI et SRI. Le classement final s’est fait sur :
Les performances sont évaluées séparément pour les portions de test utilisant un combiné téléphonique déjà présent dans la base d’apprentissage et pour les portions de test utilisant un combiné inconnu de la base d’apprentissage. Le score, qui permet le classement final des systèmes, est donné par une fonction de coût égale à la somme pondérée des probabilités de faux rejet et de fausse acceptation. Sur cette évaluation, huit laboratoires ont été classés [Besacier, 98].
Classement final de la campagne d’évaluation NIST 97. [Besacier, 98, page 18]
Il en ressort que la méthode de classification GMM est la plus performante.
La décision
La phase de décision désigne le locuteur finalement reconnu. Le procédé de cette phase dépendra fortement de la phase de classification choisie. Dans cette phase de décision, le locuteur sera accepté, reconnu ou rejeté suivant un seuil de décision, car on ne pourra jamais avoir 100% de similitude entre le signal du locuteur testé et le signal des locuteurs de la base de référence.
Problèmes et limites des systèmes actuels
Dans un tutorial sur les avancées récentes en authentification du locuteur, [Furui, 97a] propose 16 questions ouvertes concernant les interrogations et les problèmes restés sans solution à ce jour. De nombreux problèmes sont liés à la variabilité : variabilité due au locuteur et variabilité due aux conditions d’enregistrement.
Variabilité due au locuteur
Une dégradation croissante des performances a été observée au fur et à mesure que le temps qui sépare la session d’apprentissage de la session de test augmente [Furui, 72] [Furui, 74] [Rosenberg, 76]. De plus, le comportement des locuteurs se modifie lorsque ceux-ci s’habituent au système. Les modèles des locuteurs doivent donc être régulièrement mis à jour avec les nouvelles données d’exploitation du système [Setlur, 95]. Les altérations de la voix dues à l’état physique (fatigue, rhume) ou émotionnel (stress) mettent aussi en échec l’efficacité des systèmes [Homayounpour, 94].
Variabilité due aux conditions d’enregistrement et de transmission
La parole téléphonique est sujette à des dégradations parmi lesquelles on peut citer la limitation de la bande utile et les distorsions dues au combiné ou au canal de transmission [Reynolds, 92].
Une diminution des performances pour de la parole téléphonique est systématiquement observée [Hunt, 83] [Gish, 85] [Gish, 86]. [Reynolds, 94b] observe une dégradation des performances d’identification qui passent de 99.7 % sur TIMIT (Texas Instruments Massachusetts Institute of Technology) à 76.2 % sur NTIMIT (Network TIMIT) pour 168 locuteurs. Plus récemment, [Van Vuuren, 96] a fait le point sur les problèmes dus aux différences entre les environnements téléphoniques. Ainsi, dans le cas où les données d’apprentissage et les données de test ne viennent pas du même environnement téléphonique, la dégradation des performances d’identification du locuteur est très importante. [Reynolds, 96] a montré que la plus grande part de ces dégradations est due aux différences de combinés téléphoniques entre l’apprentissage et le test. Une détection préalable du combiné téléphonique semble donc nécessaire. Ce point précis était d’ailleurs l’un des enjeux essentiels lors de la campagne d’évaluation NIST 97.
Autres problèmes
Récemment, [Kuitert, 97] a étudié l’effet du codage de la parole utilisé dans le réseau téléphonique mobile GSM sur les performances de vérification du locuteur.
Peu d’articles traitent du problème de la robustesse des systèmes confrontés à de la parole enregistrée dans un environnement bruité. La robustesse au bruit ambiant est pourtant une condition nécessaire au succès des systèmes d’AAL dans des applications en conditions réelles.
Enfin, une autre condition est la robustesse vis à vis des imitateurs occasionnels ou professionnels [Homayounpour, 94]
Quelques solutions aux problèmes de robustesse
Nous avons vu dans la section précédente que la plupart des problèmes rencontrés en AAL sont dus à une inégalité entre les conditions d’apprentissage et les conditions de test : variabilité due au locuteur, au canal de transmission ou aux conditions d’enregistrement.
Les méthodes traitant de la réduction des écarts dus aux variations du signal de parole peuvent être regroupées en deux niveaux [Furui, 97b] :
Paramétrisations robustes
Le problème de la robustesse des paramètres pour l’AAL a notamment été abordé par [Assaleh, 94] [Naik, 94a] et [Reynolds, 94a]. Les paramètres peuvent également être retraités après l’analyse acoustique : égalisation de canal [Furui, 81] [Wang, 93], filtrage RASTA (RelAtive SpecTraAl) [Hermansky, 94] [Hermansky, 97], masquage du bruit par addition d’un offset aux paramètres spectraux [Openshaw, 94]. Le défaut de l’égalisation de canal est qu’elle supprime en même temps une partie de l’information spécifique du locuteur [Furui, 97a].
Ré-estimation ou adaptation des modèles
Comme la voix des locuteurs évolue au cours du temps, il est nécessaire de mettre à jour les modèles des locuteurs pour éviter leur vieillissement. Pour des raisons pratiques, les modèles doivent être mis à jour en utilisant les données d’exploitation. On peut soit ré-estimer les modèles des locuteurs en utilisant les données d’apprentissage initiales et les nouvelles données d’exploitation, soit adapter le modèle initial du locuteur avec les données d’exploitation. Cette deuxième alternative ne nécessite aucun stockage des données de sessions précédentes puisque l’adaptation se fait ‘en ligne’ [Matsui, 96].
L’adaptation des modèles est également nécessaire sur de la parole téléphonique pour prendre en compte les différentes conditions d’appel (combiné, canal, ...). Une première solution consiste à créer le modèle d’un locuteur à partir de différents environnements d’appel [Gauvain, 95]. [Heck, 97] propose quant à lui d’entraîner différents modèles dépendants du combiné téléphonique pour normaliser le score d’un locuteur.
Modèles parallèles
Récemment, de nouvelles techniques sont apparues en vue d’augmenter la robustesse des systèmes d’authentification : leur caractéristique commune est l’utilisation de plusieurs re-connaisseurs (travaillant en parallèle) qui sont re-combinés pour prendre une décision finale [Besacier, 98].
ConclusionLa somme des applications ne cesse de s’agrandir chaque jour. Cette technologie est souvent employée dans des environnements où la voix est déjà capturée, comme les centres d’appel et la téléphonie où elle est le moyen biométrique le plus simple et pratique à utiliser.
Autre document
These de Yassine MAMI sur la Reconnaisance de locuteurs par localisation dans un espace de locuteurs de référence - Ecole Nationale Supérrieur des télécommunications, octobre 2003, 155 pages, 989 ko - These_Yassine_MAMI_ENST2004.pdf
Menu des autres pages [ Présentation ] [ Abréviations ] [ Bibliographie ]Cette page a été réalisée avec la participation de Gilles PFOTZER Ingénieur informatique - C.N.A.M http://www.chez.com/gipp/oraux/aal/ |
Technologies 


Syndiquer le flux RSS
La plupart des systèmes d'identification de la voix utilisent l'affichage d'un texte, des mots spécifiques doivent être lus puis parlés afin de vérifier que la personne à authentifier est bien présente et qu'il ne s'agit pas d'un enregistrement.
En fonction de l’application envisagée, la qualité demandée par la capture de la parole peut rapidement devenir très importante.