Reconnaissance vocale

Menu des autres pages

[ Présentation ] [ Abréviations ] [ Bibliographie ]

L'identification de la voix est considérée par les utilisateurs comme une des formes les plus normales de la technologie biométrique, car elle n'est pas intrusive et n'exige aucun contact physique avec le lecteur du système.

La technologie d’analyse de la voix (aussi appelée analyse du locuteur) s’applique avec succès là où les autres technologies sont difficiles à employer. Elle est utilisée dans des secteurs comme les centres d’appel, les opérations bancaires, l’accès à des comptes, sur PC domestiques, pour l’accès à un réseau ou encore pour des applications judiciaires

Il est important de ne pas confondre analyse du locuteur et dictée vocale. Dans un cas on cherche à déterminer l’identité d’un individu grâce à sa voix ; dans l’autre on cherche à déterminer ce que dit la personne sans se soucier de son identité.

Reconnaissance de la voix La plupart des systèmes d'identification de la voix utilisent l'affichage d'un texte, des mots spécifiques doivent être lus puis parlés afin de vérifier que la personne à authentifier est bien présente et qu'il ne s'agit pas d'un enregistrement.

Les systèmes d'identification de la voix se concentrent sur les seules caractéristiques de voix qui sont uniques à la configuration de la parole d'un individu. Ces configurations de la parole sont constituées par une combinaison des facteurs comportementaux et physiologiques.

Les imitateurs essayent habituellement de reproduire les caractéristiques vocales qui sont les plus évidentes au système auditif humain et ne recréent pas les caractéristiques moins accessibles qu'un système automatisé d'identification de voix analyse. Il n'est donc pas possible d'imiter la voix d'une personne inscrite dans la base de données.

La variabilité d’une personne à une autre démontre les différences du signal de parole en fonction du locuteur. Cette variabilité, utile pour différencier les locuteurs, est également mélangée à d’autres types de variabilité - variabilité due au contenu linguistique, variabilité intra-locuteur (qui fait que la voix dépend aussi de l’état physique et émotionnel d’un individu), variabilité due aux conditions d’enregistrement du signal de parole (bruit ambiant, microphone utilisé, lignes de transmission) - qui peuvent rendre l’identification du locuteur plus difficile.

Malgré toutes ces difficultés apparentes, la voix reste un moyen biométrique intéressant à exploiter car pratique et disponible via le réseau téléphonique, contrairement à ses concurrents.

L’Authentification Automatique du Locuteur (AAL)

Il s’agit de reconnaître automatiquement l’identité d’une personne prononçant une ou plusieurs phrases, comme un auditeur humain identifie son interlocuteur au cours d’une conversation. Nous distinguerons :

les applications « sur site » : serrures vocales pour contrôle d’accès, cabines bancaires en libre service,
les applications liées aux télécommunications : ces applications concernent l’identification du locuteur à travers le réseau téléphonique pour accéder à un service de transactions bancaires à distance ou pour interroger des bases de données en accès privé,
les applications judiciaires : recherche de suspects, orientations d’enquêtes, preuves lors d’un jugement [Hollien, 90] [Künzel, 94].

La difficulté de la tâche d’authentification n’est pas la même d’une application à une autre. Dans le cas des applications « sur site », l’environnement de prononciation de la phrase ou du mot de passe est plus facilement contrôlé que dans le cas des applications via le réseau téléphonique (distorsions dues au canal, différences entre les combinés téléphoniques, bande passante limitée). Les applications judiciaires présentent quant à elles des difficultés d’un autre ordre (locuteurs non-coopératifs, enregistrements de mauvaise qualité).

Capture de la voix

Capture de la voix En fonction de l’application envisagée, la qualité demandée par la capture de la parole peut rapidement devenir très importante.

En effet, cette qualité dépend de la variabilité de la voix du locuteur dans le temps comme dans le cas de maladie (un rhume), des états émotionnels (l’angoisse ou la joie) et de l’âge.

De plus, les conditions d’acquisition de la voix tels que le bruit et la réverbération, ainsi que la fidélité des équipements tel que le microphone jouent très fortement sur la qualité de la capture, et donc sur la qualité des résultats.

Pour pouvoir être traité numériquement, le signal sonore est numérisé sur 8 ou 16 bits à une fréquence d’échantillonnage qui varie entre 8 kHz et 48 kHz.

Traitement numérique de la voix

Bien que des systèmes performants de reconnaissance soient aujourd’hui disponibles sur le marché, l’identification du locuteur est encore un domaine de recherche très actif. Il est donc difficile de faire un portrait précis des méthodes utilisées.

Nous pouvons néanmoins décrire un système standard de la façon suivante :

Le signal acoustique est, dans un premier temps, analysé afin d’en extraire des paramètres. Ces paramètres résultent, entre autres, d’une analyse spectrale du signal (coefficients de prédiction linéaires ou bancs de filtres).
Les paramètres servent ensuite à l’élaboration éventuelle d’un modèle et sont introduits dans un classifieur qui permettra de déterminer l’identité du locuteur. De nombreuses techniques sont utilisées pour réaliser ce classifieur. On peut citer entre autrew : les réseaux de neurones, les champs de markov cachés, les mélanges gaussiens, la quantification vectorielle, etc.

Dépendance et Indépendance au texte

La distinction est faite entre les systèmes dépendants et indépendants du texte. En mode dépendant du texte, le texte prononcé par le locuteur (pour être reconnu du système) est le même que celui qu’il a prononcé lors de l’apprentissage de sa voix. En mode indépendant du texte, le locuteur peut prononcer n’importe quelle phrase pour être reconnu.

Néanmoins, il existe plusieurs niveaux de dépendance au texte suivant les applications (listés selon le degré croissant de dépendance au texte) [Bimbot, 93] [Bimbot, 94] :

systèmes à texte libre (ou free-text) : le locuteur prononce ce qu’il veut,
systèmes à texte suggéré (ou text-prompted) : un texte, différent à chaque session et pour chaque personne, est imposé au locuteur et affiché à l’écran par la machine,
systèmes dépendants de traits phonétiques (ou speech event dependent) : certains traits phonétiques spécifiques sont imposés dans le texte que le locuteur doit prononcer,
systèmes dépendants du vocabulaire (ou vocabulary dependent) : le locuteur prononce une séquence de mots issus d’un vocabulaire limité (ex. : séquence de digits),
systèmes personnalisés dépendants du texte (ou user-specific text dependent) : chaque locuteur a son propre mot de passe.

Les systèmes dépendants du texte donnent généralement de meilleures performances d’authentification que les systèmes indépendants du texte car la variabilité due au contenu linguistique de la phrase prononcée est alors neutralisée.

Evaluation des performances en AAL

Les performances d’identification du locuteur en ensemble fermé sont données par le taux d’erreur d’identification (pourcentage des cas où le système ne reconnaît pas le bon locuteur.

Dans le cas d’un système de vérification du locuteur, on distingue le taux de fausse acceptation (pourcentage des cas où le système accepte le locuteur alors que celui-ci n’est pas la personne qu’il prétend être) ; et le taux de faux rejet(situation où le système rejette le locuteur alors qu’il est vraiment la personne qu’il prétend être).

L’évaluation des performances d’un système d’AAL n’est cependant pas un problème commun et on ne peut comparer deux systèmes à partir de ces seuls taux d’erreur qui dépendent de multiples facteurs. Ainsi, les éléments suivants doivent également être pris en compte :

qualité de la parole : enregistrements en studio ou via le canal téléphonique ; environnement calme ou bruyant ; type de réseau téléphonique,
quantité de parole : durée de parole pour l’apprentissage des références de chaque locuteur ; durée de parole des sessions de test,
variabilité intra-locuteur : la voix d’un locuteur dépend de son état physique et émotionnel ; de plus, le comportement d’un locuteur se modifie lorsque celui-ci s’habitue à un système,
population de la base de locuteurs : en identification du locuteur, la taille de la population a une influence directe sur les performances ; la qualité de la population (proportion hommes/femmes, bonne répartition géographique des locuteurs parlant une même langue) est également un facteur à intégrer,
intention des locuteurs : la distinction est faite entre les locuteurs coopératifs (qui veulent être reconnus par le système) et les locuteurs non-coopératifs qui modifient leur voix pour ne pas être reconnus (cas de certaines applications judiciaires par exemple). Enfin, certains locuteurs imitent la voix d’une autre personne pour être reconnus à sa place : ce sont des imposteurs. A ce propos, lors de l’évaluation d’un système, les imposteurs sont en général d’autres locuteurs de la base de référence ce qui n’est pas très réaliste. En effet, en pratique, un imposteur réel qui tentera d’imiter la voix du locuteur pour lequel il voudra être reconnu, n’existera pas forcément dans la base de référence.

Les problèmes d’évaluation sont largement discutés dans le cadre du projet européen EAGLES [Chollet, 97] qui a pour but d’uniformiser les procédures d’évaluation. Des campagnes d’évaluation en AAL ont également été lancées (campagnes NIST (National Institute of Standards and Technology) ) pour comparer les performances des systèmes sur une même base de données ("bench-mark programmes") et dans des conditions identiques pour tous. On trouvera aussi un bon exemple sur le problème de l’évaluation des performances dans [Oglesby, 95].

Systèmes d’AAL

Dans cette section, sont présentés la structure générale et les différents modules d’un système d’AAL. Une revue critique des méthodes existantes est ensuite proposée en soulignant les atouts et défauts respectifs de chaque méthode. A ce propos, il est à noter que le taux d’erreur d’identification (ou les taux d’acceptation / faux rejet) d’un système d’AAL n’est pas le seul critère de sa qualité. Sont à ajouter :

la rapidité de l’apprentissage des modèles et de la phase d’authentification,
la quantité de données nécessaire pour l’apprentissage des modèles de locuteurs,
la modularité, c’est-à-dire la possibilité d’ajouter ou de supprimer un locuteur de la base sans modifier complètement l’architecture du système [Artières, 95],
la robustesse aux variations intra-locuteurs ou aux conditions d’enregistrement.

Structure d’un système d’AAL

La tâche d’authentification automatique du locuteur peut se subdiviser en trois étapes :

la paramétrisation,
la classification,
la décision.

Un premier module de traitement du signal réalise l’analyse acoustique du signal de parole. A l’issue de cette étape, le signal est représenté par des vecteurs de coefficients, ce qui permet de réduire l’information en quantité et en redondance. Ces vecteurs sont éventuellement représentés par un modèle mathématique ; on parle alors de méthodes paramétriques. Dans la phase de classification, les vecteurs du signal de test (ou leur modèle) sont comparés aux vecteurs des locuteurs de référence (ou à leurs modèles). La phase de décision désigne le locuteur finalement reconnu.

Schéma modulaire d’un système d’identification du locuteur en ensemble fermé

[Besacier, 98, page 9]

Les différents systèmes d’AAL existants se distinguent, d’une part suivant les paramètres qu’ils utilisent, et d’autre part suivant les différents classificateurs qui prennent la décision finale.

La paramétrisation

Dans son article sur le choix de paramètres efficients pour l’authentification du locuteur, [Wolf, 72] décrit les attributs nécessaires des « bons paramètres » pour l’AAL. Idéalement, les paramètres (ou traits acoustiques) doivent :

être fréquents,
être facilement mesurables,
ne pas être trop sensibles à la variabilité intra-locuteur,
ne pas être affectés par le bruit ambiant ou les variations dues au canal de transmission,
* être robustes face aux imitateurs.

En pratique, il est très difficile de réunir tous ces attributs en même temps. La sélection de traits acoustiques pertinents pour l’AAL est donc un sujet largement traité : sélection de paramètres séparant les locuteurs en terme de F-ratio (ou ses variantes) [Sambur, 75] [Bonastre, 92] ; sélection par programmation dynamique [Cheung, 78] ; sélection suivant les taux d’identification [Atal, 74]. Finalement, il ressort que les seuls types de paramètres vraiment pertinents et utilisables efficacement sont les paramètres de l’analyse spectrale et éventuellement les paramètres prosodiques. Nous pouvons noter qu’ils sont respectivement corrélés à la forme du conduit vocal et à la source de l’appareil de production de la parole.

Paramètres de l’analyse spectrale

Les principaux paramètres de l’analyse spectrale utilisés en AAL sont les coefficients de prédiction linéaire et leurs différentes transformations (LPC (Linear Predictive Coefficients), LPCC (Linear Predictive Cepstral Coefficients), ...), ainsi que les coefficients issus de l’analyse en banc de filtres et leurs différentes transformations (coefficients banc de filtres, MFCC (Mel Frequency Cepstral Coefficients), ...).

Pour les coefficients de prédiction linéaire, on se référera par exemple aux thèses de [Grenier, 77] et [Homayounpour, 95]. Les articles suivants proposent quand à eux une bonne synthèse sur le choix de paramètres spectraux : [Reynolds, 94a] [Homayounpour, 94] [Ong, 94] [Charlet, 97]. Sans oublier l’utilisation des versions numériques : la TDF (Transformée Discrète de Fourier), un algorithme de calcul rapide : FFT (Fast Fourier Transform). Toutefois, la TDF ne peut opérer sur des séquences trop courtes de signal [Haton, 91].

Paramètres prosodiques

Le terme "paramètres prosodiques" réunit l’énergie, la durée [Van den Heuvel, 94] et la fréquence fondamentale (ou pitch) [Atal, 72]. Ces paramètres s’avèrent cependant fragiles en pratique et ne permettent pas, à eux seuls, de discriminer les locuteurs. En conséquence, ils sont souvent associés aux paramètres de l’analyse spectrale (surtout l’énergie). C’est aussi le cas pour la durée dans [Forsyth, 93] et pour la fréquence fondamentale dans [Matsui, 90] et [Dubreucq, 94]. Voir Résumé de l'article de Armel Sitou AFANOU

Paramètres exploitant la dynamique du signal de parole

La prise en compte d’une information de type dynamique peut être un facteur d’amélioration des performances d’identification du locuteur.

Nouvelles paramétrisations

Aujourd’hui, les paramètres utilisés sont pratiquement les mêmes pour la plupart des systèmes d’AAL. Il existe cependant quelques exceptions comme [Thevenaz, 95] et [Hayakawa, 97] qui proposent d’utiliser le résidu de l’analyse par prédiction linéaire, combiné avec les coefficients LPC. [Wenndt, 97] utilise des paramètres issus d’un bi-spectre (statistiques d’ordre supérieur), plus robustes aux dégradations en milieu bruité. Enfin, AEGIR SYSTEMS qui a participé à la campagne d’évaluation NIST 97 [Nist, 97], utilise des coefficients issus d’une transformée en paquets d’ondelettes. La transformée en ondelettes ainsi que les autres transformées permettant une analyse multi-résolution du signal [Cohen, 95] sont très peu utilisées en traitement de la parole, malgré leur présence dans de nombreux autres domaines. On trouvera cependant quelques références sur le sujet dans [Navarro-Mesa, 92] [Wassner, 96] et [Bernstein, 97].

La classification

Cette étape consiste à comparer les vecteurs du signal du locuteur testé aux vecteurs des locuteurs de référence de la base de données. Il existe différentes techniques de classification utilisées lors de l’identification du locuteur indépendante du texte ; quelques-unes vous sont présentées ci-après :

Méthodes algébriques

Spectres moyens :
[Pruzansky, 63] fut une des premières à utiliser les paramètres du spectre moyen à long terme pour l’AAL. Elle obtint un taux d’identification de 90 % sur une base de dix personnes.

Méthodes statistiques du second ordre :
Des mesures entre matrices de covariance ont été proposées par [Grenier, 77] et [Gish, 90]. Elles sont faciles à implémenter et donnent de très bons résultats [Gish, 94] [Bimbot, 95] avec des durées de test relativement courtes (moins de 3s).

Modèles Auto Régressif Vectoriels (MARV) :
Ces modèles ont pour vocation de prendre en compte la dynamique du signal de parole. On trouvera notamment l’application des MARV pour l’AAL dans [Montacié, 92a] et [Montacié, 92b]. Une étude sur le choix de l’ordre des modèles (i.e. le nombre de trames utilisées pour la prédiction) est proposée dans [Griffin, 94]. Cependant, un ordre élevé des modèles engendre une complexité de calcul difficile à contrôler.

Méthodes connexionnistes

L’utilisation des réseaux de neurones en AAL est relativement récente [Oglesby, 90] [Bennani, 90]. On trouvera cependant un bon exemple sur le sujet dans [Bennani, 95].

Réseaux de neurones et discrimination :
Les réseaux multicouches (MLP (Multi Layer Perceptron) ) utilisés au départ ont rapidement présenté des problèmes lors de l’apprentissage qui devient long et complexe quand le nombre de locuteurs est grand [Rudasi, 91]. Pour éviter ce problème, la tâche de classification est divisée en plusieurs sous-tâches de complexité moindre pour chaque paire de locuteurs. Un apprentissage plus rapide peut également être obtenu en remplaçant les réseaux multicouches par des réseaux RBF (Radial Basis Function) [Oglesby, 91] [Frederickson, 94] [Furlanello, 95]. Les réseaux TDNN (Time Delay Neural Networks) permettent quand à eux de prendre en compte l’information dynamique en réalisant la classification sur des segments de plusieurs trames concaténées [Bennani, 92]. Enfin, l’approche LVQ (Learning Vector Quantization) [Driancourt, 92] [Bennani, 95] est une méthode de type quantification vectorielle avec apprentissage discriminant des vecteurs de référence à l’aide d’un réseau de neurones.

Réseaux de neurones et modélisation :
Un défaut majeur des réseaux de neurones en classification est le problème de modularité [Artières, 95]. En effet, dans le cas d’un apprentissage discriminant, les modèles de tous les locuteurs doivent être re-appris quand une nouvelle personne est ajoutée dans la base. Les modèles prédictifs permettent de modéliser un locuteur indépendamment de tous les autres.

Modélisation multi-classes

Approches par segmentation explicite :
Dans cette approche, le signal de parole segmenté est utilisé pour entraîner des modèles de classes acoustiques dépendants du locuteur. Dans [Bonastre, 94a] et [Bonastre, 94b], un score d’authentification est calculé pour chaque phonème du signal de parole préalablement segmenté, puis ces scores sont combinés afin de prendre une décision finale. [Olsen, 97] propose un système de vérification du locuteur en deux phases : une première phase de Décodage Acoustico-Phonétique (DAP) utilisant des HMM (Hidden Markov Model), puis une phase d’authentification du locuteur basé sur des réseaux RBF dépendants des phonèmes. On trouve également ce type d’approche dans [Savic, 90] et [Matsui, 91] qui obtiennent de bonnes performances avec des durées de test courtes. Il est intéressant de noter qu’avec ces systèmes, les taux d’erreur sont pratiquement les mêmes en mode dépendant ou en mode indépendant du texte.

Approches par segmentation implicite :
Une première possibilité, introduite par [Soong, 85] consiste à regrouper les vecteurs acoustiques en classes. La méthode de quantification vectorielle (VQ (Vector Quantization) ) [Soong, 86] est la plus souvent utilisée. L’emploi de la quantification vectorielle en AAL est notamment proposé dans [Matsui, 91] [Matsui, 92] [He, 97]. Une prise en compte de la nature séquentielle des événements phonétiques, associée à la quantification vectorielle, a également été proposée par [Higgins, 86].

La seconde possibilité consiste à utiliser des modèles probabilistes. [Poritz, 82] propose un HMM à 5 états pour classer les vecteurs de paramètres du signal d’un locuteur en 5 catégories correspondant chacune à un état du HMM. [Tishby, 91] propose une extension de ces modèles en décrivant un état comme une combinaison linéaire (mixture) de gaussiennes. Cependant, une expérience de [Matsui, 92] comparant les approches VQ aux HMM en mode indépendant du texte n’a pas montré une différence de performance significative entre les deux techniques. Ces modèles à base de mixtures de gaussiennes (GMM (Gaussian Mixture Model) ) sont désormais largement utilisés en AAL [Reynolds, 94b] [Gish, 94] [Reynolds, 95] [Markov, 96] [Lamel, 97] [Schmidt, 97] et fournissent les meilleurs résultats actuels. Les GMM semblent également être un peu plus robustes quand les environnements d’apprentissage et de tests diffèrent [Van Vuuren, 96].

Un point sur les performances actuelles

L’institut américain NIST organise chaque année une campagne d’évaluation des systèmes d’identification du locuteur. En 1997, la campagne portait sur la tâche de vérification du locuteur indépendante du texte [Nist, 97]. Neuf compétiteurs ont participé à cette campagne : Aegir, BBN, Dragon, ENST, IDIAP, ITT, MIT, OGI et SRI. Le classement final s’est fait sur :

un apprentissage sur environ 1 minute de parole correspondant à un mélange de 2 conversations enregistrées sur 2 combinés téléphoniques différents,
une mesure de performances réalisée à partir d’un segment de test de 30 secondes environ.

Les performances sont évaluées séparément pour les portions de test utilisant un combiné téléphonique déjà présent dans la base d’apprentissage et pour les portions de test utilisant un combiné inconnu de la base d’apprentissage. Le score, qui permet le classement final des systèmes, est donné par une fonction de coût égale à la somme pondérée des probabilités de faux rejet et de fausse acceptation. Sur cette évaluation, huit laboratoires ont été classés [Besacier, 98].

Classement final de la campagne d’évaluation NIST 97. [Besacier, 98, page 18]

Laboratoire	Dragon 2	MIT1	BBN1	Dragon 1	OGI	ITT	IDIAP-ENST	SRI
Classement	1	2	3	4	5	6	7	8
Méthode	GMM	GMM	GMM	LVCSR	GMM	VQ	Hybrid HMM / MLP	GMM / LVCSR

Il en ressort que la méthode de classification GMM est la plus performante.

La décision

La phase de décision désigne le locuteur finalement reconnu. Le procédé de cette phase dépendra fortement de la phase de classification choisie. Dans cette phase de décision, le locuteur sera accepté, reconnu ou rejeté suivant un seuil de décision, car on ne pourra jamais avoir 100% de similitude entre le signal du locuteur testé et le signal des locuteurs de la base de référence.

Problèmes et limites des systèmes actuels

Dans un tutorial sur les avancées récentes en authentification du locuteur, [Furui, 97a] propose 16 questions ouvertes concernant les interrogations et les problèmes restés sans solution à ce jour. De nombreux problèmes sont liés à la variabilité : variabilité due au locuteur et variabilité due aux conditions d’enregistrement.

Variabilité due au locuteur

Une dégradation croissante des performances a été observée au fur et à mesure que le temps qui sépare la session d’apprentissage de la session de test augmente [Furui, 72] [Furui, 74] [Rosenberg, 76]. De plus, le comportement des locuteurs se modifie lorsque ceux-ci s’habituent au système. Les modèles des locuteurs doivent donc être régulièrement mis à jour avec les nouvelles données d’exploitation du système [Setlur, 95]. Les altérations de la voix dues à l’état physique (fatigue, rhume) ou émotionnel (stress) mettent aussi en échec l’efficacité des systèmes [Homayounpour, 94].

Variabilité due aux conditions d’enregistrement et de transmission

La parole téléphonique est sujette à des dégradations parmi lesquelles on peut citer la limitation de la bande utile et les distorsions dues au combiné ou au canal de transmission [Reynolds, 92].

Une diminution des performances pour de la parole téléphonique est systématiquement observée [Hunt, 83] [Gish, 85] [Gish, 86]. [Reynolds, 94b] observe une dégradation des performances d’identification qui passent de 99.7 % sur TIMIT (Texas Instruments Massachusetts Institute of Technology) à 76.2 % sur NTIMIT (Network TIMIT) pour 168 locuteurs. Plus récemment, [Van Vuuren, 96] a fait le point sur les problèmes dus aux différences entre les environnements téléphoniques. Ainsi, dans le cas où les données d’apprentissage et les données de test ne viennent pas du même environnement téléphonique, la dégradation des performances d’identification du locuteur est très importante. [Reynolds, 96] a montré que la plus grande part de ces dégradations est due aux différences de combinés téléphoniques entre l’apprentissage et le test. Une détection préalable du combiné téléphonique semble donc nécessaire. Ce point précis était d’ailleurs l’un des enjeux essentiels lors de la campagne d’évaluation NIST 97.

Autres problèmes

[Kuitert, 97] a étudié l’effet du codage de la parole utilisé dans le réseau téléphonique mobile GSM sur les performances de vérification du locuteur.

Peu d’articles traitent du problème de la robustesse des systèmes confrontés à de la parole enregistrée dans un environnement bruité. La robustesse au bruit ambiant est pourtant une condition nécessaire au succès des systèmes d’AAL dans des applications en conditions réelles.

Enfin, une autre condition est la robustesse vis à vis des imitateurs occasionnels ou professionnels [Homayounpour, 94]

Quelques solutions aux problèmes de robustesse

Nous avons vu dans la section précédente que la plupart des problèmes rencontrés en AAL sont dus à une inégalité entre les conditions d’apprentissage et les conditions de test : variabilité due au locuteur, au canal de transmission ou aux conditions d’enregistrement.

Les méthodes traitant de la réduction des écarts dus aux variations du signal de parole peuvent être regroupées en deux niveaux [Furui, 97b] :

niveau des paramètres,
niveau des modèles.

Paramétrisations robustes

Le problème de la robustesse des paramètres pour l’AAL a notamment été abordé par [Assaleh, 94] [Naik, 94a] et [Reynolds, 94a]. Les paramètres peuvent également être retraités après l’analyse acoustique : égalisation de canal [Furui, 81] [Wang, 93], filtrage RASTA (RelAtive SpecTraAl) [Hermansky, 94] [Hermansky, 97], masquage du bruit par addition d’un offset aux paramètres spectraux [Openshaw, 94]. Le défaut de l’égalisation de canal est qu’elle supprime en même temps une partie de l’information spécifique du locuteur [Furui, 97a].

Ré-estimation ou adaptation des modèles

Comme la voix des locuteurs évolue au cours du temps, il est nécessaire de mettre à jour les modèles des locuteurs pour éviter leur vieillissement. Pour des raisons pratiques, les modèles doivent être mis à jour en utilisant les données d’exploitation. On peut soit ré-estimer les modèles des locuteurs en utilisant les données d’apprentissage initiales et les nouvelles données d’exploitation, soit adapter le modèle initial du locuteur avec les données d’exploitation. Cette deuxième alternative ne nécessite aucun stockage des données de sessions précédentes puisque l’adaptation se fait ‘en ligne’ [Matsui, 96].

L’adaptation des modèles est également nécessaire sur de la parole téléphonique pour prendre en compte les différentes conditions d’appel (combiné, canal, ...). Une première solution consiste à créer le modèle d’un locuteur à partir de différents environnements d’appel [Gauvain, 95]. [Heck, 97] propose quant à lui d’entraîner différents modèles dépendants du combiné téléphonique pour normaliser le score d’un locuteur.

Modèles parallèles

Récemment, de nouvelles techniques sont apparues en vue d’augmenter la robustesse des systèmes d’authentification : leur caractéristique commune est l’utilisation de plusieurs re-connaisseurs (travaillant en parallèle) qui sont re-combinés pour prendre une décision finale [Besacier, 98].

Conclusion

La somme des applications ne cesse de s’agrandir chaque jour. Cette technologie est souvent employée dans des environnements où la voix est déjà capturée, comme les centres d’appel et la téléphonie où elle est le moyen biométrique le plus simple et pratique à utiliser.

Autres documents

These de Yassine MAMI sur la Reconnaisance de locuteurs par localisation dans un espace de locuteurs de référence - Ecole Nationale Supérrieur des télécommunications, octobre 2003, 155 pages, 989 ko - These_Yassine_MAMI_ENST2004.pdf
Extraction des caractéristiques prosodiques pour la reconnaissance de la langue et du locuteur - Résumé de l'article de Armel Sitou AFANOU

Menu des autres pages

[ Présentation ] [ Abréviations ] [ Bibliographie ]

Cette page a été réalisée avec la participation de Gilles PFOTZER
Ingénieur informatique - C.N.A.M
http://www.chez.com/gipp/oraux/aal/