Empreintes digitales - Forme de la main - Visage - Iris - Rétine - Voix - Réseau veineux - Signature dynamique - Frappe au clavier ...

Evènements  

Istanbul Biometrics Conference
Mer Mai 29, 2013
Jeu Mai 30, 2013
Biometrics Institute Asia-Pacific Conference 2013
Jeu Mai 30, 2013
Ven Mai 31, 2013
ICB-2013
Mar Jui 04, 2013
Ven Jui 07, 2013
Biometrics & Biostatistics 2013
Lun Jui 10, 2013
Mer Jui 12, 2013
IAPR/IEEE Int.l Summer School
Lun Jui 10, 2013
Sam Jui 15, 2013
Biometric Security Forum Asia
Mar Jui 18, 2013
Mer Jui 19, 2013
Securing Asia
Mar Jui 18, 2013
Mer Jui 19, 2013
NOLISP 2013
Mer Jui 19, 2013
Ven Jui 21, 2013
Combatting Fraud in Financial Services Seminar
Mer Jui 26, 2013
Mer Jui 26, 2013
Technology Showcase Europe 2013
Jeu Jui 27, 2013
Jeu Jui 27, 2013
Border Management and Technologies Summit
Mar Juil 02, 2013
Ven Juil 05, 2013
ESM
Mer Juil 03, 2013
Jeu Juil 04, 2013
ICB-2013
Jeu Juil 04, 2013
Dim Juil 07, 2013
Technology Against Crime Forum
Lun Juil 08, 2013
Mar Juil 09, 2013
8th Future Security
Mar Sep 17, 2013
Jeu Sep 19, 2013
BTAS 2013
Dim Sep 29, 2013
Mer Oct 02, 2013
IFSEC Istanbul
Lun Sep 30, 2013
Mer Oct 02, 2013
Forensic Research and Technology
Lun Oct 07, 2013
Mer Oct 09, 2013
Identities at the Borders Seminar
Lun Oct 07, 2013
Lun Oct 07, 2013
Total Security Summit
Lun Oct 21, 2013
Mar Oct 22, 2013
   
   

Network  

Le réseau social
de la biométrie

Cliquez ici pour
linkedin_119x32
devenir membre du groupe.

   

Flux RSS  

   

Reconnaissance vocale

 Menu des autres pages

[ Présentation ] [ Abréviations ] [ Bibliographie ]

L'identification de la voix est considérée par les utilisateurs comme une des formes les plus normales de la technologie biométrique, car elle n'est pas intrusive et n'exige aucun contact physique avec le lecteur du système.

La technologie d’analyse de la voix (aussi appelée analyse du locuteur) s’applique avec succès là où les autres technologies sont difficiles à employer. Elle est utilisée dans des secteurs comme les centres d’appel, les opérations bancaires, l’accès à des comptes, sur PC domestiques, pour l’accès à un réseau ou encore pour des applications judiciaires

Il est important de ne pas confondre analyse du locuteur et dictée vocale. Dans un cas on cherche à déterminer l’identité d’un individu grâce à sa voix ; dans l’autre on cherche à déterminer ce que dit la personne sans se soucier de son identité.

Reconnaissance de la voixLa plupart des systèmes d'identification de la voix utilisent l'affichage d'un texte, des mots spécifiques doivent être lus puis parlés afin de vérifier que la personne à authentifier est bien présente et qu'il ne s'agit pas d'un enregistrement.

Les systèmes d'identification de la voix se concentrent sur les seules caractéristiques de voix qui sont uniques à la configuration de la parole d'un individu. Ces configurations de la parole sont constituées par une combinaison des facteurs comportementaux et physiologiques.

Les imitateurs essayent habituellement de reproduire les caractéristiques vocales qui sont les plus évidentes au système auditif humain et ne recréent pas les caractéristiques moins accessibles qu'un système automatisé d'identification de voix analyse. Il n'est donc pas possible d'imiter la voix d'une personne inscrite dans la base de données.

La variabilité d’une personne à une autre démontre les différences du signal de parole en fonction du locuteur. Cette variabilité, utile pour différencier les locuteurs, est également mélangée à d’autres types de variabilité - variabilité due au contenu linguistique, variabilité intra-locuteur (qui fait que la voix dépend aussi de l’état physique et émotionnel d’un individu), variabilité due aux conditions d’enregistrement du signal de parole (bruit ambiant, microphone utilisé, lignes de transmission) - qui peuvent rendre l’identification du locuteur plus difficile.

Malgré toutes ces difficultés apparentes, la voix reste un moyen biométrique intéressant à exploiter car pratique et disponible via le réseau téléphonique, contrairement à ses concurrents.

L’Authentification Automatique du Locuteur (AAL)

Il s’agit de reconnaître automatiquement l’identité d’une personne prononçant une ou plusieurs phrases, comme un auditeur humain identifie son interlocuteur au cours d’une conversation. Nous distinguerons :

  1. les applications « sur site » : serrures vocales pour contrôle d’accès, cabines bancaires en libre service,
  2. les applications liées aux télécommunications : ces applications concernent l’identification du locuteur à travers le réseau téléphonique pour accéder à un service de transactions bancaires à distance ou pour interroger des bases de données en accès privé,
  3. les applications judiciaires : recherche de suspects, orientations d’enquêtes, preuves lors d’un jugement [Hollien, 90] [Künzel, 94].

La difficulté de la tâche d’authentification n’est pas la même d’une application à une autre. Dans le cas des applications « sur site », l’environnement de prononciation de la phrase ou du mot de passe est plus facilement contrôlé que dans le cas des applications via le réseau téléphonique (distorsions dues au canal, différences entre les combinés téléphoniques, bande passante limitée). Les applications judiciaires présentent quant à elles des difficultés d’un autre ordre (locuteurs non-coopératifs, enregistrements de mauvaise qualité).

Capture de la voix

Capture de la voixEn fonction de l’application envisagée, la qualité demandée par la capture de la parole peut rapidement devenir très importante.

En effet, cette qualité dépend de la variabilité de la voix du locuteur dans le temps comme dans le cas de maladie (un rhume), des états émotionnels (l’angoisse ou la joie) et de l’âge.

De plus, les conditions d’acquisition de la voix tels que le bruit et la réverbération, ainsi que la fidélité des équipements tel que le microphone jouent très fortement sur la qualité de la capture, et donc sur la qualité des résultats.

Pour pouvoir être traité numériquement, le signal sonore est numérisé sur 8 ou 16 bits à une fréquence d’échantillonnage qui varie entre 8 kHz et 48 kHz.

Traitement numérique de la voix

Bien que des systèmes performants de reconnaissance soient aujourd’hui disponibles sur le marché, l’identification du locuteur est encore un domaine de recherche très actif. Il est donc difficile de faire un portrait précis des méthodes utilisées.

Nous pouvons néanmoins décrire un système standard de la façon suivante :

  1. Le signal acoustique est, dans un premier temps, analysé afin d’en extraire des paramètres. Ces paramètres résultent, entre autres, d’une analyse spectrale du signal (coefficients de prédiction linéaires ou bancs de filtres).
  2. Les paramètres servent ensuite à l’élaboration éventuelle d’un modèle et sont introduits dans un classifieur qui permettra de déterminer l’identité du locuteur. De nombreuses techniques sont utilisées pour réaliser ce classifieur. On peut citer entre autrew : les réseaux de neurones, les champs de markov cachés, les mélanges gaussiens, la quantification vectorielle, etc.

Dépendance et Indépendance au texte

La distinction est faite entre les systèmes dépendants et indépendants du texte. En mode dépendant du texte, le texte prononcé par le locuteur (pour être reconnu du système) est le même que celui qu’il a prononcé lors de l’apprentissage de sa voix. En mode indépendant du texte, le locuteur peut prononcer n’importe quelle phrase pour être reconnu.

Néanmoins, il existe plusieurs niveaux de dépendance au texte suivant les applications (listés selon le degré croissant de dépendance au texte) [Bimbot, 93] [Bimbot, 94] :

  • systèmes à texte libre (ou free-text) : le locuteur prononce ce qu’il veut,
  • systèmes à texte suggéré (ou text-prompted) : un texte, différent à chaque session et pour chaque personne, est imposé au locuteur et affiché à l’écran par la machine,
  • systèmes dépendants de traits phonétiques (ou speech event dependent) : certains traits phonétiques spécifiques sont imposés dans le texte que le locuteur doit prononcer,
  • systèmes dépendants du vocabulaire (ou vocabulary dependent) : le locuteur prononce une séquence de mots issus d’un vocabulaire limité (ex. : séquence de digits),
  • systèmes personnalisés dépendants du texte (ou user-specific text dependent) : chaque locuteur a son propre mot de passe.

Les systèmes dépendants du texte donnent généralement de meilleures performances d’authentification que les systèmes indépendants du texte car la variabilité due au contenu linguistique de la phrase prononcée est alors neutralisée.

Evaluation des performances en AAL

Les performances d’identification du locuteur en ensemble fermé sont données par le taux d’erreur d’identification (pourcentage des cas où le système ne reconnaît pas le bon locuteur.

Dans le cas d’un système de vérification du locuteur, on distingue le taux de fausse acceptation (pourcentage des cas où le système accepte le locuteur alors que celui-ci n’est pas la personne qu’il prétend être) ; et le taux de faux rejet(situation où le système rejette le locuteur alors qu’il est vraiment la personne qu’il prétend être).

L’évaluation des performances d’un système d’AAL n’est cependant pas un problème commun et on ne peut comparer deux systèmes à partir de ces seuls taux d’erreur qui dépendent de multiples facteurs. Ainsi, les éléments suivants doivent également être pris en compte :

  • qualité de la parole : enregistrements en studio ou via le canal téléphonique ; environnement calme ou bruyant ; type de réseau téléphonique,
  • quantité de parole : durée de parole pour l’apprentissage des références de chaque locuteur ; durée de parole des sessions de test,
  • variabilité intra-locuteur : la voix d’un locuteur dépend de son état physique et émotionnel ; de plus, le comportement d’un locuteur se modifie lorsque celui-ci s’habitue à un système,
  • population de la base de locuteurs : en identification du locuteur, la taille de la population a une influence directe sur les performances ; la qualité de la population (proportion hommes/femmes, bonne répartition géographique des locuteurs parlant une même langue) est également un facteur à intégrer,
  • intention des locuteurs : la distinction est faite entre les locuteurs coopératifs (qui veulent être reconnus par le système) et les locuteurs non-coopératifs qui modifient leur voix pour ne pas être reconnus (cas de certaines applications judiciaires par exemple). Enfin, certains locuteurs imitent la voix d’une autre personne pour être reconnus à sa place : ce sont des imposteurs. A ce propos, lors de l’évaluation d’un système, les imposteurs sont en général d’autres locuteurs de la base de référence ce qui n’est pas très réaliste. En effet, en pratique, un imposteur réel qui tentera d’imiter la voix du locuteur pour lequel il voudra être reconnu, n’existera pas forcément dans la base de référence.

Les problèmes d’évaluation sont largement discutés dans le cadre du projet européen EAGLES [Chollet, 97] qui a pour but d’uniformiser les procédures d’évaluation. Des campagnes d’évaluation en AAL ont également été lancées (campagnes NIST (National Institute of Standards and Technology) ) pour comparer les performances des systèmes sur une même base de données ("bench-mark programmes") et dans des conditions identiques pour tous. On trouvera aussi un bon exemple sur le problème de l’évaluation des performances dans [Oglesby, 95].

Systèmes d’AAL

Dans cette section, sont présentés la structure générale et les différents modules d’un système d’AAL. Une revue critique des méthodes existantes est ensuite proposée en soulignant les atouts et défauts respectifs de chaque méthode. A ce propos, il est à noter que le taux d’erreur d’identification (ou les taux d’acceptation / faux rejet) d’un système d’AAL n’est pas le seul critère de sa qualité. Sont à ajouter :

  • la rapidité de l’apprentissage des modèles et de la phase d’authentification,
  • la quantité de données nécessaire pour l’apprentissage des modèles de locuteurs,
  • la modularité, c’est-à-dire la possibilité d’ajouter ou de supprimer un locuteur de la base sans modifier complètement l’architecture du système [Artières, 95],
  • la robustesse aux variations intra-locuteurs ou aux conditions d’enregistrement.

Structure d’un système d’AAL

La tâche d’authentification automatique du locuteur peut se subdiviser en trois étapes :

  • la paramétrisation,
  • la classification,
  • la décision.

Un premier module de traitement du signal réalise l’analyse acoustique du signal de parole. A l’issue de cette étape, le signal est représenté par des vecteurs de coefficients, ce qui permet de réduire l’information en quantité et en redondance. Ces vecteurs sont éventuellement représentés par un modèle mathématique ; on parle alors de méthodes paramétriques. Dans la phase de classification, les vecteurs du signal de test (ou leur modèle) sont comparés aux vecteurs des locuteurs de référence (ou à leurs modèles). La phase de décision désigne le locuteur finalement reconnu.

Schéma modulaire d’un système d’identification du locuteur en ensemble fermé

Schéma modulaire d’un système d’identification du locuteur en ensemble fermé

[Besacier, 98, page 9]

Les différents systèmes d’AAL existants se distinguent, d’une part suivant les paramètres qu’ils utilisent, et d’autre part suivant les différents classificateurs qui prennent la décision finale.

La paramétrisation

Dans son article sur le choix de paramètres efficients pour l’authentification du locuteur, [Wolf, 72] décrit les attributs nécessaires des « bons paramètres » pour l’AAL. Idéalement, les paramètres (ou traits acoustiques) doivent :

  • être fréquents,
  • être facilement mesurables,
  • ne pas être trop sensibles à la variabilité intra-locuteur,
  • ne pas être affectés par le bruit ambiant ou les variations dues au canal de transmission,
  • * être robustes face aux imitateurs.

En pratique, il est très difficile de réunir tous ces attributs en même temps. La sélection de traits acoustiques pertinents pour l’AAL est donc un sujet largement traité : sélection de paramètres séparant les locuteurs en terme de F-ratio (ou ses variantes) [Sambur, 75] [Bonastre, 92] ; sélection par programmation dynamique [Cheung, 78] ; sélection suivant les taux d’identification [Atal, 74]. Finalement, il ressort que les seuls types de paramètres vraiment pertinents et utilisables efficacement sont les paramètres de l’analyse spectrale et éventuellement les paramètres prosodiques. Nous pouvons noter qu’ils sont respectivement corrélés à la forme du conduit vocal et à la source de l’appareil de production de la parole.

Paramètres de l’analyse spectrale

Les principaux paramètres de l’analyse spectrale utilisés en AAL sont les coefficients de prédiction linéaire et leurs différentes transformations (LPC (Linear Predictive Coefficients), LPCC (Linear Predictive Cepstral Coefficients), ...), ainsi que les coefficients issus de l’analyse en banc de filtres et leurs différentes transformations (coefficients banc de filtres, MFCC (Mel Frequency Cepstral Coefficients), ...).

Pour les coefficients de prédiction linéaire, on se référera par exemple aux thèses de [Grenier, 77] et [Homayounpour, 95]. Les articles suivants proposent quand à eux une bonne synthèse sur le choix de paramètres spectraux : [Reynolds, 94a] [Homayounpour, 94] [Ong, 94] [Charlet, 97]. Sans oublier l’utilisation des versions numériques : la TDF (Transformée Discrète de Fourier), un algorithme de calcul rapide : FFT (Fast Fourier Transform). Toutefois, la TDF ne peut opérer sur des séquences trop courtes de signal [Haton, 91].

Paramètres prosodiques

Le terme "paramètres prosodiques" réunit l’énergie, la durée [Van den Heuvel, 94] et la fréquence fondamentale (ou pitch) [Atal, 72]. Ces paramètres s’avèrent cependant fragiles en pratique et ne permettent pas, à eux seuls, de discriminer les locuteurs. En conséquence, ils sont souvent associés aux paramètres de l’analyse spectrale (surtout l’énergie). C’est aussi le cas pour la durée dans [Forsyth, 93] et pour la fréquence fondamentale dans [Matsui, 90] et [Dubreucq, 94]. Voir Résumé de l'article de Armel Sitou AFANOU

Paramètres exploitant la dynamique du signal de parole

La prise en compte d’une information de type dynamique peut être un facteur d’amélioration des performances d’identification du locuteur.

Nouvelles paramétrisations

Aujourd’hui, les paramètres utilisés sont pratiquement les mêmes pour la plupart des systèmes d’AAL. Il existe cependant quelques exceptions comme [Thevenaz, 95] et [Hayakawa, 97] qui proposent d’utiliser le résidu de l’analyse par prédiction linéaire, combiné avec les coefficients LPC. [Wenndt, 97] utilise des paramètres issus d’un bi-spectre (statistiques d’ordre supérieur), plus robustes aux dégradations en milieu bruité. Enfin, AEGIR SYSTEMS qui a participé à la campagne d’évaluation NIST 97 [Nist, 97], utilise des coefficients issus d’une transformée en paquets d’ondelettes. La transformée en ondelettes ainsi que les autres transformées permettant une analyse multi-résolution du signal [Cohen, 95] sont très peu utilisées en traitement de la parole, malgré leur présence dans de nombreux autres domaines. On trouvera cependant quelques références sur le sujet dans [Navarro-Mesa, 92] [Wassner, 96] et [Bernstein, 97].

La classification

Cette étape consiste à comparer les vecteurs du signal du locuteur testé aux vecteurs des locuteurs de référence de la base de données. Il existe différentes techniques de classification utilisées lors de l’identification du locuteur indépendante du texte ; quelques-unes vous sont présentées ci-après :

Méthodes algébriques

  • Spectres moyens :
    [Pruzansky, 63] fut une des premières à utiliser les paramètres du spectre moyen à long terme pour l’AAL. Elle obtint un taux d’identification de 90 % sur une base de dix personnes.
  • Méthodes statistiques du second ordre :
    Des mesures entre matrices de covariance ont été proposées par [Grenier, 77] et [Gish, 90]. Elles sont faciles à implémenter et donnent de très bons résultats [Gish, 94] [Bimbot, 95] avec des durées de test relativement courtes (moins de 3s).
  • Modèles Auto Régressif Vectoriels (MARV) :
    Ces modèles ont pour vocation de prendre en compte la dynamique du signal de parole. On trouvera notamment l’application des MARV pour l’AAL dans [Montacié, 92a] et [Montacié, 92b]. Une étude sur le choix de l’ordre des modèles (i.e. le nombre de trames utilisées pour la prédiction) est proposée dans [Griffin, 94]. Cependant, un ordre élevé des modèles engendre une complexité de calcul difficile à contrôler.

Méthodes connexionnistes

L’utilisation des réseaux de neurones en AAL est relativement récente [Oglesby, 90] [Bennani, 90]. On trouvera cependant un bon exemple sur le sujet dans [Bennani, 95].

  • Réseaux de neurones et discrimination :
    Les réseaux multicouches (MLP (Multi Layer Perceptron) ) utilisés au départ ont rapidement présenté des problèmes lors de l’apprentissage qui devient long et complexe quand le nombre de locuteurs est grand [Rudasi, 91]. Pour éviter ce problème, la tâche de classification est divisée en plusieurs sous-tâches de complexité moindre pour chaque paire de locuteurs. Un apprentissage plus rapide peut également être obtenu en remplaçant les réseaux multicouches par des réseaux RBF (Radial Basis Function) [Oglesby, 91] [Frederickson, 94] [Furlanello, 95]. Les réseaux TDNN (Time Delay Neural Networks) permettent quand à eux de prendre en compte l’information dynamique en réalisant la classification sur des segments de plusieurs trames concaténées [Bennani, 92]. Enfin, l’approche LVQ (Learning Vector Quantization) [Driancourt, 92] [Bennani, 95] est une méthode de type quantification vectorielle avec apprentissage discriminant des vecteurs de référence à l’aide d’un réseau de neurones.
  • Réseaux de neurones et modélisation :
    Un défaut majeur des réseaux de neurones en classification est le problème de modularité [Artières, 95]. En effet, dans le cas d’un apprentissage discriminant, les modèles de tous les locuteurs doivent être re-appris quand une nouvelle personne est ajoutée dans la base. Les modèles prédictifs permettent de modéliser un locuteur indépendamment de tous les autres.

Modélisation multi-classes

  • Approches par segmentation explicite :
    Dans cette approche, le signal de parole segmenté est utilisé pour entraîner des modèles de classes acoustiques dépendants du locuteur. Dans [Bonastre, 94a] et [Bonastre, 94b], un score d’authentification est calculé pour chaque phonème du signal de parole préalablement segmenté, puis ces scores sont combinés afin de prendre une décision finale. [Olsen, 97] propose un système de vérification du locuteur en deux phases : une première phase de Décodage Acoustico-Phonétique (DAP) utilisant des HMM (Hidden Markov Model), puis une phase d’authentification du locuteur basé sur des réseaux RBF dépendants des phonèmes. On trouve également ce type d’approche dans [Savic, 90] et [Matsui, 91] qui obtiennent de bonnes performances avec des durées de test courtes. Il est intéressant de noter qu’avec ces systèmes, les taux d’erreur sont pratiquement les mêmes en mode dépendant ou en mode indépendant du texte.
  • Approches par segmentation implicite :
    Une première possibilité, introduite par [Soong, 85] consiste à regrouper les vecteurs acoustiques en classes. La méthode de quantification vectorielle (VQ (Vector Quantization) ) [Soong, 86] est la plus souvent utilisée. L’emploi de la quantification vectorielle en AAL est notamment proposé dans [Matsui, 91] [Matsui, 92] [He, 97]. Une prise en compte de la nature séquentielle des événements phonétiques, associée à la quantification vectorielle, a également été proposée par [Higgins, 86].

La seconde possibilité consiste à utiliser des modèles probabilistes. [Poritz, 82] propose un HMM à 5 états pour classer les vecteurs de paramètres du signal d’un locuteur en 5 catégories correspondant chacune à un état du HMM. [Tishby, 91] propose une extension de ces modèles en décrivant un état comme une combinaison linéaire (mixture) de gaussiennes. Cependant, une expérience de [Matsui, 92] comparant les approches VQ aux HMM en mode indépendant du texte n’a pas montré une différence de performance significative entre les deux techniques. Ces modèles à base de mixtures de gaussiennes (GMM (Gaussian Mixture Model) ) sont désormais largement utilisés en AAL [Reynolds, 94b] [Gish, 94] [Reynolds, 95] [Markov, 96] [Lamel, 97] [Schmidt, 97] et fournissent les meilleurs résultats actuels. Les GMM semblent également être un peu plus robustes quand les environnements d’apprentissage et de tests diffèrent [Van Vuuren, 96].

Un point sur les performances actuelles

L’institut américain NIST organise chaque année une campagne d’évaluation des systèmes d’identification du locuteur. En 1997, la campagne portait sur la tâche de vérification du locuteur indépendante du texte [Nist, 97]. Neuf compétiteurs ont participé à cette campagne : Aegir, BBN, Dragon, ENST, IDIAP, ITT, MIT, OGI et SRI. Le classement final s’est fait sur :

  • un apprentissage sur environ 1 minute de parole correspondant à un mélange de 2 conversations enregistrées sur 2 combinés téléphoniques différents,
  • une mesure de performances réalisée à partir d’un segment de test de 30 secondes environ.

Les performances sont évaluées séparément pour les portions de test utilisant un combiné téléphonique déjà présent dans la base d’apprentissage et pour les portions de test utilisant un combiné inconnu de la base d’apprentissage. Le score, qui permet le classement final des systèmes, est donné par une fonction de coût égale à la somme pondérée des probabilités de faux rejet et de fausse acceptation. Sur cette évaluation, huit laboratoires ont été classés [Besacier, 98].

Classement final de la campagne d’évaluation NIST 97. [Besacier, 98, page 18]

Laboratoire Dragon 2 MIT1 BBN1 Dragon 1 OGI ITT IDIAP-ENST SRI
Classement 1 2 3 4 5 6 7 8
Méthode GMM GMM GMM LVCSR GMM VQ Hybrid HMM / MLP GMM / LVCSR

Il en ressort que la méthode de classification GMM est la plus performante.

La décision

La phase de décision désigne le locuteur finalement reconnu. Le procédé de cette phase dépendra fortement de la phase de classification choisie. Dans cette phase de décision, le locuteur sera accepté, reconnu ou rejeté suivant un seuil de décision, car on ne pourra jamais avoir 100% de similitude entre le signal du locuteur testé et le signal des locuteurs de la base de référence.

Problèmes et limites des systèmes actuels

Dans un tutorial sur les avancées récentes en authentification du locuteur, [Furui, 97a] propose 16 questions ouvertes concernant les interrogations et les problèmes restés sans solution à ce jour. De nombreux problèmes sont liés à la variabilité : variabilité due au locuteur et variabilité due aux conditions d’enregistrement.

Variabilité due au locuteur

Une dégradation croissante des performances a été observée au fur et à mesure que le temps qui sépare la session d’apprentissage de la session de test augmente [Furui, 72] [Furui, 74] [Rosenberg, 76]. De plus, le comportement des locuteurs se modifie lorsque ceux-ci s’habituent au système. Les modèles des locuteurs doivent donc être régulièrement mis à jour avec les nouvelles données d’exploitation du système [Setlur, 95]. Les altérations de la voix dues à l’état physique (fatigue, rhume) ou émotionnel (stress) mettent aussi en échec l’efficacité des systèmes [Homayounpour, 94].

Variabilité due aux conditions d’enregistrement et de transmission

La parole téléphonique est sujette à des dégradations parmi lesquelles on peut citer la limitation de la bande utile et les distorsions dues au combiné ou au canal de transmission [Reynolds, 92].

Une diminution des performances pour de la parole téléphonique est systématiquement observée [Hunt, 83] [Gish, 85] [Gish, 86]. [Reynolds, 94b] observe une dégradation des performances d’identification qui passent de 99.7 % sur TIMIT (Texas Instruments Massachusetts Institute of Technology) à 76.2 % sur NTIMIT (Network TIMIT) pour 168 locuteurs. Plus récemment, [Van Vuuren, 96] a fait le point sur les problèmes dus aux différences entre les environnements téléphoniques. Ainsi, dans le cas où les données d’apprentissage et les données de test ne viennent pas du même environnement téléphonique, la dégradation des performances d’identification du locuteur est très importante. [Reynolds, 96] a montré que la plus grande part de ces dégradations est due aux différences de combinés téléphoniques entre l’apprentissage et le test. Une détection préalable du combiné téléphonique semble donc nécessaire. Ce point précis était d’ailleurs l’un des enjeux essentiels lors de la campagne d’évaluation NIST 97.

Autres problèmes

[Kuitert, 97] a étudié l’effet du codage de la parole utilisé dans le réseau téléphonique mobile GSM sur les performances de vérification du locuteur.

Peu d’articles traitent du problème de la robustesse des systèmes confrontés à de la parole enregistrée dans un environnement bruité. La robustesse au bruit ambiant est pourtant une condition nécessaire au succès des systèmes d’AAL dans des applications en conditions réelles.

Enfin, une autre condition est la robustesse vis à vis des imitateurs occasionnels ou professionnels [Homayounpour, 94]

Quelques solutions aux problèmes de robustesse

Nous avons vu dans la section précédente que la plupart des problèmes rencontrés en AAL sont dus à une inégalité entre les conditions d’apprentissage et les conditions de test : variabilité due au locuteur, au canal de transmission ou aux conditions d’enregistrement.

Les méthodes traitant de la réduction des écarts dus aux variations du signal de parole peuvent être regroupées en deux niveaux [Furui, 97b] :

  • niveau des paramètres,
  • niveau des modèles.

Paramétrisations robustes

Le problème de la robustesse des paramètres pour l’AAL a notamment été abordé par [Assaleh, 94] [Naik, 94a] et [Reynolds, 94a]. Les paramètres peuvent également être retraités après l’analyse acoustique : égalisation de canal [Furui, 81] [Wang, 93], filtrage RASTA (RelAtive SpecTraAl) [Hermansky, 94] [Hermansky, 97], masquage du bruit par addition d’un offset aux paramètres spectraux [Openshaw, 94]. Le défaut de l’égalisation de canal est qu’elle supprime en même temps une partie de l’information spécifique du locuteur [Furui, 97a].

Ré-estimation ou adaptation des modèles

Comme la voix des locuteurs évolue au cours du temps, il est nécessaire de mettre à jour les modèles des locuteurs pour éviter leur vieillissement. Pour des raisons pratiques, les modèles doivent être mis à jour en utilisant les données d’exploitation. On peut soit ré-estimer les modèles des locuteurs en utilisant les données d’apprentissage initiales et les nouvelles données d’exploitation, soit adapter le modèle initial du locuteur avec les données d’exploitation. Cette deuxième alternative ne nécessite aucun stockage des données de sessions précédentes puisque l’adaptation se fait ‘en ligne’ [Matsui, 96].

L’adaptation des modèles est également nécessaire sur de la parole téléphonique pour prendre en compte les différentes conditions d’appel (combiné, canal, ...). Une première solution consiste à créer le modèle d’un locuteur à partir de différents environnements d’appel [Gauvain, 95]. [Heck, 97] propose quant à lui d’entraîner différents modèles dépendants du combiné téléphonique pour normaliser le score d’un locuteur.

Modèles parallèles

Récemment, de nouvelles techniques sont apparues en vue d’augmenter la robustesse des systèmes d’authentification : leur caractéristique commune est l’utilisation de plusieurs re-connaisseurs (travaillant en parallèle) qui sont re-combinés pour prendre une décision finale [Besacier, 98].

Conclusion

La somme des applications ne cesse de s’agrandir chaque jour. Cette technologie est souvent employée dans des environnements où la voix est déjà capturée, comme les centres d’appel et la téléphonie où elle est le moyen biométrique le plus simple et pratique à utiliser.

Autres documents

Menu des autres pages

[ Présentation ] [ Abréviations ] [ Bibliographie ]

Cette page a été réalisée avec la participation de Gilles PFOTZER
Ingénieur informatique - C.N.A.M
http://www.chez.com/gipp/oraux/aal/

Ajouter un Commentaire

Vous pouvez laisser un commentaire afin d'enrichir cet article. Un langage peu convenable ne sera pas accepté. Les commentaires doivent être validés par un modérateur avant d'être publiés. Merci de ne pas utiliser ce formulaire de commentaire pour contacter le webmaster de ce site


Code de sécurité
Rafraîchir

   

   

Actualités - Annonces - Communiqués de presse

  • RATP - Reconnaissance faciale +

    RATP - Reconnaissance faciale La RATP a lancé un appel à compétences, pour trouver une entreprise capable de lui proposer un système d'identification des visages qui permettrait de facturer automatiquement les usagers identifiés par les caméras du métro, et de repérer les fraudeurs. Le projet pourrait être achevé dès la fin Lire la suite...
  • La reconnaissance faciale en temps réel sur une vidéo est désormais possible +

    La reconnaissance faciale en temps réel sur une vidéo est désormais possible La solution de reconnaissance faciale BioSurveillance Next, conçue par Herta Security, pourra désormais traiter en temps réel un enregistrement ou une vidéo au débit de 150 images par seconde. Au lieu d'utiliser un microprocesseur classique, Herta Security a Lire la suite...
  • [these] Reconnaissance du locuteur en milieu bruité, Université d'Avignon +

    [these] Reconnaissance du locuteur en milieu bruité, Université d'Avignon Nous disposons d'une possibilité de bourse ministrielle pour une thèse dans le domaine de la reconnaissance du locuteur en mileu bruité. Les personnes intéressées doivent m'envoyer leur CV le plus rapidement possible. Nous avons atteint ces dernières années de très bonnes Lire la suite...
  • Cross Match Introduces New SEEK Avenger Handheld +

    Cross Match Introduces New SEEK Avenger Handheld State-of-the-art self-contained biometric capture and credential reading solution. London, England – May 21, 2013 Cross Match Technologies, Inc., a leading global provider of biometric identity management solutions, announced the launch of the new SEEK Avenger < http://www.crossmatch.com/seek-avenger.php> mobile handheld today at the Security Document World Lire la suite...
  • Chat with Acuity Market Intelligence Principal, C. Maxine Most +

    Chat with Acuity Market Intelligence Principal, C. Maxine Most           Your Invited to "chat" with Acuity Market Intelligence Principal, C. Maxine Most, courtesy of M2SYS. When: May 23, 2013 11:00 am EST, 8:00 am PST, 16:00 pm BST, 17:00 pm (CEST), 23:00 pm (SGT), 0:00 (JST) Lire la suite...
  • Forensics Europe Expo Delivered Over 3000 Attendees +

    Forensics Europe Expo Delivered Over 3000 Attendees Inaugural Forensics Europe Expo Delivered Over 3000 attendees London, 17 May 2013 Clarion Events today announced the successful launch of Forensics Europe Expo which took place 24-25 April 2013 at Olympia, London which received 3,239 attendees and 70 exhibiting companies to this inaugural event. Forensics Lire la suite...
  • DERMALOG reçoit le prix de la Biométrie mondiale et du contrôle aux frontières +

    DERMALOG reçoit le prix de la Biométrie mondiale et du contrôle aux frontières Le cabinet de conseil Frost & Sullivan a décerné mardi son Prix de l'amélioration de la valeur client à DERMALOG Identification Systems, le plus grand fabricant de systèmes biométriques d'Allemagne, pour son exceptionnel système biométrique de contrôle Lire la suite...
  • Your latest issue of Border Security Matters - May 2013 +

    Your latest issue of Border Security Matters - May 2013 The newsletter of BORDERPOL, the World Border Organization. Click here to download your latest May 2013 issue... As the international association for the border policing and border management community, BORDERPOL aims to promote international borders that enhance human mobility whilst ensuring Lire la suite...
  • Transport Security Expo announces line-up of innovative new features +

    Transport Security Expo announces line-up of innovative new features World-class annual event delivers an expanded programme of fresh thinking in the transportation security arena. London, 26 April 2013 – Transport Security Expo, the globally renowned exhibition and conference event specifically developed to address challenges within the transportation security arena and identify Lire la suite...
  • Credoc étude sur la biométrie +

    Attitude des français face à la biométrie Le CREDOC présente les résultats de ses travaux de recherche sur les attitudes de la population française quant à l'usage des technologies biométriques. Les Français réservés sur l'usage de la biométrie dans la vie quotidienne Un usage limité aux objectifs de sécurité des Lire la suite...
  • Le paiement biométrique accepté par ses utilisateurs +

    Le paiement biométrique accepté par les utilisateurs après 6 mois de test PARIS, 14 mai 2013 - Au terme d'une expérimentation de six mois dans certains commerces d'un nouveau mode de paiement biométrique, Natural Security, la start-up qui développe cette technologie, indique que plus de 9 testeurs sur 10 sont prêts Lire la suite...
  • Arme avec empreintes digitales +

    Activer une arme par les empreintes digitales Une entreprise a conçu un système biométrique utilisant les empreintes digitales, permettant de déterminer qui peut activer une arme à feu : son ou ses propriétaire, les soldats d'un groupe donné... L'entreprise américaine Safe Gun Technology (SGT) a mis au point des moyens d'empêcher Lire la suite...
  • Secure Identity Alliance +

    Création du groupement « Secure Identity Alliance » 3M, Gemalto, Morpho (Safran) et Oberthur Technologies créent le groupement « Secure Identity Alliance » Une association ouverte couvrant l'ensemble du secteur et destinée à promouvoir des services d'identité numérique sécurisés et des documents électroniques plus sûrs et interopérables. Lire la suite...
  • Secutech 2013 attracts 25,807 visitors from 100 countries and regions +

    Secutech 2013 attracts 25,807 visitors from 100 countries and regions Diverse fringe programmes add to exhibiting and visiting experience The 16th edition of Secutech was held from 24 – 26 April 2013 at Taipei Nangang Exhibition Center, Taiwan and attracted 25,807 visitors from 100 countries and regions. Organised by Messe Frankfurt Lire la suite...
  • Biometric Security Forum Asia 2013 - Newsletter +

    Thank you for taking the time to read our special Biometric Security Forum Asia newsletter. We have the pleasure of inviting you to our upcoming Forum: Biometric Security Forum Asia: The Future of Border Control, taking place 18-19 June at the Mandarin Orchard Hotel in Singapore. Network Don’t miss the Lire la suite...
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
   
© Didier Guillerm - 1997-2012

Faire un don

Biometrie-Online.Net a besoin de votre aide pour continuer à vous informer sur la biométrie.

Merci d'avance pour votre participation.

Vous pouvez faire un don par CB, via Paypal.