Détails: Publication : 7 Novembre 2023

Technologies biométriques physiques et comportementales - 12

Une introduction à la reconnaissance vocale

voice recognition

Ravi Das présente la science de la reconnaissance vocale, y compris son histoire fascinante et les facteurs qui peuvent l'influencer.

La reconnaissance vocale est une technologie biométrique dont la recherche et le développement remontent à la Seconde Guerre mondiale. Par exemple, à cette époque, les spectrographes montraient qu’il existait des variations dans l’intensité de divers sons dans la voix d’une personne, et à différents niveaux de fréquence.

Cela a donné naissance à l’idée d’utiliser peut-être la reconnaissance vocale pour confirmer l’identité d’un individu particulier. La recherche et le développement dans le domaine de la reconnaissance vocale se sont poursuivis jusque dans les années 1960 et les spectrographes vocaux utilisés à l'époque ont commencé à utiliser la modélisation statistique comme moyen de création de modèles biométriques, plutôt que d'utiliser les approches traditionnelles.

Cette tendance continue permettrait à l’évolution des outils de reconnaissance vocale automatisés d’entrer en jeu. En fait, le premier système de reconnaissance vocale connu s’appelait « Forensic Automatic Speaker Recognition », ou FASR en abrégé.

Dans le monde biométrique d’aujourd’hui, la reconnaissance vocale peut être considérée comme une biométrie à la fois comportementale et physique. En effet, les propriétés acoustiques de la voix d’une personne particulière sont directement fonction de la forme de la bouche de l’individu, ainsi que de la longueur et de la qualité des cordes vocales (la composante physique). Mais en même temps, les données comportementales de la voix d’un individu sont également présentes dans le modèle, et cela inclut des variables telles que la hauteur, le volume et le rythme de la voix.

Comment fonctionne la reconnaissance vocale

La première étape de la reconnaissance vocale consiste pour un individu à produire un véritable échantillon vocal. La production vocale est une facette de la vie que nous tenons chaque jour pour acquise, et le processus lui-même est compliqué. La production du son provient des cordes vocales. Entre les cordes vocales se trouve un espace. Lorsque nous essayons de communiquer, les muscles qui contrôlent les cordes vocales se contractent.

En conséquence, l’espace se rétrécit et, lorsque nous expirons, ce souffle traverse l’espace, ce qui crée du son. Les modèles uniques de la voix d’un individu sont ensuite produits par le conduit vocal. Le conduit vocal comprend le pharynx laryngé, le pharynx oral, la cavité buccale, le pharynx nasal et la cavité nasale. Ce sont ces modèles uniques créés par le conduit vocal qui sont utilisés par les systèmes de reconnaissance vocale.

Même si les gens peuvent se ressembler à l’oreille humaine, chacun, dans une certaine mesure, a une annonce différente ou unique dans son discours. Pour garantir un échantillon vocal de bonne qualité, l'individu récite généralement une sorte de texte, qui peut être soit une phrase verbale, une série de chiffres, soit même la répétition d'un passage de texte, généralement demandé par le système de reconnaissance vocale. L’individu doit généralement répéter cette opération plusieurs fois.

Les appareils les plus couramment utilisés pour capturer les échantillons de voix d’un individu sont les microphones d’ordinateur, les téléphones portables et les téléphones fixes. En conséquence, l’un des principaux avantages de la reconnaissance vocale est qu’elle peut tirer parti de la technologie téléphonique existante, avec une perturbation minimale des processus métier d’une entité. En termes de perturbations sonores, les microphones des ordinateurs et les téléphones portables en créent le plus, et les téléphones fixes en créent le moins.

Comment la reconnaissance vocale peut être utilisée

Comparée à d’autres modalités biométriques majeures (telles que la reconnaissance d’empreintes digitales, la reconnaissance de l’iris et la reconnaissance faciale), la reconnaissance vocale n’a pas été aussi largement déployée. Cependant, il a trouvé sa place dans certaines applications, telles que les suivantes :

Transactions financières : chaque fois que vous appelez le numéro pour contacter votre société de courtage, vous devez le plus souvent faire la queue pour parler à une personne réelle et en direct. Ou bien, vous devrez peut-être saisir une série de numéros PIN pour confirmer votre identité. Mais grâce à la reconnaissance vocale, tout cela peut être éradiqué. Par exemple, lorsque vous appelez pour la première fois, le système du destinataire peut automatiquement confirmer votre identité en prononçant seulement quelques phrases de passe. Une fois cela accompli, vous pouvez alors procéder à la transaction financière dont vous avez besoin.
Authentification des appareils : les smartphones d'aujourd'hui nécessitent désormais l'utilisation de ce que l'on appelle « l'authentification multifacteur », ou MFA en abrégé. C’est ici que vous devez confirmer votre identité via au moins trois niveaux d’authentification différents ou plus. Par exemple, Apple utilise TouchID (pour la reconnaissance d'empreintes digitales) et FaceID (pour la reconnaissance faciale). Mais maintenant, ils ont commencé à introduire également l’utilisation de la reconnaissance vocale pour un autre moyen d’authentification.
Microsoft l'utilise : comme vous le savez, Microsoft est le poids lourd de l'industrie du logiciel. Même Microsoft a commencé à utiliser la reconnaissance vocale dans ses propres marques de tablettes et d'appareils sans fil afin de confirmer l'identité de l'utilisateur. Apprenez-en davantage sur l’application de reconnaissance vocale de Microsoft.
Intelligence artificielle : l'intelligence artificielle (IA) et l'apprentissage automatique (ML) font fureur aujourd'hui, principalement alimentés par l'adoption de ChatGPT. Des expérimentations avec la technologie de reconnaissance vocale dans ce domaine sont également en cours.