Comment votre façon d'écrire en ligne peut-elle révéler votre identité
Après l'identification des personnes dans les enquêtes criminelles et médico-légales à l'aide de leurs empreintes digitales, de l'analyse ADN, de l'analyse vocale, puis des empreintes digitales de l'iris, nous assistons aujourd'hui à l'identification d'un rédacteur de texte sur des plateformes électroniques, peut-être avec la même précision, en utilisant l"analyse d'empreintes digitales de texte".
Les développeurs d'une unité de recherche américaine sur le renseignement cherchent à utiliser une technologie conçue pour lutter contre la désinformation en ligne afin d'identifier, à l'aide de l'intelligence artificielle, une personne en fonction de la façon dont elle écrit sur les réseaux sociaux.
Qu'est-ce qu'une "empreinte digitale de texte" ?
Selon le site spécialisé américain « Nextgov », des experts de l'Advanced Intelligence Research Projects Unit « IARPA », une aile de recherche des services de renseignement américains, travaillent sur l'utilisation de l'intelligence artificielle au sein d'un programme appelé « HIATUS » pour analyser la structure cachée de texte sur Internet et l'attribuer à son propriétaire.
La nouvelle technologie d'empreintes digitales de texte fonctionnera de la même manière que les experts médico-légaux identifient actuellement quelqu'un en fonction de leur écriture. Les humains ont de petites différences individuelles entre eux qui définissent leurs idiosyncrasies dans la façon dont ils écrivent un mot, les auteurs en ligne ont également leurs propres textes et leurs propres méthodes lors de la rédaction de phrases en ligne.
Ce que fait le programme, c'est d'identifier des fonctionnalités d'écriture telles que : le placement et la syntaxe des mots, grâce auxquels il est possible de déterminer qui a écrit un certain texte. C'est comme votre empreinte digitale.
Le Dr Ziad Sarayrah, expert en intelligence artificielle, nous explique cette technologie en disant qu'elle "s'appuie principalement sur des algorithmes de troisième génération liés aux réseaux modernes et à l'apprentissage profond, contrairement aux algorithmes de première et deuxième génération qui dépendaient de la correspondance des mots ou leur analyse, comme avec ce qu'on appelle les chatbots.
Il ajoute : "Ce programme recherche certains modèles de phrases, pas seulement des mots, et la répétition dans le modèle de discours, et la répétition est un point clé pour obtenir des résultats précis. Si vous posez la même question à 100 personnes ou si vous leur demandez de décrire quelque chose, vous obtiendrez des possibilités infinies de réponses".
Une précision hors de portée des personnes
Qu'est-ce qui permet à cette nouvelle technologie d'atteindre cette précision, selon lui ?
Il affirme que "la quantité d'informations traitées par ces algorithmes et fonctionnant via un système de recherches et de programmation spéciales est soumise à un filtrage des données au fur et à mesure qu'elles traversent plusieurs étapes, puis les informations sont confirmées à chaque étape. C'est-à-dire les capacités humaines sont incapables d'obtenir les mêmes résultats."
Les chercheurs espèrent que la technologie des « empreintes digitales textuelles » jouera un rôle majeur dans l'identification des propriétaires des campagnes de désinformation et de traite des êtres humains en identifiant des caractéristiques stylistiques telles que le placement des mots, la formulation des phrases et le style.
Et un rapport de la société de cybersécurité Imperva publié en 2020 selon lequel plus d'un quart des internautes ne sont pas des humains, mais plutôt des comptes automatisés qui peuvent propager de la désinformation ou des obscénités et autres, ce n'est pas l'utilisation d'alias humains.
Les préoccupations des utilisateurs
La BBC a interrogé un certain nombre de jeunes hommes et filles sur cette technologie, et la plupart d'entre eux ont déclaré que c'était une bonne idée, qui peut contribuer à préserver les droits intellectuels de toute personne partageant leurs opinions ou analyses, et à limiter la diffusion de fausses informations et nouvelles parce que la source originale n'est pas connue.
Mais d'autres ont exprimé leur inquiétude quant au fait que l'analyse et le traçage de leurs textes pourraient conduire à ce que leur identité soit connue, sans autorisation ni justification de l'existence d'un programme "d'empreintes digitales textuelles". Peut-être que les conditions politiques instables dans leurs pays et leur souci de dissimuler leur identité ont affecté leur vision de cette technologie.
Lutte contre la contrefaçon ou atteinte à la vie privée ?
Le Dr. Nadine Al-Hajj, également experte en intelligence artificielle, a un avis différent : "La technologie est une épée à double tranchant. Si nous aimons utiliser des assistants automatisés pour organiser notre travail et nos rendez-vous, utiliser Internet en permanence, et fournir des informations sur nous-mêmes, nos idées, nos intérêts et les autres, nous devons savoir que nous sommes vulnérables au piratage. Et pour ce nouveau programme qui s'appuie sur l'analyse du texte pour atteindre son objectif, en dernier ressort cela peut être considéré comme une violation manifeste de la vie privée, même si le but est noble."
Le Dr. Nadine explique : "Nous avons vu des exemples de grandes entreprises telle qu'Apple refuser de divulguer les données de leurs utilisateurs même s'il existe une décision de justice dans le cadre d'une enquête pénale, sous le prétexte qu'il s'agit de données personnelles et ne peuvent pas être partagées par le fournisseur de services technologiques parce qu'il considère qu'il s'agit d'une violation de la confiance des utilisateurs en lui."
Indépendamment de la controverse, il s'agit certainement d'un bond en avant dans la série de techniques d'identification des personnes dans l'utilisation de la technologie.
L'équipe d'experts de HIATUS cherche à analyser la structure cachée du texte en ligne et son attribution ou "empreinte de texte" pour développer des systèmes qui peuvent fonctionner dans une variété de domaines et de types de texte, avec de nombreuses langues étrangères incluses dans le programme, avant de l'envoyer aux agences de sécurité et de renseignement pour le mettre en œuvre en fonction de leurs propres besoins.
C'est pourquoi les responsables ne spéculent pas en détail sur les cas d'utilisation qui pourraient déborder du cadre prévu.
Source : https://www.bbc.com