[Avis d'expert] L’ère du faux, et si la prochaine pandémie était numérique ?

Fred Pieau
Qu'est ce que le deepFake, est-il possible de s'en prémunir, quelles menaces ce phénomène fait-il peser sur la société ? Amine Kacete, ingénieur de recherche en intelligence artificielle chez b<>com, livre son avis sur la question.

Depuis plusieurs années, le contenu numérique ne cesse de s’accroître notamment via les réseaux sociaux et les plateformes de partage numérique. En 2020, Youtube compte environ 500 heures de vidéos publiées par minute. Sur Instagram, les utilisateurs postent en moyenne 100 millions de photos et vidéos par jour !

Alors que le numérique prend chaque jour une part plus importante dans nos sociétés modernes, l’authenticité des données devient une condition sine qua none pour préserver leur équilibre. Hélas, l’émergence de certaines technologies comme le deepFake altère considérablement cette authenticité et menace notre confiance dans le numérique. En 2021, on estime que plus d’une vidéo sur deux sera un faux contenu.

Qu’entend-on par "deepFake" ?

Truquer, photoshoper, manipuler ou retoucher une image ou une vidéo est une pratique présente depuis quelques décennies : la première version Photoshop 4.0 est sortie en 1996. Alors que ce logiciel génère des contenus multimédia synthétiques avec une forte implication manuelle de l’utilisateur, les nouvelles techniques de génération sont à la fois complètement automatiques et extrêmement réalistes en termes de rendu. On parle alors d’hyper-trucage. Le deepFake fait partie de ces nouvelles technologies.

DeepFake est composé de "deep" désignant le "deep learning" pour l’apprentissage profond, et "fake" pour désigner un contenu falsifié, donnant ainsi la définition suivante : la création de contenu falsifié, basée sur l’intelligence artificielle de type deep learning.

À l’origine, ce terme est apparu à l’automne 2017 en référence à une technologie de remplacement hyperréaliste d’un visage cible par un autre visage dans une vidéo.

Le principe de base est d’apprendre les caractéristiques faciales de deux personnes, source et cible, par un paradigme d’auto-encodage. Pour placer le visage source, on utilise son décodeur cascadé avec l’encodeur de la cible. En d’autres termes, on cherche à calquer la dynamique des mouvements faciaux de la source sur la cible.

Depuis, d’autres approches ont émergé, comme celui du génératif adversaire donnant naissance à quatre familles principales : la synthèse intégrale de visage, la modification d'un ou plusieurs attributs du visage, le remplacement d'une expression du visage par une autre ainsi que l'échange de visage. Les mêmes stratégies peuvent aussi être transposées sur une autre modalité comme l'audio, en synthétisant ou en changeant l'expressivité d'une voix.

Quels sont les impacts du deepFake sur la société ?

En 2019, les utilisateurs passaient en moyenne 144 minutes par jour sur les réseaux sociaux, un chiffre en hausse de 60% depuis 2012. L’influence du contenu numérique sur le comportement individuel et collectif devient alors inéluctable. En injectant le deepFake comme ingrédient supplémentaire, la confiance dans le numérique est fortement menacée.

Prenons l’exemple de la sphère politique. Si le deepFake s’immisce dans celle-ci, l’influence de l’opinion publique deviendrait plus importante et plus complexe à tracer, conduisant ainsi à des décisions et choix stratégiques biaisés.

L’omniprésence de deepFakes risque de créer un sentiment d’impuissance de discernement et d’analyse du contenu, menant vers une perte de confiance dans l’information numérique. L’ancrage progressif de ce sentiment entraînerait une vision très frivole dans les procédés classiques de prise de décision commune, comme par exemple le vote, catalysant ainsi une entropie démocratique maximale.

Et si le deepFake s’invitait au tribunal ? Toute preuve visuelle inculpant une personne se verrait considérablement fragilisée, plongeant ainsi l’outil juridique dans des paradigmes de raisonnement encore jamais explorés.

Le deepFake serait alors synonyme d’incertitudes et de confusions permanentes dans les domaines utilisant le contenu numérique comme métaphore d’information.

Cette technologie, initialement pensée pour répondre à des besoins cinématographiques, comme par exemple en créant le jumeau numérique d’un acteur décédé pour le maintenir dans le tournage, prend alors une dimension bien plus sombre.

Peut-on parler d’une pandémie numérique ?

La majorité des programmes de deepFake est aujourd’hui en accès libre, alimentant ainsi le risque de généralisation de cette technologie. Pour comprendre la propagation des deepFakes, trois temps forts de son développement peuvent être dégagés :

DeepFake acte 1, la découverte 2017 : un utilisateur reddit anonyme applique cette technologie dans des films pornographiques, en remplaçant les visages originaux par des visages de célébrités sans consentement.

DeepFake acte 2, la prise de conscience 2018 : un discours d’Obama intégralement synthétique a été généré par Jordan Pelee. Le niveau de réalisme atteint était tel, que la falsification est alors devenue indiscernable par l’œil humain. La vidéo avait pour objectif d’alerter et de sensibiliser le plus grand nombre à la contamination du contenu numérique.

DeepFake acte 3 : la prolifération 2019 : un nouvel utilisateur anonyme lance une application appelée deepNude permettant de calquer le même raisonnement de manipulation de visage, mais cette fois sur le corps entier. Ainsi, à partir d’une image habillée d’une personne, il était possible de produire son équivalent, complètement nu. La propagation de cette application a été tellement rapide que le créateur a été obligé de la clore et Github a décidé de condamner l’accès à son code source.

À travers ces trois actes, on constate une ascension de la contamination du contenu multimédia. Celle-ci se nourrit, en parallèle, d’une amélioration continue de la qualité du rendu et de la projection du raisonnement deepFake sur d’autres modalités comme la voix. Ce contexte représente un milieu favorable à une importante propagation et à une complexité de dépistage toujours plus élevée.

Existe-il un remède à cette nouvelle maladie numérique?

Le deepFake est soumis à une philosophie d’entraînement adversaire, c’est-à-dire qu’un programme de détection ciblé joue le rôle d’un acteur adversaire permettant d’améliorer la qualité de la génération. En théorie, le générateur et le détecteur (ou deepFake et anti-deepFake) atteignent un équilibre,  où aucun des acteurs ne prend le pas sur l’autre : c’est l’équilibre de Nash.

Aujourd’hui, plusieurs détecteurs ont été mis au point montrant des résultats réconfortants, mais qui s’inscrivent malheureusement dans le cercle adversaire permettant ainsi une nouvelle génération deepFake toujours plus poussée…

À l’heure actuelle, aucun détecteur ne sort de ce cercle adversaire.

Pour converger vers un remède à long terme, d’excellentes initiatives ont été lancées pour encourager la communauté de recherche à redoubler d’efforts dans la lutte contre le deepFake à l’instar du challenge de détection lancé par Facebook. D’autres challenges ont été lancés depuis, représentant ainsi un signe d’espoir de décontamination des contenus multimédia. Plus récemment, dans son Defending Democracy Program, Microsoft a annoncé la sortie de nouveaux outils pour lutter contre les faux contenus et autres campagnes de désinformation.

Au-delà de la conception d’un « remède », c’est la conscience collective qui doit évoluer. Nous devons nous former pour devenir des cybercitoyens éclairés. Chacun doit prendre le recul nécessaire vis-à-vis de l’information numérique qui lui est proposée. L’adoption d’un scepticisme systématique doit devenir un réflexe.

Une démonstration ?

L’objectif est ici d’illustrer les principales étapes de la génération de deepFake. Je suis reparti d’une vidéo existante, en l’occurrence mon portrait (1ère vidéo), pour générer des deepFakes à partir des visages d’Emmanuel Macron, Angela Merkel et Donald Trump.

On peut constater sur la deuxième vidéo que le processus de génération d’un deepFake est constitué de deux étapes principales.

La première c’est l’entrainement, illustrée de 00:07 à 00:12s. Grâce à un algorithme de deep learning génératif, l’algorithme apprend, de manière automatique, à encoder et décoder les caractéristiques faciales de mon visage par rapport à celui d’Emmanuel Macron (lignes rouges). Très gourmande en temps de calcul, cette opération peut prendre des heures voire même des jours pour converger vers un état optimal.

La seconde étape est l’inférence, que l’on peut observer de 00:13 à 00:18s. Cette opération consiste à utiliser l’algorithme déjà entrainé dans son état optimal pour transcrire et superposer les visages sources sur mon propre visage (lignes vertes).

Les générations réalisées avec les visages d’A. Merkel et de D. Trump suivent la même stratégie et les mêmes codes couleurs pour aider au décryptage des étapes.