Le meilleur artiste deepfake au monde se bat avec le monstre qu'il a créé

Nous sommes en juin à Dalian, en Chine, une ville située sur une péninsule qui s'avance dans la mer Jaune à quelques centaines de kilomètres de Pékin dans un sens et de la frontière nord-coréenne dans l'autre. Hao Li se tient à l'intérieur d'un bâtiment caverneux et anguleux qui pourrait facilement être le repaire d'un méchant de Bond. Dehors, le temps est étouffant et la sécurité est renforcée. La conférence annuelle du Forum économique mondial est en ville.





Près de Li, politiciens et PDG du monde entier se relaient dans un stand. A l'intérieur, ils rient tandis que leur visage se transforme en celui d'une personne célèbre : Bruce Lee, Neil Armstrong ou Audrey Hepburn. L'astuce se déroule en temps réel et fonctionne presque parfaitement.

La remarquable machine à échanger des visages n'a pas été mise en place simplement pour divertir et amuser les riches et les puissants du monde. Li veut que ces personnes puissantes réfléchissent aux conséquences que les vidéos trafiquées avec l'IA - les deepfakes - pourraient avoir pour elles et pour le reste d'entre nous.

La désinformation est depuis longtemps un outil populaire de sabotage géopolitique, mais les médias sociaux ont injecté du carburant dans la diffusion de fausses nouvelles. Lorsque de fausses séquences vidéo sont aussi faciles à réaliser que de faux articles de presse, c'est une garantie virtuelle qu'elles seront militarisées. Vous voulez influencer une élection, ruiner la carrière et la réputation d'un ennemi ou déclencher la violence ethnique ? Il est difficile d'imaginer un véhicule plus efficace qu'un clip qui regards authentique, se propageant comme une traînée de poudre via Facebook, WhatsApp ou Twitter, plus rapidement que les gens ne peuvent comprendre qu'ils ont été dupés.



En tant que pionnier de la contrefaçon numérique, Li craint que les deepfakes ne soient que le début. Bien qu'il ait aidé à inaugurer une ère où nos yeux ne peuvent pas toujours faire confiance, il veut utiliser ses compétences pour résoudre le problème imminent de la tromperie vidéo omniprésente et presque parfaite.

La question est, serait-il déjà trop tard ?

Réécrire la réalité

Li n'est pas votre deeptruceur typique. Il ne se cache pas sur Reddit publier du faux porno ou des reprises de films célèbres modifié pour mettre en vedette Nicolas Cage . Il a passé sa carrière à développer des techniques de pointe pour forger des visages plus facilement et de manière convaincante. Il a également joué avec certains des visages les plus célèbres au monde pour les superproductions modernes, trompant des millions de personnes en leur faisant croire à un sourire ou à un clin d'œil qui n'a jamais été là. Parlant sur Skype depuis son bureau à Los Angeles un après-midi, il mentionne avec désinvolture que Will Smith s'est arrêté récemment, pour un film sur lequel il travaille.



Les acteurs viennent souvent au laboratoire de Li à l'Université de Californie du Sud (USC) pour faire numériser leur image. Ils sont placés à l'intérieur d'un réseau sphérique de lumières et de caméras de vision artificielle pour capturer la forme de leur visage, leurs expressions faciales, ainsi que le teint et la texture de leur peau jusqu'au niveau des pores individuels. Une équipe d'effets spéciaux travaillant sur un film peut alors manipuler des scènes déjà tournées, voire ajouter un acteur à une nouvelle en post-production.

Hao Li

Avec l'aimable autorisation de Hao Li

Une telle tromperie numérique est maintenant courante dans les films à gros budget. Les arrière-plans sont souvent rendus numériquement, et il est courant que le visage d'un acteur soit collé sur celui d'un cascadeur dans une scène d'action. Cela a conduit à des moments à couper le souffle pour les cinéphiles, comme lorsqu'une adolescente, la princesse Leia, est brièvement apparue à la fin de Rogue One: Une histoire de Star Wars , même si l'actrice qui avait joué Leia, Carrie Fisher, avait près de 60 ans lorsque le film a été tourné.



Faire bien paraître ces effets nécessite normalement une expertise importante et des millions de dollars. Mais grâce aux progrès de l'intelligence artificielle, il est désormais presque trivial d'échanger deux visages dans une vidéo, en n'utilisant rien de plus puissant qu'un ordinateur portable. Avec un peu de savoir-faire supplémentaire, vous pouvez faire en sorte qu'un politicien, un PDG ou un ennemi personnel dise ou fasse ce que vous voulez (comme dans la vidéo en haut de l'histoire, dans laquelle Li a cartographié la ressemblance d'Elon Musk sur mon visage).

Une histoire de tromperie

En personne, Li a l'air plus cyberpunk que Sunset Strip. Ses cheveux sont rasés en un Mohawk qui tombe d'un côté, et il porte souvent un t-shirt noir et une veste en cuir. Lorsqu'il parle, il a une étrange habitude de cligner des yeux d'une manière qui trahit les nuits tardives passées dans la lueur chaude d'un écran d'ordinateur. Il n'hésite pas à vanter l'éclat de sa technologie ou ce qu'il a en préparation. Pendant les conversations, il aime sortir un smartphone pour vous montrer quelque chose de nouveau.

Hao Li et une personne utilisant un casque VR.

Avec l'aimable autorisation de Hao Li



Li a grandi à Sarrebruck, en Allemagne, fils d'immigrants taïwanais. Il a fréquenté un lycée franco-allemand et a appris à parler couramment quatre langues (français, allemand, anglais et mandarin). Il se souvient du moment où il a décidé de passer son temps à brouiller la frontière entre réalité et fantasme. C'était en 1993, lorsqu'il a vu un énorme dinosaure apparaître dans le film de Steven Spielberg. parc jurassique . Alors que les acteurs regardaient la bête générée par ordinateur, Li, alors âgé de 12 ans, a compris ce que la technologie venait de rendre possible. J'ai réalisé que vous pouviez désormais créer n'importe quoi, même des choses qui n'existent même pas, se souvient-il.

Li a obtenu son doctorat à l'ETH Zurich, une prestigieuse université technique en Suisse, où l'un de ses conseillers se souvient de lui à la fois comme un étudiant brillant et un farceur incorrigible. Les vidéos accompagnant les articles académiques comprenaient parfois des caricatures peu flatteuses de ses professeurs.

Capture d

Les frères de Paul Walker ont fourni un modèle pour sa ressemblance numérique dans Furious 7. Weta Digital

Peu de temps après avoir rejoint l'USC, Li a créé une technologie de suivi du visage utilisée pour créer une version numérique du défunt acteur Paul Walker pour le film d'action. Furieux 7 . C'était une grande réussite, car Walker, décédé dans un accident de voiture à mi-chemin du tournage, n'avait pas été scanné au préalable, et son personnage devait apparaître dans tant de scènes. La technologie de Li a été utilisée pour coller le visage de Walker sur les corps de ses deux frères, qui se sont relayés pour jouer à sa place dans plus de 200 scènes.

Le film, qui a rapporté 1,5 milliard de dollars au box-office, a été le premier à dépendre autant d'une star recréée numériquement. Li mentionne le rôle virtuel de Walker lorsqu'il parle de la qualité de la supercherie vidéo. Même moi, je ne peux pas dire lesquels sont faux, dit-il en secouant la tête.

Virtuellement vous

En 2009, moins d'une décennie avant l'émergence des deepfakes, Li a développé un moyen de capturer le visage d'une personne en temps réel et de l'utiliser pour faire fonctionner une marionnette virtuelle. Cela impliquait d'utiliser les derniers capteurs de profondeur et un nouveau logiciel pour cartographier ce visage et ses expressions sur un masque en matériau virtuel déformable.

Un exemple de suivi de visage basé sur des marqueurs. Technologies des masques

Plus important encore, l'approche a fonctionné sans qu'il soit nécessaire d'ajouter des dizaines de marqueurs de suivi de mouvement au visage d'une personne, une technique standard de l'industrie pour suivre le mouvement du visage. Li a contribué au développement d'un logiciel appelé Faceshift, qui sera plus tard commercialisé en tant que spin-off universitaire. La société a été acquise par Apple en 2015 et sa technologie a été utilisée pour créer le logiciel Animoji qui vous permet de vous transformer en licorne ou en tas de caca parlant sur les derniers iPhones.

Li et ses étudiants ont publié des dizaines d'articles sur des sujets tels que les avatars qui reflètent les mouvements du corps entier, les cheveux virtuels très réalistes et la peau simulée qui s'étire comme la vraie peau. Ces dernières années, son groupe s'est appuyé sur les avancées de l'apprentissage automatique et surtout de l'apprentissage en profondeur, une manière d'entraîner les ordinateurs à faire des choses à l'aide d'un vaste réseau de neurones simulés. Ses recherches ont également été appliquées à la médecine, aidant à développer des moyens de suivre les tumeurs à l'intérieur du corps et à modéliser les propriétés des os et des tissus.

Aujourd'hui, Li partage son temps entre l'enseignement, la consultation pour les studios de cinéma et la gestion d'une nouvelle startup, Pinscreen. La société utilise une IA plus avancée que celle derrière les deepfakes pour créer des avatars virtuels. Son application transforme une seule photo en un avatar 3D photoréaliste en quelques secondes. Il utilise des algorithmes d'apprentissage automatique qui ont été formés pour cartographier l'apparence d'un visage sur un modèle 3D à l'aide de plusieurs milliers d'images fixes et des scans 3D correspondants. Le processus est amélioré en utilisant ce que l'on appelle des réseaux antagonistes génératifs, ou GAN (qui ne sont pas utilisés pour la plupart des deepfakes). Cela signifie qu'un algorithme produit de fausses images tandis qu'un autre juge si elles sont fausses, un processus qui améliore progressivement la fausseté. Vous pouvez demander à votre avatar d'effectuer des danses idiotes et d'essayer différentes tenues, et vous pouvez contrôler les expressions faciales de l'avatar en temps réel, en utilisant votre propre visage via l'appareil photo de votre smartphone.

Un ancien employé, Iman Sadeghi, poursuit Pinscreen, alléguant qu'il a truqué une présentation de la technologie lors de la conférence SIGGRAPH en 2017. Examen de la technologie MIT a vu des lettres de plusieurs experts et organisateurs SIGGRAPH rejetant ces allégations.

Pinscreen travaille avec plusieurs grands détaillants de vêtements qui voient sa technologie comme un moyen de permettre aux gens d'essayer des vêtements sans avoir à se rendre dans un magasin physique. La technologie pourrait également être importante pour la vidéoconférence, la réalité virtuelle et les jeux. Imaginez simplement un personnage Fortnite qui non seulement vous ressemble, mais qui rit et danse de la même manière.

Avatars créés à l

Avatars créés à l'aide de l'application Pin Screen. Avec l'aimable autorisation de Hao Li

Sous la bêtise numérique, cependant, se cache une tendance importante : l'IA fait rapidement de la manipulation d'images avancée la province du smartphone plutôt que celle du bureau. FaceApp , développé par une entreprise de Saint-Pétersbourg, en Russie, a attiré des millions d'utilisateurs, et une controverse récente, en offrant un moyen en un clic de changer un visage sur votre téléphone . Vous pouvez ajouter un sourire à une photo, supprimer des imperfections ou jouer avec votre âge ou votre sexe (ou celui de quelqu'un d'autre). Des dizaines d'autres applications offrent des manipulations similaires en un clic.

Tout le monde n'est pas enthousiasmé par la perspective que cette technologie devienne omniprésente. Li et d'autres essaient essentiellement de créer des deepfakes à une image, mobiles et en temps réel, explique Sam Gregory, directeur de Witness, une organisation à but non lucratif axée sur la vidéo et les droits de l'homme. C'est le niveau de menace qui m'inquiète, quand il [devient] quelque chose qui est moins facilement contrôlé et plus accessible à un éventail d'acteurs.

Heureusement, la plupart des deepfakes semblent encore un peu décalés. Un visage scintillant, un œil bancal ou un teint étrange les rendent assez faciles à repérer. Mais tout comme un expert peut supprimer de tels défauts, les progrès de l'IA promettent de les lisser automatiquement, rendant les fausses vidéos à la fois plus simples à créer et plus difficiles à détecter.

Alors même que Li se précipite avec la contrefaçon numérique, il est également troublé par le potentiel de préjudice. Nous sommes assis devant un problème, dit-il.

Attraper des imposteurs

Les décideurs américains sont particulièrement préoccupés par la manière dont les deepfakes pourraient être utilisés pour diffuser de fausses nouvelles et des informations erronées plus convaincantes avant l'élection présidentielle de l'année prochaine. Plus tôt ce mois-ci, le House Intelligence Committee a demandé à Facebook, Google et Twitter comment ils prévoyaient de faire face à la menace des deepfakes. Chaque entreprise a déclaré qu'elle travaillait sur le problème, mais aucune n'a proposé de solution.

La DARPA, l'agence de recherche bien financée de l'armée américaine, s'inquiète également de la montée de la manipulation numérique. En 2016, avant que les deepfakes ne deviennent une chose, la DARPA a lancé un programme appelé Media Forensics, ou MediFor, pour encourager les experts en criminalistique numérique à développer des outils automatisés pour capturer des images manipulées. Un expert humain peut utiliser une gamme de méthodes pour repérer les falsifications photographiques, allant de l'analyse des incohérences dans les données d'un fichier ou des caractéristiques de pixels spécifiques à la recherche d'incohérences physiques telles qu'une ombre mal placée ou un angle improbable.

MediFor se concentre désormais largement sur la détection des deepfakes. La détection est fondamentalement plus difficile que la création car les algorithmes d'IA peuvent apprendre à cacher des choses qui révèlent des contrefaçons. Les premières méthodes de détection des deepfakes incluent le suivi des clignements non naturels et des mouvements étranges des lèvres. Mais les derniers deepfakes ont déjà appris à lisser automatiquement ces problèmes.

Plus tôt cette année, Matt Turek, responsable du programme DARPA pour MediFor, a demandé à Li de démontrer ses contrefaçons aux chercheurs de MediFor. Cela a conduit à une collaboration avec Hany Farid, professeur à UC Berkeley et l'une des plus grandes autorités mondiales en matière de criminalistique numérique. La paire est maintenant engagée dans un jeu numérique du chat et de la souris, Li développant des deepfakes que Farid doit attraper, puis les affinant pour échapper à la détection.

Farid, Li et d'autres récemment publié un papier décrivant une nouvelle façon plus puissante de repérer les deepfakes. Cela repose sur la formation d'un algorithme d'apprentissage automatique pour reconnaître les bizarreries des expressions faciales et des mouvements de tête d'un individu spécifique. Si vous collez simplement la ressemblance de quelqu'un sur un autre visage, ces caractéristiques ne seront pas reportées. Il faudrait beaucoup de puissance informatique et de données de formation, c'est-à-dire des images ou des vidéos de la personne, pour créer un deepfake qui intègre ces caractéristiques. Mais un jour ce sera possible. Les solutions techniques continueront à s'améliorer du côté défensif, dit Turek. Mais est-ce que ce sera parfait ? J'en doute.

Pixel-parfait

De retour à Dalian, il est clair que les gens commencent à prendre conscience du danger des deepfakes. Le matin avant ma rencontre avec Li, un politicien européen était entré dans la cabine d'échange de visages, seulement pour que ses gardiens l'arrêtent. Ils craignaient que le système ne capture sa ressemblance en détail, ce qui permettrait à quelqu'un de créer plus facilement de faux clips de lui.

Personne utilisant un programme deep fake sur un écran de télévision

Un employé de Pinscreen fait la démonstration d'un système d'échange de visage en direct lors de la conférence du Forum économique mondial à Dalian, en Chine, en juillet. Avec l'aimable autorisation de Hao Li

Alors qu'il regarde les gens utiliser le stand, Li me dit qu'il n'y a aucune raison technique pour que les deepfakes soient détectables. Les vidéos ne sont que des pixels avec une certaine valeur de couleur, dit-il.

Les rendre parfaits n'est qu'une question de temps et de ressources, et comme le montre sa collaboration avec Farid, cela devient de plus en plus facile. Nous assistons à une course aux armements entre les manipulations numériques et la capacité de les détecter, dit-il, avec les progrès des algorithmes basés sur l'IA qui catalysent les deux côtés.

La mauvaise nouvelle, pense Li, c'est qu'il finira par gagner. Dans quelques années, estime-t-il, des deepfakes indétectables pourraient être créés en un clic. Lorsque ce point arrive, dit-il, nous devons être conscients que toutes les vidéos que nous voyons ne sont pas vraies.

cacher