• stage
  • Rennes

Stage : Inversion optimale d’un réseau de neurone profond de type StyleGAN

Descriptif de poste

Générer des images réalistes (de visages, d’animaux, d’écriture manuscrite, etc.) est un des objectifs majeurs de l’intelligence artificielle.

Mathématiquement, générer des échantillons (images) convaincants revient à approcher la distribution génératrice des données d’entraînement. Introduit en 2018, le StyleGAN est l’une des techniques les plus avancées dans la génération d’image. En effet, grâce à une cascade de deux fonctions, de mapping et de synthèse, le StyleGAN est capable de générer des images ultra-réalistes pour des résolutions 1920×1080. Concrètement, la fonction de mapping h_(ψ )prend en entrée un code latent z généré par une source aléatoire i.i.d de taille de 512 et produit un code latent intermédiaire w de taille 512. La fonction g_(Φ )prend w en entrée et produit une image x de taille 1024×1024×3 (pour 3 canaux RGB).
Cette structure générative montre en outre l’énorme potentiel de compression du StyleGAN, s’il pouvait être utilisé en sens inverse avec un rapport de  1/6144.

L’exploitation du potentiel de compression revient à inverser le processus génératif initial du StyleGAN. A partir d’images authentiques (non synthétisées) x', l’inversion consiste à retrouver les z' qui, présentés à l’entrée, produiraient les mêmes images. Ce problème s’écrit comme une optimisation qui se traduit par une minimisation itérative de la distance entre l’image x' et l’image générée g(h(z^' ))

Plusieurs techniques dans l’état de l’art ont tenté de résoudre ce problème d’optimisation. [2] Image2Style est la méthode la plus connue. Elle propose de résoudre le problème par une optimisation en descente de gradient atteignant une solution satisfaisante qui permet une reconstruction assez fidèle. Pour améliorer l’inversion, le travail développé dans [3] propose de réguler préalablement l’espace Z avec une heuristique gaussienne. Une des dernières techniques introduite dans [4] propose d’étendre le problème d’optimisation aux paramètres de la génération incluant le code latent ainsi que les paramètres des fonctions g et h atteignant ainsi un résultat de reconstruction presque parfait. La figure 2 montre visuellement les résultats de la reconstruction de l’approche [2] et [3].

Malgré les résultats de l’état de l’art, l’inversion présente des limitations, comme la lenteur de l’exécution allant de quelques secondes à quelques minutes. L’objectif de ce stage est de proposer des outils d’accélération de l’inversion qui reposent sur une compréhension analytique et approfondie de l’inférence du StyleGAN.

Références:
[1] T. Karras, S. Laine, and T. Aila, “A style-based generator architecture for generative adversarial networks,” in CVPR, 2019.

[2] R. Abdal, Y. Qin, and P. Wonka, “Image2StyleGAN: How to embed images into the StyleGAN latent space?” in ICCV, 2019.

[3] S. Menon, A. Damian, S. Hu, N. Ravi, and C. Rudin, “PULSE: self-supervised photo upsampling via latent space exploration of generative models,” in CVPR, 2020.

[4] Feng, Q., Shah, V., Gadde, R., Perona, P., & Martinez, A. (2022). Near Perfect GAN Inversion. arXiv preprint arXiv:2202.11833.

Profil recherché

En dernière année d’école d’ingénieur ou de Master 2 , vous faites preuve d’un intérêt pour les mathématiques appliquées (analyse, probabilités, traitement de signal statistique), sensibilisé à l’apprentissage statistique et attiré par la recherche. Il développera des aptitudes à la conception et l’implémentation d’algorithmes d’apprentissage automatique. Les développements informatiques s’effectueront en langage Python.

Intérêt pour le candidat

Vous bénéficierez d’un encadrement pluridisciplinaire solide dont l’objectif est de contribuer à des innovations majeures en traitement de données. Le stage pourra mener à une thèse.

Modalités

  • Localisation : Cesson Sévigné
  • Date de démarrage : 1er trimestre 2023
  • Durée : 6 mois