• emploi
  • Rennes

Thèse : Codage de vidéos holographiques avec estimation et compensation du mouvement

A propos de b<>com

Fournisseur de technologies pour les entreprises qui souhaitent accélérer leur compétitivité grâce au numérique, b<>com est au service des industries culturelles et créatives, des infrastructures numériques, de la défense, de l’industrie 4.0 et de la santé. Ses laboratoires mixent les talents de disciplines et cultures multiples dans les domaines de l’intelligence artificielle, de la vidéo et l’audio immersif, de la protection de contenus, des réseaux 5G, de l’internet des objets et des technologies cognitives… Issus des mondes industriel et universitaire, ses chercheurs et ingénieurs évoluent sur son campus de Rennes et ses sites de Paris, Brest et Lannion. Grâce à son équipe d’ingénierie avancée et ses moyens scientifiques propres, b<>com propose à ses clients des ingrédients et des solutions qui font la différence.

Définition du poste

  • Contexte scientifique

Avec les récents progrès des systèmes de capture et de visualisation 3D, les technologies immersives ont reçu une attention considérable de la communauté scientifique et industrielle au cours de la dernière décennie. En effet, les consommateurs recherchent une meilleure sensation de présence lors de leurs interactions à distance et de leurs divertissements audiovisuels : il y a un réel besoin d’un affichage 3D capable de projeter l'utilisateur dans un environnement virtuel immersif ou de donner l'illusion que des interlocuteurs situés à des kilomètres de distance sont présents dans la même salle de conférence.
Malheureusement, la plupart des systèmes de visualisation 3D actuels - tels que les casques de réalité virtuelle ou les téléviseurs 3D - utilisent la stéréoscopie, qui ne parvient pas à créer une illusion de profondeur naturelle et réaliste. En effet, la stéréoscopie ne reproduit pas tous les indices de perception de la profondeur du système visuel humain perçus en vision naturelle. En particulier, elle ne fournit pas l’indice d'accommodation : le spectateur doit faire le focus sur un plan fixe dont la profondeur ne correspond pas à l'emplacement réel des objets virtuels. Cela dégrade fortement l'interaction et l'immersion, et crée le conflit Accommodation-Convergence, entraînant une fatigue oculaire et des maux de tête.
Pour résoudre cette limitation, plusieurs technologies alternatives ont été proposées au cours des dernières décennies. Parmi ces techniques, l’Holographie est souvent considérée comme la plus prometteuse, car elle fournit tous les indices de perception de la profondeur du système visuel humain sans provoquer de fatigue oculaire. Pour créer l'illusion de profondeur, un hologramme diffracte un faisceau de lumière pour lui donner la forme de l'onde lumineuse qui serait émise, transmise ou réfléchie par une scène donnée. Par conséquent, les spectateurs perçoivent la scène comme si elle était physiquement présente devant eux.
Grâce à ces propriétés de visualisation, l’Holographie est un candidat parfait pour un affichage 3D réaliste, créant des images virtuelles impossibles à distinguer des images réelles. Cependant, cette technique présente plusieurs limitations qui doivent être résolues. L'un des verrous les plus importants est la quantité très importante d'informations contenues dans un hologramme numérique. En effet, puisqu'il crée l'illusion de profondeur en utilisant la diffraction de la lumière, la taille des pixels d'un hologramme doit être de l’ordre de la longueur d'onde de la lumière visible. En raison de cette taille microscopique, un hologramme avec une grande taille et un grand angle de vue contient plusieurs milliards de pixels, correspondant à plusieurs téraoctets de données. Par exemple, un hologramme de taille 20 cm × 15 cm avec un angle de vue de 120° nécessite une résolution de 720K × 540K pixels, impliquant plus de 1 To par image. Même en tenant compte de l'évolution rapide des technologies électroniques, stocker et transmettre une telle quantité de données est loin d'être réalisable dans les prochaines années. De cette observation, il est clair que de nouveaux algorithmes de compression capables de réduire considérablement la consommation en mémoire et en bande passante des signaux holographiques sont nécessaires.
Le principal défi pour la compression de données réside dans le fait que les hologrammes sont des motifs de diffraction ayant des propriétés très différentes des images et vidéos traditionnelles. En particulier, ils contiennent des coefficients de haute fréquence qui jouent un rôle majeur dans la visualisation 3D et ne peuvent pas être supprimés par les techniques de codage d'image conventionnelles.
Partant de cette observation, plusieurs techniques de compression ont été spécialement conçues pour les données holographiques. Néanmoins, la plupart de ces travaux se sont concentrés sur des hologrammes statiques sans prendre en compte les redondances temporelles dans les vidéos holographiques. En effet, l'estimation de mouvement à partir de données holographiques est encore un défi qui n'a jamais été résolu. La suppression des redondances temporelles réduirait considérablement la consommation en mémoire et en bande passante des vidéos holographiques. Il apparait donc clairement que les futurs codeurs auront besoin de cette fonctionnalité.
Pour relever ce défi, l'objectif de cette thèse est de concevoir une nouvelle génération de codeurs de vidéos holographiques permettant d’estimer et de compenser le mouvement de plusieurs objets se déplaçant indépendamment. En rupture avec les techniques de compression conventionnelles, l'étudiant utilisera des passerelles entre l'Optique Géométrique, décrivant les rayons lumineux, et l'Optique de Fourier, modélisant la propagation des ondes lumineuses, pour comprendre et caractériser le lien entre les mouvements des objets de la scène et l'évolution des motifs holographiques.

 

  • Objectifs de la thèse

Pour estimer et suivre le mouvement dans la scène, il faut extraire et analyser les variations de la géométrie 3D à partir du signal holographique. Malheureusement, récupérer la scène à partir d'un seul hologramme numérique est un problème inverse mal posé pour lequel aucune solution exacte n'existe. En effet, l'onde lumineuse diffusée par chaque point de la scène contribue à chaque pixel lors de l'enregistrement de l'hologramme. Par conséquent, le signal holographique brouille les informations de la scène 3D, qui ne peuvent pas être récupérées directement. En particulier, un léger changement dans la scène se traduit par des motifs holographiques très différents, faisant de l'estimation de mouvement un sujet de recherche non trivial.
Pour résoudre ce verrou, deux pistes de recherche seront explorées en parallèle. La première approche consiste à utiliser des outils d'analyse espace-fréquence pour récupérer la scène à partir des données holographiques. Ensuite, les mouvements des objets de la scène seront estimés et compensés à partir de ces données extraites. Dans la seconde approche, l'étudiant tentera d'estimer et de compenser les déformations de la scène en ne considérant que l'évolution des franges de diffraction holographiques. En particulier, il étudiera des transformations non triviales pour représenter directement l'évolution espace-fréquence de l'hologramme par une expression de forme fermée. Enfin, les algorithmes conçus seront accélérés et parallélisés dans des implémentations efficaces en termes de temps de calcul.

Profil recherché 

Master ou diplôme d’Ingénieur en traitement du Signal et/ou de l’Image, Mathématiques appliquées ou équivalent

  • Compétences en Intelligence Artificielle (apprentissage profond, réseaux de neurones, etc.)
  • Bonne maîtrise du langage C++ et de Matlab
  • Bonne maîtrise de l’anglais, écrit et oral

Modalités 

  • Type de contrat : CDD de 3 ans
  • Date de démarrage : octobre 2021
  • Localisation : Rennes