Relocalisation Robuste de Caméra en Temps Réel pour la Réalité Augmentée par une Approche Hybride combinant Réseaux de Neurones et Méthodes Géométriques

Conference Paper - 2019

Conference

RFIAP

Author(s)

Nam-Duong Duong
Amine Kacete
Catherine Soladie
Pierre-Yves Richard
Jérôme Royan

Abstract

La relocalisation des caméras se signale comme une pro-blématique centrale dans le domaine émergent de la réalité augmentée. Les approches les plus courantes pour la trai-ter, regroupées sous l'appellation générique de méthodes géométriques, ont pour noms SLAM (Simultaneous Locali-zation And Mapping) et SfM (Structure from Motion). Les rapides progrès de l'apprentissage automatique, en par-ticulier ceux de l'apprentissage en profondeur, ont égale-ment offert de nouvelles perspectives prometteuses à cette problématique. De premières tentatives ont récemment été faites pour combiner les deux types d'approches. Cepen-dant, la lourdeur des algorithmes utilisés rend difficile leur exploitation dans le contexte temps réel sous-jacent à la réalité augmentée. De plus, les prédictions concer-nant la pose d'une caméra restent incertaines, n'étant encore assorties d'aucun score de confiance. Dans cet article , nous proposons une méthode hybride mélangeant à la fois les approches de l'apprentissage en profondeur et les approches géométriques pour estimer la pose d'une ca-méra indépendamment image par image. Nous présentons un réseau de neurones convolutif (CNN) léger, appelé xyz-Net pour calculer en temps réel et robustement par régres-sion les coordonnées dans le repère du monde des points réels associés aux pixels d'une image. Ensuite, l'informa-tion géométrique sur les correspondances 2D-3D permet l'élimination des prédictions ambiguës et le calcul d'une pose de caméra plus précise. De plus, nous montrons des résultats favorables quant à l'exactitude et la performance de notre méthode sur des ensembles de données différents ainsi que sa capacité à relever les défis concernant la scène dynamique. Mots Clef Relocalisation de caméra en temps réel, régression de l'ap-prentissage en profondeur. Abstract Camera relocalization is a central issue in augmented reality. The most common approaches for camera relocaliza-tion known as the geometric-based methods are Simultaneous Localization And Mapping (SLAM) and Structure from Motion (SfM). Also, camera relocalization has recently obtained many promising results thanks to progress in machine learning, especially in deep learning. First attempts to combine both kinds of approaches have recently been published. However, the latter are not suitable for a real time use, because of time consuming algorithms. Besides , prediction about camera pose keeps uncertain with no confidence score provided. In this paper, we propose a hybrid method merging both deep learning and geometric approaches to estimate camera pose in real time. We present a light Convolutional Neural Network (CNN) called xyzNet to efficiently and robustly regress world coordinates of pixels in an image. Then, the geometric information about 2D-3D correspondences allows the removal of ambiguous predictions and the calculation of more accurate camera pose. Moreover, we show favorable results about the accuracy and the performance of our method on different datasets as well as the capacity to address challenges concerning dynamic scene.