Vous dévoilez, à l’occasion de l’IBC, b<>com *Wisdom*. Pouvez-vous nous expliquer de quoi il s’agit ?
b<>com *Wisdom* est une solution qui adapte la fréquence image au contenu.
Concrètement, grâce à une technologie basée sur l’Intelligence Artificielle (IA), nous proposons de supprimer des images des vidéos pour économiser du stockage et de l’énergie mais sans pour autant perdre la qualité du contenu originel. Nous retirons uniquement les images dont la suppression est imperceptible pour le spectateur.
Comment avez-vous eu l’idée de travailler sur cet algo ?
Quand les nouveaux formats UHD ont été définis, nous avons été amenés à produire du contenu pour nos propres travaux de recherche au sein du labo Image Vision & Immersion.
Nous avons travaillé sur le flou de mouvement (motion blur) et nous avons fait des captations simultanées avec deux caméras : l’une à 60 fps (60 images par secondes, valeur de référence) et l’autre à 120 fps (fréquence d'images élevée pour gagner en fluidité dans les jeux par exemple).
Cela nous a permis de comparer les vidéos obtenues et de mettre en évidence l’apport d’une fréquence image élevée sur certains types de contenu. Mais cela a aussi permis de constater que pour certaines scènes, augmenter le rythme image n’apporte strictement rien, d’où l’idée de le faire varier dynamiquement selon le contenu !
Quand vous qualifiez votre solution « d’intelligente », cela signifie qu’elle fonctionne avec de l’IA, quelle rôle joue-t-elle ?
Notre solution repose effectivement sur un modèle d’intelligence artificielle qui permet de choisir très rapidement la fréquence image idéale par groupe de quatre images. Le fait de travailler par groupe de 4 images permet d’être très réactif aux changements du contenu. L’IA nous donne la possibilité de savoir précisément quand il est possible de supprimer des images sans que ce soit perceptible grâce à un modèle qui a été appris sur des milliers d’images et qui prend en compte de multiples caractéristiques extraites du contenu.
A qui cette innovation est-elle destinée ? Et quels seront bénéfices concrets pour les futurs utilisateurs ?
Cette technologie s’adresse autant aux créateurs de contenus (studios et chaînes TV) qu’aux plateformes de distribution (Orange/Netflix/Disney/etc…).
Notre solution peut s’utiliser à différents moments dans le process de création de contenus :
Cela peut se faire lors de l’étape de post-production pour éviter de manipuler de trop grandes quantités de données. On peut voir la solution comme un zip-unzip lors du stockage de vidéos en format mezzanine, et le gain peut alors atteindre jusqu’à 40% de réduction de taille des fichiers.
Une autre utilisation se situe au moment de la distribution des contenus. Nous sommes alors sur des formats de diffusion du type MPEG-AVC ou HEVC et la réduction de débit est alors de 5-15%. Elle est plus modérée puisque les images supprimées ne doivent pas servir de références et sont donc des images B, de taille réduite.
Ce gain, même modéré par rapport à une utilisation en post-prod, reste substantiel. En effet, si l’on raisonne au niveau d’un CDN, il ne faut pas oublier que le récepteur aura moins d’images à décoder et stocker en mémoire, ce qui peut conduire à un gain énergétique et/ou une meilleure autonomie.
En quoi cette solution est-elle différente de ce qui existe déjà sur le marché ?
La solution a pour principal avantage de faire varier la fréquence image en fonction du contenu, là où d’autres technologies le font en fonction d’autres critères tels que la bande passante ou la puissance de calcul.
En conséquence, notre solution se distingue par sa capacité à préserver la qualité d’expérience, puisque le traitement est imperceptible.
Notre technologie est d’ailleurs davantage complémentaire que concurrente des autres approches.
Par exemple, si l’on prend l’adaptive bitrate (ABR) couramment utilisé pour le vidéo streaming, chaque segment vidéo, qui est encodé selon différents formats, peut très bien ensuite être traité avec notre technologie de manière à améliorer globalement la qualité vidéo distribuée aux abonnés pour une capacité de distribution donnée.
Imaginons que je suis le représentant d’un distributeur de contenus, que lui diriez-vous pour le convaincre d’utiliser votre solution ?
Je lui expliquerais que bien que certains codeurs vidéo proposent déjà des traitements assez similaires et réduisent fortement le débit de certaines images (en particulier les images B), nous lui offrons la possibilité de choisir les images que l’on peut se permettre de supprimer. Et cela fait toute la différence sur le rendu final du contenu ! Notre solution est la seule à pouvoir à la fois respecter la qualité initiale du contenu tout en permettant de faire des économies d’images, de façon optimisée. Cela a d’ailleurs été confirmé par notre campagne de tests subjectifs qui a permis de valider le fait que le traitement opéré ne change en rien la qualité vidéo perçue par ses abonnés.
In fine il pourra gagner en capacité de stockage sur ses serveurs, sans aucune perte de qualité sur ses contenus.
Vous mettez en avant la frugalité de votre solution, pouvez-vous développer ce point ? Avez-vous des chiffres à nous partager ?
Quand on applique b<>com *Wisdom* avant la compression, le gain sur la taille des fichiers à stocker ou échanger est d’environ 35%.
Si on l’applique sur les vidéos déjà codées, le gain en débit est plus modéré, de 5 à 15% selon les cas, mais il y a aussi un impact côté récepteur qu’il est difficile de quantifier car très dépendant du type d’implémentation matérielle.
Quoi qu’il en soit, on conçoit instinctivement que supprimer les images qui n’apportent rien ne peut aller que dans le bon sens !
La même technologie peut être utilisée sur la source avant l'encodage, ce qui permet alors d'économiser jusqu'à 40 % d’images non compressées à stocker et/ou à distribuer aux fournisseurs de contenu.
Quelles sont les prochaines évolutions prévues ?
Nous souhaitons intégrer la solution dans un CDN afin de pouvoir mesurer en conditions réelles le gain apporté par la solution.
Si l’on parvient à mettre en évidence le nombre d’utilisateurs supplémentaires que l’on peut servir avec la même infrastructure, alors, nous pourrons quantifier encore plus précisément l’intérêt qu’apporte la solution.
En parallèle, nous continuons à réfléchir à des évolutions de l’algorithme qui pourraient jouer sur d’autres paramètres de la vidéo…
Plus d'infos sur le lab Images, Vision et Immersion.