Si Apple a peut-être pris du retard dans la course aux IA génératives, il faudrait être naïf pour croire que la firme de Cupertino n’a pas de ressources à sa disposition dans ce domaine, ni même qu’elle n’obtient pas déjà des résultats probants. HUGS (Human Gaussian Splats) est une IA qui permet de créer des avatars 3D hyper-réalistes à partir de simples vidéos de quelques secondes d’individus en train de bouger. Mieux encore, HUGS n’a besoin que d’une trentaine de minutes pour parvenir à ces résultats, en utilisant notamment des technologies avancées de computer vision et de machine learning. Le chercheur d’Apple Anurag Ranjan fait un état des lieux de cette innovation, et rappelle en préambule que les technologies de photogrammetrie actuelles sont surtout adaptées à la reproduction d’éléments statiques, alors que HUGS parvient à générer des avatars 3D que l’on peut ensuite animer comme des personnages de jeux vidéo. Une vidéo d’à peine 50 frames (rappel, au cinéma une seconde c’est 24 frames) peut suffire à alimenter l’IA pour la génération de ces avatars.

L’IA recrée aussi ce qui n’a pu être récupéré à l’identique à partir de la vidéo source, comme les cheveux ou certains vêtements. L’avatar en sortie peut être généré en HD (720p) et 60 fps. La démo publiée sur X est en tout cas particulièrement convaincante, même si l’on peine encore à imaginer les applications qui pourraient être faites de cette innovation. La publication scientifique de HUGS liste les auteurs de l’IA (tous employés d’Apple), soit Muhammed Kocabas, Rick Chang, James Gabriel, Oncel Tuzel et Anurag Ranjan, avec la collaboration de l’Institut Max Planck pour les systèmes intelligents.