Stage de recherche (TER) · IRIT · L3 MIDL

Jumeau numérique de vidéos de danseurs acrobatiques

Travail d'étude et de recherche (TER) réalisé à l'Institut de Recherche en Informatique de Toulouse (IRIT) autour de la segmentation vidéo, de l'analyse de pose et de la réinsertion d'une personne sur un nouveau fond.

Ce TER était axé autour de deux problématiques principales :

Comment créer un jumeau numérique de vidéos de danseurs acrobatiques en mouvement le plus qualitatif possible, via un pipeline de vision par ordinateur combinant estimation de pose, segmentation et réinsertion sur de nouveaux fonds.
La recherche de métriques quantitatives d'estimation de la qualité de reconstruction des vidéos obtenues.

Réalisé en binôme avec Tony Perottino.

Voir le projet sur GitHub Voir le rapport du TER (PDF) Slides de présentation du TER ← Retour aux projets

TER IRIT

Création d'un jumeau numérique de vidéos de danseurs acrobatiques et recherche de métriques d'estimation de qualité de reconstruction vidéo.

Vision par ordinateur
NLF + SAM2
SAM3
Réinsertion vidéo
Métriques d'estimation de qualité de reconstruction

Présentation générale

Les ressources suivantes permettent de consulter le rapport complet du TER et les notebooks Google Colab associés aux différentes versions du projet.

Voir le rapport du TER (PDF) Voir le projet sur GitHub

Contexte du TER

Ce TER s'inscrit dans une problématique plus générale liée à la manipulation vidéo et aux deepfakes : avant de modifier ou de réinsérer un élément dans une vidéo, il faut souvent être capable de l'isoler précisément.

Dans notre cas, nous avons étudié des vidéos de danseurs acrobatiques. Le but était de détourer automatiquement la personne présente dans une scène fixe, puis de la réinsérer sur un nouveau fond. Ce choix rend le problème difficile : la barre verticale passe régulièrement devant et derrière le corps, les postures prises sont inhabituelles et extrêmes, les cheveux et les membres fins sont difficiles à segmenter, et la cohérence temporelle doit être conservée sur toute la vidéo.

L'objectif n'était donc pas seulement de produire un masque sur une image isolée, mais de construire une chaîne de traitement vidéo complète, comprenant :

Extraction des frames,
Analyse de pose du danseur,
Segmentation du danseur,
Réinsertion sur un nouveau fond,
Puis évaluation qualitative et quantitative des résultats obtenus.

Données et protocole expérimental

Le projet repose sur un ensemble d'environ 50 vidéos de danseurs acrobatiques. La majorité des expérimentations décrites dans le rapport sont réalisées sur une vidéo témoin de 1329 frames, présentant notamment multiples changements de posture et variations de vitesse.

À partir de la version V3 du notebook, le protocole général consiste à charger une vidéo, extraire ses frames, obtenir des informations géométriques sur la personne, guider une méthode de segmentation vidéo, produire une vidéo détourée, réinsérer la personne sur un nouveau fond, puis analyser la qualité de la reconstruction obtenue.

Évolution du projet : quatre versions de notebooks

Le TER s'est structuré autour de quatre versions principales de notebooks Google Colab. Chaque version correspond à l'implémentation d'une nouvelle étape méthodologique du pipeline décrit ci-dessus.

Liens vers les quatre notebooks mentionnés dans le rapport :

Google Colab V1 Google Colab V2 Google Colab V3 Google Colab V4

V1 et V2 : analyse de pose et premier pipeline

La V1 est consacrée à l'étude de NLF, un outil d'estimation de pose permettant de détecter la personne et de récupérer des joints 2D/3D.
Cette première étape a permis de comprendre ce que l'analyse de pose pouvait apporter au pipeline : localisation approximative du corps, visualisation du squelette et estimation de la robustesse temporelle.

La V2 introduit SAM2 pour réaliser la segmentation. L'idée est alors d'utiliser les informations de pose comme points d'ancrage, puis de propager le masque sur la vidéo.
Cette version constitue le premier véritable pipeline de segmentation et de reconstruction vidéo du projet.

V3 et V4 : deux stratégies complémentaires

La V3 est la version la plus aboutie reposant sur la combinaison NLF + SAM2.
Elle conserve l'analyse de pose pour guider régulièrement la segmentation, puis ajoute un travail important sur l'évaluation des résultats.
Cette version est relativement rapide et sert de base méthodologique pour l'étude des métriques.

La V4 change complètement de stratégie : elle s'appuie directement sur SAM3, sans passer par NLF pour guider la segmentation.
Le modèle est piloté par un prompt texte, puis propage la segmentation dans la vidéo. Cette approche donne des masques généralement plus cohérents, notamment sur les cheveux et les parties fines du sujet, mais elle demande un temps de calcul beaucoup plus élevé.

Segmentation vidéo et reconstruction

Slides de présentation du TER Vidéo de comparaison V3 vs V4

Pipeline V3 : NLF + SAM2

Dans la V3, NLF fournit des joints 2D qui servent à guider périodiquement SAM2. Cette stratégie permet de limiter les dérives de segmentation qui apparaissent lorsque SAM2 est lancé seul sur une vidéo longue, en particulier lorsque la danseuse passe devant ou derrière la barre.

Sur la vidéo témoin, cette approche donne un pipeline exploitable en environ 17 minutes pour 1329 frames.
Elle permet d'obtenir une vidéo détourée et d'enchaîner ensuite sur la réinsertion, mais elle reste imparfaite : certaines structures fines, notamment les cheveux ou certaines extrémités du corps, sont parfois perdues ou mal suivies.

Pipeline V4 : SAM3

La V4 repose sur une segmentation directement pilotée par SAM3. Plusieurs prompts texte (personnalisés et modifiables) sont testés sur une frame de référence, puis le meilleur prompt est utilisé pour segmenter la vidéo par blocs successifs.

Cette version améliore nettement la qualité visuelle des masques sur la vidéo témoin. La silhouette est plus continue, les cheveux sont mieux conservés et la segmentation est globalement plus cohérente temporellement.
En contrepartie, le temps d'exécution augmente fortement : l'exécution complète demande environ 1 h 30 sur la vidéo témoin de 1329 frames, soit environ 4 à 5 fois plus long que la V3.

Comparaison V3 et V4

Les deux pipelines ne doivent donc pas être vus comme strictement concurrents, mais plutôt comme complémentaires :

V3 : plus rapide et adaptée aux expérimentations rapides, notamment pour la recherche de nouvelles métriques,
V4 : plus coûteuse en temps, mais plus convaincante lorsque la qualité visuelle de la segmentation est prioritaire.

Réinsertion sur un nouveau fond

Une fois la vidéo détourée obtenue, la dernière étape de construction du jumeau numérique consiste à réinsérer la danseuse dans un nouveau fond.

Dans les notebooks Google Colab, la réinsertion est réalisée à partir d'une transformation géométrique via la barre verticale : deux points de référence sont choisis (au même emplacement) sur la barre verticale dans la vidéo originale et sur l'image de destination et permettent de réaliser une transformation géométrique combinant rotation, changement d'échelle et translation.

Cette méthode fournit une première démonstration fonctionnelle, mais elle reste dépendante de plusieurs réglages manuels.
La qualité de la vidéo finale dépend donc à la fois de la précision du masque, de la stabilité temporelle du détourage du danseur et du bon alignement géométrique entre la vidéo et le nouveau fond.

Évaluation quantitative des résultats

Une deuxième partie importante du TER a consisté à chercher des métriques permettant de quantifier et de repérer automatiquement les erreurs de segmentation sur les vidéos finales, au lieu de se limiter à une inspection manuelle frame par frame.

Métriques sur les masques

Une première famille de métriques explorées repose sur l'aire des masques : on mesure le nombre de pixels appartenant au danseur acrobatique, puis on étudie les variations et accélérations de cette aire au cours du temps.
Une variation brutale de l'aire se traduit souvent par une disparition partielle du corps, une inclusion du fond ou une erreur de segmentation, indiquant une mauvaise transition dans la vidéo résultante.

Une deuxième approche explorée utilise la distance de Bhattacharyya sur des histogrammes projetés des masques. L'objectif est de mesurer la dissimilarité entre deux masques consécutifs ou entre un masque et une fenêtre de masques voisins.
Cette méthode donne une mesure de stabilité temporelle, mais elle identifie plus facilement les zones stables que les frames réellement problématiques.

Toutes ces métriques ont été testées sur la vidéo témoin et ont été comparées à une annotation manuelle frame par frame au moyen de matrices de confusion.
Les résultats obtenus montrent que ces indicateurs simples sont utiles pour guider l'inspection, mais qu'ils ne suffisent pas à produire un bon score final fiable de qualité de reconstruction vidéo.

Aidemos / Convert Body To 3D

Nous avons également exploré une métrique plus géométrique basée sur l'outil Aidemos / Convert Body To 3D de Meta, correspondant à SAM 3D Body.
L'objectif de cette nouvelle métrique est de ne plus regarder seulement la forme du masque, mais plutôt la cohérence du corps reconstruit à partir de ce masque suite à une analyse frame par frame.

Pour chaque transition suspecte de la vidéo résultante, le calque RGB est recadré puis fourni à SAM 3D Body, qui produit des points-clés 3D et leurs projections 2D.
Ensuite, on utilise une distance de Procrustes normalisée qui nous permet de comparer deux squelettes consécutifs et de repérer les sauts corporels anormaux.

Cette deuxième approche est prometteuse car elle détecte des erreurs liées à la cohérence globale du corps : disparition d'un membre, fusion avec la barre, recadrage incohérent ou changement brutal de silhouette. Elle reste cependant très coûteuse en temps et sensible aux échecs de reconstruction.

Bilan et perspectives

Au terme du TER, nous avons obtenu deux pipelines exploitables pour la segmentation de vidéos de danseurs acrobatiques :

Un pipeline NLF + SAM2 (V3), plus rapide et adapté aux expérimentations,
Et un pipeline SAM3 (V4), plus lent mais plus convaincant visuellement.

Ce projet nous a aussi montré que la difficulté ne réside pas seulement dans le choix d'un modèle de segmentation.
Les positions extrêmes, les auto-occlusions, la barre verticale, les cheveux et les changements rapides de posture rendent indispensable une réflexion sur la stabilité temporelle et sur l'évaluation quantitative des résultats.

Les perspectives d'amélioration principales concernent :

L'optimisation du pipeline SAM3,
Le raffinement des métriques quantitatives d'estimation de qualité de reconstruction vidéo,
L'automatisation de la réinsertion sur un nouveau fond,
Et la construction d'un score plus robuste combinant plusieurs indicateurs complémentaires.