Imaginez que vous êtes en cuisine, prêt à préparer un bon petit plat. Pour réussir ce que vous avez en tête, vous allez devoir mobiliser tous vos sens : la vue pour vérifier la couleur et la forme des ingrédients, l’odorat pour détecter la bonne odeur d’oignons qui caramélisent (ou l’odeur de brûlé, au choix), le toucher pour tester la texture de votre pâte, l’ouïe pour écouter si l’huile crépite enfin (signe que la poêle est bien chaude) et le goût, évidemment, pour ajuster l’assaisonnement.
Vous voyez l’idée ? Si vous vous limitiez à seulement l’odorat ou la vue, vous seriez peut-être capable de cuisiner, mais avouons-le : il y aurait plus de risques que ça foire. Le fait de combiner tous ces canaux (ou “modalités”) vous donne une vision plus riche de la situation et augmente sérieusement vos chances de servir un bon plat… ou au moins quelque chose de comestible !
📖 Tout comme un chef qui sollicite simultanément plusieurs sens, un modèle IA multimodal va intégrer différentes sources d’informations — par exemple du texte, des images, du son ou même des signaux de capteurs. Cette “multimodalité” lui permet de mieux comprendre le monde numérique (ou réel) qui l’entoure, un peu comme si l’algorithme disposait lui aussi d’yeux, d’oreilles et parfois d’un nez virtuel pour être plus pertinent.
Pourquoi est-ce intéressant ? Parce que tout comme vous cherchez à éviter de rater votre plat, un modèle IA cherche à être le plus efficace et précis possible. Quand il prend en compte plusieurs modalités (images + texte, texte + audio, etc.), il a accès à une palette d’indices beaucoup plus vaste pour prendre ses décisions ou faire ses prédictions. Exactement comme votre cerveau qui met en commun toutes les infos sensoriels pour que votre plat ne sente pas le cramé et ne ressemble pas à un vieux caoutchouc.
Dans cet article, on va plonger dans l’univers de la multimodalité en deep learning. Je vais d’abord expliquer ce qui se cache derrière ce concept (spoil : ce n’est pas juste empiler des données de types différents). Ensuite, on verra comment certaines approches récentes parviennent à jongler avec toutes ces sources d’infos et surtout, on discutera des résultats que ça permet d’atteindre. Comme toujours, je vous donnerai aussi quelques pistes pour aller plus loin, histoire de bien saisir pourquoi tout le monde en parle aujourd’hui.
2 ingrédients seulement ?
L’alignement et la fusion. Voilà bonne journée 🙂
❓Mais encore ?
Commençons par la première étape, l’alignement.
L’alignement des modalités
Le but de l’alignement est d’établir des relations sémantiques à travers les différents modalités. Comme sont nom l’indique chaque descripteur existant à travers plusieurs modalités seront alignés au sein d’un même espace commun. Un exemple ? Aligner 3 modalités : les sous-titres, l’audio et la vidéo d’un film. Si on met le bazarre entre ces modalités on comprend plus rien au film.
Comment ça marche concrètement ?
Dans certains projets, on cherche à vérifier directement si une image correspond à un texte ou si une vidéo colle à son sous-titre. C’est ce qu’on appelle l’alignement explicite : on compare, pour chaque paire, la proximité entre la modalité A (par exemple l’image) et la modalité B (le texte), souvent à l’aide de matrices de similarité. Concrètement, c’est comme avoir un grand tableau où l’on lit “Image 1 s’accorde bien avec Texte 3, Image 2 pas du tout avec Texte 4” — on voit clairement qui va avec quoi.
En revanche, si vous n’évaluez pas directement cette proximité entre les modalités, mais que votre réseau l’apprend malgré tout “en chemin” pour mieux résoudre sa tâche (ex. prédire une légende, traduire un mot), on parle alors d’alignement implicite. Cet alignement est donc un sous-produit de l’entraînement : le modèle finit par “faire correspondre” texte et image automatiquement, sans qu’on mesure explicitement la similarité. Cette forme est moins évidente à visualiser, car on ne dispose pas d’un tableau de scores comme dans le cas de l’alignement explicite — mais elle peut s’avérer tout aussi performante, voire plus, lorsqu’il s’agit de réaliser une tâche précise (comme la génération d’une description d’image).
📖 En bref : Avec l’alignement explicite, on met noir sur blanc le degré de correspondance entre les modalités grâce à des formules de similarité. Avec l’alignement implicite, c’est un effet secondaire d’un autre apprentissage (genre la traduction), ce qui fait que le modèle apprend tout seul à “coller” les modalités — mais c’est moins facile à visualiser.
Quels approches pour l’alignement ?
Alignement explicite
Dans l’alignement explicite on retrouve des approches comme le CCA — Canonical Correlation Analysis — qui cherche à projeter les données de deux espaces différents dans un espace commun en appliquant des transformations linéaires. Pour chaque ensemble, il calcule des vecteurs de transformation (souvent appelés vecteurs canoniques, notés u pour X et v pour Y).
Les approches dites « explicites » d’alignement, historiquement, s’appuient souvent sur des outils statistiques. Deux techniques emblématiques sont :
- Dynamic Time Warping (DTW)
Le DTW consiste à mesurer la similarité entre deux séquences (par exemple, deux signaux audio ou deux suites d’images) en leur appliquant un « warping » temporel. Ce procédé insère ou supprime des éléments pour faire correspondre chaque point d’une séquence à celui de l’autre, même si les durées diffèrent (Kruskal 1983).
- Analyse canonique des corrélations (CCA)
Proposée par Hotelling (1936), la CCA projette deux espaces de données dans un même espace latent pour maximiser la corrélation entre ces deux projections. Elle permet, par exemple, d’aligner un ensemble de descripteurs d’images sur un ensemble de descripteurs linguistiques, en cherchant une base commune. Toutefois, la version de base de la CCA ne capte que les relations linéaires.
- Des variantes comme la KCCA (Kernel CCA) ou la Deep CCA (Andrew et al. 2013) étendent cette méthode aux dépendances non linéaires ou utilisent des réseaux neuronaux profonds pour mieux gérer les données complexes.
Bien qu’efficaces pour aligner directement des descripteurs (par exemple, pour établir des correspondances image-texte), ces méthodes explicites peuvent peiner lorsque les liens inter-modaux sont très complexes ou ambigus.

Schéma expliquant le principa de CCA
Alignement Implicite
Les techniques d’alignement implicite ne mesurent pas directement la similarité ou la correspondance entre modalités ; elles intègrent plutôt une étape de mise en correspondance à l’intérieur même de la tâche à résoudre (classification, traduction, génération, etc.). Cette alignement se fait donc de manière « cachée » (implicite) lors de l’optimisation globale du modèle. On distingue notamment deux grandes familles :
- Méthodes à base de modèles graphiques
Les modèles graphiques représentent les interactions complexes entre entités d’un système sous la forme d’un graphe, où chaque nœud peut correspondre à un concept (objet visuel, mot, idée, etc.) et les arêtes décrivent leurs relations (spatiales, sémantiques, temporelles, etc.).
- Ainsi, pour aligner de manière implicite des flux vidéo et du texte, on peut construire un graphe où chaque segment vidéo est associé à un ensemble de mots, et l’alignement se fait via un algorithme de correspondance sur ce graphe (Tang et al. 2020).
- Les architectures de type Graph Neural Networks (GNN) permettent d’itérer localement sur le graphe pour réestimer les embeddings de chaque nœud, tenant compte des connexions avec les autres. On exploite ainsi la structure globale pour résoudre le problème d’alignement (Zhang et al. 2021).
Ce type d’approche s’avère performant dans des contextes où les données sont partiellement manquantes (Chen et Zhang 2020) ou où les relations entre les modalités sont complexes (p. ex. analyse de réseaux sociaux, de scènes vidéo, etc.). Les défis incluent la construction du graphe et la complexité de calcul, souvent élevée dans les GNN.

Pratique pour visualliser, cette figure montre la méthode d’alignement implicite basé sur les graphes 🙂
- Méthodes à base de réseaux neuronaux
Les approches neuronales pour l’alignement implicite se sont imposées ces dernières années, en particulier grâce aux mécanismes d’attention.
- Mécanismes d’attention : Au sein d’un modèle encoder-decoder, le décodeur peut, à chaque étape, concentrer son attention sur des parties spécifiques de l’entrée (segments de texte, régions d’image, etc.). En traduction visuelle (p. ex. génération de description d’image), le décodeur se « focalise » sur les régions pertinentes de l’image pour prédire chaque mot (Karpathy et Li 2015).
- GANs et autoencodeurs : Les réseaux génératifs adverses (GAN) ainsi que les autoencodeurs, variatoires ou non, peuvent aligner automatiquement les distributions de différentes modalités dans un espace latent commun. Le modèle apprend implicitement à faire correspondre les informations visuelles et textuelles (Wu et Goodman 2019), voire plusieurs modalités (image, audio, etc.).
Plus récemment, les grandes approches de type « attention is all you need » (Vaswani et al. 2017) permettent un alignement implicite en jouant sur des mécanismes de multi-têtes d’attention, qui apprennent (souvent de façon non supervisée) à relier chaque token d’entrée (mot, patch d’image, etc.) à ses homologues pertinents dans l’autre modalité.
La fusion des modalités
Lorsqu’on travaille avec plusieurs types de données — images, textes, sons, capteurs… — il ne suffit pas de s’assurer qu’ils « pointent » vers les mêmes choses (c’est l’alignement). Il faut aussi savoir les combiner intelligemment en un modèle unique. C’est ici qu’intervient la fusion multimodale. L’idée : faire en sorte que chaque modalité apporte ses forces, tout en limitant ses faiblesses.
Approches « encoder-decoder »
La première grande famille de techniques de fusion repose sur des architectures de type encoder-decoder. Imaginez un « encodeur » qui distille l’essence de chaque modalité en features plus simples, puis un « decodeur » qui reconstitue la prédiction finale (un score, une image reconstruite, un texte, etc.). À l’intérieur de ce cadre, la fusion peut se faire :
- Au niveau des données (data-level) :
On concatène (ou on combine) très tôt les données brutes : par exemple, une image + une carte de profondeur forment un bloc d’entrée unique. L’encodeur traite donc un « gros » input déjà fusionné.
Exemple : En détection de véhicules, certains systèmes ajoutent directement les données LiDAR aux images, pour améliorer la reconnaissance 3D.
- Au niveau des features (feature-level) :
Chaque modalité est d’abord encodée séparément (réseau convolutionnel pour l’image, transformeur pour le texte, etc.). On obtient des vecteurs ou « features ». On les fusionne ensuite (souvent par concaténation, ou via une couche qui apprend à les mélanger). Puis le décodeur fait son travail final.
Exemple : Un modèle de classification peut fusionner des features visuelles (détection de formes et couleurs) et textuelles (analyse de mots-clés) afin de mieux reconnaître l’émotion d’une scène.
- Au niveau du modèle (model-level) :
Ici, on a plusieurs « sous-modèles » qui s’occupent chacun de leur modalité (un modèle pour la voix, un autre pour l’image, un autre pour le texte), et on combine simplement leurs prédictions (moyenne pondérée, réseau de décision, vote majoritaire, etc.).
Exemple : Dans le diagnostic médical, on peut croiser les résultats d’un réseau spécialisé IRM et d’un autre spécialisé radiographie, pour réduire les erreurs de chaque branche prise isolément.
Dans la pratique, le niveau de fusion dépend de la tâche, du volume de données et de l’expertise qu’on veut injecter.

Fusion par noyaux (kernel-based)
Passons maintenant aux méthodes qui utilisent le fameux kernel trick. L’idée, c’est de projeter les données (images, textes, etc.) dans un espace de dimension plus élevée, où les relations non linéaires (souvent complexes dans le cas multimodal) deviennent plus faciles à identifier.
- Par exemple, en « bimodal » (audio + texte), on peut appliquer un noyau pour associer des intonations vocales à certains mots-clés, sans se limiter à une correspondance linéaire.
- Les SVM ou la Canonical Correlation Analysis en version « kernelisée » s’appuient sur ce principe pour mieux capturer la complémentarité entre modalités.
Le principal défi, ici, c’est de choisir (et d’ajuster) le bon noyau et de gérer la complexité de calcul, car ces espaces de haute dimension peuvent être gourmands.
Fusion graphique
Dans cette approche, on représente les modalités au sein d’un graphe : chaque modalité (ou sous-élément de modalité) devient un nœud, et les liens entre ces nœuds (similitude, proximité spatiale, etc.) sont des arêtes. À partir de là, on applique des algorithmes de propagation ou des Graph Neural Networks (GNN) pour faire circuler l’information et obtenir une fusion globale.
- C’est particulièrement pratique si certaines données sont manquantes : un graphe peut s’en accommoder en restant partiellement connecté.
- On l’utilise par exemple pour analyser des images médicales (IRM, PET…), des recommandations sur les réseaux sociaux, ou encore des corpus avec textes et images partiellement étiquetés.
Le point clé, c’est que le graphe fait office de « carte » globale où toutes les modalités cohabitent, et les GNN peuvent alors apprendre à faire remonter la bonne info au bon endroit. Seul inconvénient : la mise en place d’un graphe, puis d’un réseau de neurones dédié, peut se révéler complexe et exigeante en mémoire.
Fusion par attention
Enfin, l’attention-based fusion est devenue incontournable depuis la vague des Transformers. Le mécanisme d’attention, c’est cette capacité à « focaliser » le modèle sur les parties les plus pertinentes de chaque modalité.
- Par exemple, si vous avez une phrase et une image, le module d’attention va repérer les mots qui décrivent telle ou telle zone de l’image, et ignorer le reste.
- Certains modèles (type CLIP) effectuaient une fusion limitée (un simple calcul de similarité entre image et texte). D’autres (ALBEF, BLIP, CoCa…) vont plus loin en permettant aux tokens texte et aux patches image de dialoguer en profondeur.
L’avantage : c’est flexible, puissant pour faire du question-réponse d’image, de la légende automatique, etc. L’inconvénient : ça peut demander beaucoup de ressources, surtout si on veut aligner plein de modalités (vidéo, audio, texte, capteurs…) avec des Transformers géants.
Pourquoi l’alignement et la fusion sont efficaces ?
Aligner plusieurs modalités (texte, image, audio…) permet d’éviter les décalages entre elles et de s’assurer qu’elles pointent vers les mêmes instants ou concepts, tandis que la fusion vient unifier ces flux pour compenser les faiblesses de chacun (par exemple, une image floue soutenue par l’audio) et rendre l’ensemble plus robuste. Cette combinaison élargit la couverture (les signaux ambigus seuls deviennent plus clairs en s’appuyant sur d’autres sources), facilite l’exploitation de données hétérogènes (audio abondant mais texte limité, etc.), et améliore à la fois la généralisation (en identifiant des liens profonds entre plusieurs canaux, on s’adapte mieux à de nouveaux formats) et l’adaptation à des contextes variés. On retrouve ces principes dans diverses applications, comme la vision-langage (générer une légende à partir d’une image, effectuer des requêtes croisées texte-image) ou encore la reconnaissance d’émotions (mixer vidéo et audio), où alignement et fusion se révèlent indispensables pour construire des systèmes véritablement multimodaux.
Conclusion
En bref, l’alignement garantit que les flux se “parlent” de manière cohérente, et la fusion veille à ce qu’ils forment un tout plus fort que la somme de leurs parties. Les deux étapes sont complémentaires : sans alignement, la fusion pourrait “mélanger” des signaux qui ne correspondent pas ; sans fusion, même un bon alignement resterait sous-exploité. L’idée maîtresse reste la même : maximiser la pertinence et la robustesse en exploitant la richesse qu’apporte chaque modalité.
Références
- Multimodal Alignment and Fusion: A Survey – S. Li and H. Tang
- An overview of sequence comparison: Time warps, string edits, and macromolecules – J. B. Kruskal
- Relations between two sets of variates – H. Hotelling
- Deep canonical correlation analysis – G. Andrew et al.
- Graph-based multimodal sequential embedding for sign language translation – S. Tang et al.
- A token-wise graph-based framework for multimodal named entity recognition – Z. Zhang et al.
- Deep visual-semantic alignments for generating image descriptions – A. Karpathy and F. Li
- Multimodal generative models for compositional representation learning – M. Wu and N. Goodman
- Attention is all you need – A. Vaswani et al.
- HGMF: Heterogeneous graph-based fusion for multimodal data with incompleteness – L. Chen and A. Zhang