Selon certains, les LLMs ont vocation à progresser vers une forme de vraie intelligence. Je ne prendrai pas part à ce débat aujourd’hui, mais je vais me contenter de constater qu’au delà d’une capacité à simuler le langage ordinaire, il apparaît nécessaire pour atteindre ce but que les modèles soient capables de respecter ce qui constitue l’humanité, c’est à dire un ensemble de valeurs souvent implicites, des non-dits qui vont de soi, avec une certaine variabilité acceptée (la diversité).
Garantir qu’un LLM va respecter un système de normes humain et ne va pas avoir un comportement qui dérive c’est le but de l’alignement.
L’objectif est double : sécuriser les modèles pour éviter qu’ils ne génèrent des contenus inacceptables (racisme, sexisme, fake news, propos haineux), et les rendre plus utiles en ajustant leurs réponses pour qu’elles répondent réellement aux besoins des utilisateurs.
Techniquement, l’alignement de modèles est de nos jours réalisé avec des techniques d’apprentissage par renforcement : du RLHF quand le feedback est humain, et du RLAIF quand c’est une autre IA qui va faire l’évaluation du modèle (j’en parle un peu plus loin).
Mais au-delà de la technique, la notion d’alignement soulève quelques questions : est-ce que des modèles alignés reproduisent la richesse des comportements humains, ou juste le comportement majoritaire, le consensus ?
Ce que vous allez voir au travers de cet article, c’est qu’aujourd’hui l’alignement limite la diversité des réponses et uniformise la production textuelle des LLMs. Ce qui amène à la question à plusieurs centaines de milliards : jusqu’où doit-on cadrer une IA avant qu’elle ne perde tout intérêt ?
Qu’est-ce qu’un modèle aligné ?
Un modèle de langage c’est d’abord de la statistique capable de générer des textes en fonction des probabilités apprises à partir d’un gros dataset. Le modèle ne comprend pas le langage, mais il le prédit. Cette prédiction peut poser problème : certains résultats sont socialement inacceptables, d’autres propagent des biais issus du dataset. Pour pallier ces problèmes, on va aligner le modèle.
Aligner un modèle, c’est contraindre ses réponses pour qu’elles respectent des normes “acceptables”. Cela passe par un filtrage des données, des ajustements sur la manière dont il génère ses sorties, et surtout par des méthodes d’apprentissage par renforcement qui corrigent sa tendance à sortir du cadre. On va distinguer 3 catégories de modèles :
- Les modèles de base : Ce sont les versions brutes qui génèrent du texte en exploitant uniquement leurs probabilités internes, sans intervention humaine. C’est avec un modèle de base qu’on aura la plus grande diversité de réponses. Cette diversité a un coût : une partie des réponses seront problématiques.
- Les modèles fine-tunés : Ils ont été affinés sur des corpus spécialisés pour être plus précis dans certains domaines.
- Les modèles alignés : Ils ont été optimisés pour correspondre aux attentes humaines (ou aux attentes de n’importe quel système de règles choisi).
Le but n’est plus d’être précis, mais aussi d’être « approprié ».
L’alignement permet de réduire les risques sociaux liés à l’usage des modèles, mais il introduit un effet secondaire qui n’est pas anodin : l’homogénéisation des réponses. Certaines études récentes montrent que cela réduit considérablement la diversité des réponses qu’un modèle est capable de générer.
RLHF et RLAIF : les outils de l’alignement
Il faut comprendre qu’il n’y a aucune magie dans l’IA, et que l’alignement est simplement la sortie d’une mécanique bien huilée.
Il y a plusieurs approches, mais les plus connues sont le RLHF (Reinforcement Learning from Human Feedback) et le RLAIF (Reinforcement Learning from AI Feedback). Deux approches, mais un seul objectif : forcer un modèle à se comporter comme on l’attend, en mettant en avant certaines réponses plutôt que d’autres.
Le RLHF repose sur l’évaluation humaine. Après le training, des humains évaluent les réponses générées par le modèle et déterminent les meilleures. Ces préférences sont utilisées pour ajuster le modèle afin qu’il génère des réponses conformes aux attentes humaines.
Le RLAIF remplace l’évaluation humaine par un autre modèle d’IA, qui agit comme arbitre. C’est bien entendu moins cher de faire comme ça, et ça permet d’industrialiser le processus. Par contre, si le modèle d’évaluation est biaisé, il va amplifier ses propres biais au sein du modèle évalué.
Ces approches permettent d’obtenir des modèles qui génèrent des réponses plus conformes aux attentes sociales. Mais elles ont aussi des effets secondaires importants :
- Dépendance humaine : Le RLHF dépend d’un petit groupe d’humains. Ce sont donc les préférences d’une minorité qui dictent le comportement du modèle final.
- Perte de diversité : Une fois aligné, le modèle cesse d’explorer des alternatives. Il ne cherche plus ce qui est plausible, mais ce qui est socialement validé.
- Effondrement de modèle (Model Collapse) : Un modèle aligné avec du RLAIF va, au fil du temps, tourner en boucle sur ses propres préférences.
Le dernier point est très problématique : si tous les modèles convergent vers un « consensus algorithmique », on ne crée pas une intelligence artificielle, mais un générateur de normes préfabriquées. C’est Hollywood puissance 1000.
Est-ce que c’est vraiment grave ?
Vous me connaissez, si je pose la question c’est que la réponse est oui. L’alignement évite que le modèle devienne le tonton raciste des familles qui ont des repas de Noël difficiles, mais avec un coût associé fort : une perte de diversité conceptuelle dans les réponses. Une fois qu’un modèle est aligné, il ne cherche plus à prédire ce qui est le plus probable, mais ce qui est le plus acceptable. En pratique, il s’aligne sur une norme dominante et élimine progressivement les réponses atypiques ou divergentes.
Un article très récent par Murthy et al. (référence plus bas) étudie comment l’alignement affecte la diversité des réponses des LLMs en comparant des modèles alignés et non alignés sur des tâches très basiques. Leur constat est sans appel : les modèles alignés génèrent des réponses homogènes même dans des cas où l’humain ferait différemment. Un exemple amusant mais édifiant est celui des associations entre couleurs et concepts.
Par exemple, si je demande à un lecteur quelle couleur représente la propreté, les réponses vont varier :
- Blanc, associé à la pureté.
- Bleu, souvent lié aux produits de nettoyage et à la lumière purificatrice.
- Vert, évoquant la propreté écologique et la nature.
Maintenant, posez la même question à un LLM aligné, la réponse sera quasiment toujours « blanc ».
Pourquoi ? Parce que le modèle, en étant aligné, ne cherche pas la diversité des interprétations humaines. Il cherche la réponse consensuelle qui a été validée par le processus de RLHF ou de RLAIF. Autrement dit, il ne réfléchit pas comme un humain, mais comme une machine entraînée à éviter l’ambiguïté.
Là où un humain peut hésiter entre plusieurs associations, le modèle aligné a appris qu’il vaut mieux rester sur une réponse sûre, quitte à écraser toute la richesse des comportements humains.
Conclusion ?
Et bien il n’y aura pas de vraie conclusion, car il n’y a pas de réponse définitive, pas de oui ou non à la question de faut-il aligner les modèles. D’un côté c’est une nécessité. On ne veut pas d’une IA qui amplifie les pires travers de l’humanité, qui produit du contenu irresponsable ou tout simplement qui devient un tonton gênant version numérique.
Mais l’alignement n’est pas une opération neutre. Ce n’est pas juste « éviter le pire », c’est aussi orienter le discours. Un modèle aligné ne choisit pas la réponse la plus juste, il choisit celle qui est jugée la plus acceptable.
C’est un paradoxe : on veut des modèles proches des humains et on les aligne pour qu’ils ne soient pas sociopathes, mais en les alignant ils perdent la capacité à se comporter comme un humain dans toute sa complexité.
Le travail sur l’alignement de modèles n’est pas plus vieux que le reste du domaine, il ne nous reste donc qu’à espérer que des nouvelles approches sauront s’affranchir des problèmes esquissés ici.
A lire pour en savoir plus