Résumés extractifs pour le Web

Lorsqu’on traite des données web, il est crucial de ne pas se laisser submerger. Si vous avez une tonne de textes à traiter, il peut être plus efficace de ne gérer qu’une multitude de petits textes. Selon votre objectif, il peut suffire de ne manipuler que des résumés de ces textes.
Lorsqu’on présente des résultats de recherche à un utilisateur, il est bien plus pertinent de lui montrer des extraits de documents. Sans résumés pertinents, on risque d’afficher un passage aléatoire des premières phrases d’un document, ce qui peut s’avérer insuffisant pour les textes plus longs.

Évidemment, résumer des textes à la main, aussi qualitatif que cela puisse être, manque d’efficacité lorsqu’il s’agit de traiter des millions de documents par jour. Il faut alors se tourner vers des techniques de résumé automatique. Il existe plusieurs façons d’obtenir un résumé automatique d’un document source. Si l’objectif est de résumer des millions de documents par jour, il faut des techniques à la fois rapides et fiables. Bien sûr, on pourrait simplement sélectionner X phrases au hasard ou prendre les Y premières phrases du document. Ces méthodes sont très rapides, mais elles ne garantissent pas d’obtenir un bon résumé du contenu original.

Puisqu’il s’agit ici de résumer des documents web, nous supposons que le texte important a déjà été extrait à l’aide d’outils comme Trafilatura, Readability, Boilerpipe, etc.
Avant d’aller plus loin dans les résumés extractifs, définissons-les et comparons-les aux résumés abstratifs.

Résumés extractifs vs résumés abstratifs

L’objectif des deux techniques est d’obtenir un texte plus court, fidèle à l’original. Nous parlerons plus tard de l’évaluation de la qualité d’un résumé, mais concentrons-nous d’abord sur la manière de les générer. Aucune technique n’est supérieure à l’autre ; tout dépend de l’usage prévu pour le résumé généré automatiquement.

Le résumé extractif est la méthode la plus simple à appliquer pour une machine, car elle consiste à extraire certaines parties du texte original pour construire le résumé. En général, les parties extraites sont des phrases entières, mais on pourrait aussi imaginer une méthode fonctionnant au niveau des mots ou des n-grammes. Pour produire des résumés lisibles et ne pas se limiter à une extraction de mots-clés, nous nous concentrerons ici sur des méthodes qui sélectionnent des phrases complètes. Les phrases sont généralement choisies en fonction de leur contenu, de leur similarité avec le texte global et de leur nouveauté par rapport aux phrases déjà extraites. L’objectif est d’obtenir une version plus courte du document, en évitant les répétitions inutiles.

Produire un résumé extractif peut être vu comme un problème de classification binaire des phrases du document. Un algorithme peut soit directement classer les phrases en deux catégories (à inclure ou non dans le résumé), soit attribuer à chaque phrase une probabilité d’appartenir au résumé et sélectionner les phrases en fonction de ces probabilités.

Le résumé abstratif, en revanche, est une tâche bien plus facile pour un humain que pour une machine. Il ne se limite pas aux phrases existantes du texte original, mais reformule l’information pour produire un résumé plus fluide et naturel. Avec les progrès récents du machine learning, les machines sont devenues bien plus performantes en résumé abstratif. Grâce aux modèles de langage de grande taille, cette tâche est aujourd’hui bien maîtrisée et produit des résultats impressionnants.

Il n’existe pas de méthode universelle pour obtenir un bon résumé. Le résumé extractif a l’avantage d’être toujours fidèle au texte d’origine, sans risque d’erreur ou d’ajout d’informations inexactes. Cependant, il peut ne pas être suffisamment exhaustif, selon sa longueur, et ne couvrir que certains aspects du document original. En revanche, le résumé abstratif peut s’éloigner du texte initial et introduire des erreurs de sens.

Le choix entre résumé extractif et abstratif dépend du contexte et de l’utilisation du résumé. Si celui-ci est destiné à être analysé par une machine, une approche extractive est préférable, car elle garantit que l’ordinateur traitera des parties du texte original. En revanche, si le résumé est destiné à un humain, une approche abstractive est souvent plus lisible. En effet, un résumé extractif peut rassembler des phrases qui n’étaient pas initialement proches dans le texte source, ce qui peut nuire à sa fluidité.

Méthodes standards

Lorsqu’on a commencé à automatiser le résumé de texte, la première approche consistait à attribuer un score à chaque phrase du document source, puis à sélectionner celles qui obtenaient les scores les plus élevés. De nombreuses méthodes ont été développées pour calculer ces scores.

À l’origine, les scores étaient basés sur la pertinence des phrases par rapport au document entier ou à une requête spécifique, en utilisant des variantes de TF-IDF. Pour éviter la redondance, les chercheurs ont introduit une notion de nouveauté, permettant d’assurer que le résumé couvre plusieurs aspects du texte original.

D’autres méthodes se sont appuyées sur des algorithmes de classement par graphes, comme HITS ou PageRank, pour noter les phrases. Ici, le texte est transformé en graphe : les phrases deviennent des nœuds, et des liens sont créés entre elles en fonction de leur similarité. La pondération de ces liens repose sur une mesure de similarité entre phrases. L’avantage de ces techniques est qu’elles ne nécessitent pas d’annotations humaines, ce qui est un atout dans les domaines où ces annotations sont difficiles à obtenir.

TextRank, par exemple, définit la similarité entre phrases en fonction du chevauchement de leur contenu. Ce procédé génère des graphes fortement connectés, sur lesquels on peut ensuite appliquer des algorithmes de classement. Les phrases les mieux classées sont alors sélectionnées pour former le résumé.

L’essor du deep learning

Le deep learning a considérablement amélioré les performances des modèles de résumé automatique. Contrairement à ce qu’on pourrait penser, il n’est pas nécessaire d’utiliser des modèles extrêmement profonds pour obtenir de bons résultats.

L’une des premières architectures efficaces pour le résumé extractif est basée sur les Réseaux de Neurones Récurrents (RNN). Un exemple notable est SummaRuNNer, qui utilise deux couches GRU (Gated Recurrent Unit) pour analyser les textes au niveau des mots et des phrases. Ce modèle sélectionne les phrases optimales en fonction de plusieurs critères, comme leur information contenue, leur importance et leur nouveauté.

Avec l’arrivée des Transformers, le domaine du NLP a connu une révolution. Ces modèles intègrent un mécanisme d’attention permettant de mieux comprendre le contexte global d’un texte. Des approches comme BertSUM utilisent des modèles pré-entraînés et insèrent des marqueurs aux niveaux des phrases pour distinguer les différentes parties du document, ce qui améliore grandement la qualité des résumés extractifs.

Méthodes d’évaluation

L’évaluation d’un résumé automatique peut se faire de plusieurs façons. La méthode la plus intuitive consiste à demander à un humain de comparer le résumé généré avec le texte original. Cependant, cette approche n’est pas scalable si l’on doit évaluer des milliers ou des millions de résumés.

Une alternative consiste à comparer les résumés générés avec un « gold standard », un résumé de référence produit par un humain. Des métriques comme ROUGE (Recall-Oriented Understudy for Gisting Evaluation) permettent de quantifier cette similarité en comparant les n-grammes du résumé automatique avec ceux du texte source. D’autres métriques comme BLEU ou METEOR, conçues initialement pour l’évaluation des traductions automatiques, sont également utilisées.

Le choix de la meilleure métrique dépend de l’usage du résumé. Si le but est de stocker moins de contenu dans un index tout en garantissant la pertinence des résultats de recherche, une méthode favorisant la conservation du sens original sera plus adaptée.

Ce document se concentre sur le résumé extractif en langue unique et à document unique. Le domaine du résumé automatique est bien plus vaste et inclut des problématiques comme le résumé multi-documents, le résumé multilingue ou encore le résumé dépendant d’une requête.

Ressources