Adrien et Guillaume échangent sur Trafilatura, la recherche publique, les LLM et l’avenir du web !
Guillaume Pitel : Bonjour Adrien. Tu es très connu pour être le créateur de Trafilatura. Je connais très bien cet outil et on travaille énormément chez Babbar sur les problématiques d’extraction du contenu, de découpage, de sélection, et l’idée de cet échange, c’est de faire découvrir le sujet à tout le monde. Avant de rentrer dans les détails, j’aimerais bien que tu nous parles de ton parcours éducatif, professionnel, éventuellement personnel vis-à-vis de l’open source.

Adrien Barbaresi : Mon parcours ? Je viens de la linguistique, puis de la linguistique informatique, ensuite le NLP, la dimension appliquée data engineering. Pour simplifier, j’ai fait un pivot entre les sciences humaines, la lecture et l’analyse de texte, vers des machines qui font ça pour nous. Je me suis aussi orienté en fonction du marché de l’emploi, avec les LLM, avec un projet open source qui à la base était pas prévu pour ça mais qui a été adopté. Et puis professionnellement, j’ai changé aussi, de la recherche publique vers le privé. Aujourd’hui je suis dans une entreprise qui travaille beaucoup avec les LLM.
Guillaume : Il y a beaucoup de chose à dire sur la recherche publique, j’en sais quelque chose. Tu peux nous donner quelques dates sur ton parcours ? Moi j’ai commencé dans le public aussi : thèse finie en 2004, ensuite post-docs pendant trois ans, CNRS, INRIA, CEA. Puis j’ai quitté l’académique parce que je sentais que ce n’était pas pour moi. Tu as peut-être une autre expérience ?
Adrien : Oui, et j’ai fait un autre changement dont j’ai pas encore parlé : j’ai changé de pays. J’ai commencé ma thèse en France, je l’ai finie en Allemagne, à Berlin. J’avais fait des études d’allemand, donc conceptuellement c’était pas trop loin. Mais ça a joué un rôle. J’ai bossé pour une institution de l’académie des sciences de Berlin. Donc je vais parler un peu vu depuis Berlin, mais les problèmes sont les mêmes des deux côtés : beaucoup de CDD, beaucoup de travail sur projet. Même pour des gens qui sont en poste, il faut remettre de l’argent dans la machine tous les 2-3 ans. Tu ne sais pas comment planifier à moyen terme, tu vois des gens arriver, repartir… Ce manque de permanence, ce manque de planification, ça empêche de faire de la recherche de fond dans de bonnes conditions !
Et je me rends compte maintenant, que dans le privé, on est parfois plus libre. Alors oui, il faut des fonds, mais tu prends 10 personnes dans une SARL pour résoudre un problème ensemble, c’est presque plus simple qu’en labo, où tu as une tonne de contraintes.
Guillaume : J’ai eu exactement la même impression. J’ai fait mes meilleures recherches quand j’ai commencé à travailler pour moi-même. Je n’avais plus besoin de répondre à des appels d’offres ultra ciblés.
Ca me rappelle quelque chose, j’ai un ami allemand que j’avais rencontré à Berkeley. Il travaillait sur FrameNet à l’époque. J’ai regardé récemment : il est toujours post-doc. Il est plus vieux que moi, j’ai 47 ans, lui doit avoir 50-52 ans. Toujours en post-doc. Oui, il a monté en grade, mais ça s’appelle encore post-doc. C’est fou.
Adrien : C’est un autre problème, la hiérarchie. Entre post-doc et maître de conf ou professeur, il n’y a pas grand-chose de disponible. Ou alors il faut rentrer dans une unité CNRS, mais les postes ne sont pas toujours ouverts, pas toujours là où tu veux. Du coup, les gens échangent leur flexibilité contre la possibilité de bosser sur des sujets qui les passionnent. Mais il faut décider : est-ce que je continue, ou est-ce que j’arrête ?
Et le problème ne s’arrête pas quand tu deviens permanent. Même là, tu as encore des contraintes. Chacun doit trouver son équilibre. Parfois c’est dans la recherche publique, parfois ailleurs.
Guillaume : Et ce manque de liberté, finalement, a laissé un boulevard aux boîtes privées pour récupérer des compétences et faire une recherche parfois plus percutante que celle du public.
On va parler de ton œuvre principale : Trafilatura, mais juste avant, tu ne m’as pas répondu sur les dates. Ta thèse, c’était quand déjà ?
Adrien : Ma thèse, je l’ai soutenue en 2015. Et j’ai commencé à travailler sur le sujet bien avant, en 2012-2013. À l’époque, je voulais travailler sur autre chose, mais il n’y avait pas de données. Donc je me suis dit : on va commencer par collecter des données. Et en fait, c’est devenu un vrai sujet de recherche, parce qu’il n’y avait pas d’outil ni de méthode claire pour ça, surtout pour les sciences humaines.

Guillaume : En plein dans la période où les LLM ont éclos alors. Focalisons maintenant un peu sur Trafilatura, c’est un outil open source pour extraire le contenu principal d’une page web, c’est ça ?
Adrien : Oui. L’idée, ce n’est pas de scraper des infos très spécifiques, comme le prix d’une paire de baskets (ou tous les prix sur un site de e-commerce). Trafilatura, c’est pour extraire ce qu’un lecteur humain considère comme le contenu principal : le titre, la date, l’auteur, et le texte central. Pas les pubs, pas les menus, pas le footer. On peut aussi voir ça dans l’autre sens : on cherche à enlever tout ce qui est répétitif et n’apporte pas beaucoup d’information.
Guillaume : Et techniquement, ça marche comment ? C’est quoi la méthode ?
Adrien : Au départ, j’ai ciblé WordPress, qui était très utilisé. Je me suis dit : si j’arrive à extraire correctement le contenu sur les pages WordPress, j’ai gagné dans 70% des cas. Sauf qu’en fait, avec tous les plugins et les personnalisations, c’est vite devenu un casse-tête. Donc j’ai complété avec une approche algorithmique.
Aujourd’hui, Trafilatura combine plusieurs méthodes : des règles heuristiques, une version Python de Readability (comme dans Firefox), JustText (qui vient de la recherche publique en Tchéquie), etc. Le mélange est ce qui marche le mieux d’après tous mes tests.
Guillaume Pitel : Tu me disais que tu as vu une explosion d’usage récemment, notamment à cause des LLM. Tu peux développer ?
Adrien Barbaresi : Oui. Il y a une étude de Hugging Face, RefinedWeb, qui a comparé les performances d’un modèle entraîné sur une extraction brute (en gros du HTML to Text) et sur du texte nettoyé avec Trafilatura. Résultat : Trafilatura permet au modèle de converger plus vite, avec moins de bruit. J’aurais jamais pu le démontrer à cette échelle moi-même. Et depuis, les téléchargements ont explosé.
Guillaume Pitel : Et toi, en tant que codeur, tu utilises les LLM ?
Adrien Barbaresi : Oui, mais pas pour tout. Je ne suis pas un prompt engineer. J’utilise les LLM pour du debuggage, pour reformuler des choses trucs, pour tester des idées. Mais je garde la main. Par exemple, quand j’ai commencé à apprendre Rust, je collais les messages d’erreur dans un LLM pour qu’il m’explique. C’est extrêmement bluffant la capacité de synthèse des modèles actuels.
Guillaume Pitel : Parlons un peu de l’avenir du web. Tu l’as vu, beaucoup de sites bloquent les crawlers, sauf ceux de Google. Le web est en train de se refermer. Tu en penses quoi ?
Adrien Barbaresi : C’est un vrai problème. StackOverflow, Reddit, tous ces sites qui ont été pillés par les LLM… Les gens ne répondent plus, ils se disent : à quoi bon ? Le contenu qu’ils créent est aspiré par des machines. On risque un appauvrissement général du web.
Et côté utilisateurs, c’est pareil. Avant, on surfait de lien en lien. Maintenant, les gens posent une question à un chatbot et basta. Ils ne sortent jamais du portail. Ça tue la diversité, la curiosité, l’esprit critique.
Guillaume Pitel : Tu crois que ça peut vraiment changer la façon dont les gens pensent ?
Adrien Barbaresi : Oui. Si on passe 15 ans à poser toutes nos questions à une machine, on perd la capacité à chercher, à recouper. C’est comme ne plus savoir lire une carte parce qu’on a un GPS. On devient dépendants, et plus passifs. Et le problème, c’est que ça s’applique pas juste à la navigation, mais à la pensée elle-même.
Guillaume Pitel : Bon, ne on va pas partir en débat philosophique, mais clairement, ça pose des questions lourdes. Merci beaucoup Adrien pour cet échange passionnant.
Adrien Barbaresi : Merci à toi. On continue la discussion quand tu veux !




