Interview de Fabien Vauchelles par Guillaume Pitel

Cette fois-ci c’est Guillaume Pitel, CTO de Babbar.tech, qui se prête au jeu en interviewant Fabien Vauchelles, le créateur de Scrapoxy.
Merci à Fabien !


Guillaume : Bonjour Fabien. Ravi de te recevoir aujourd’hui ! Tu es l’auteur de Scrapoxy, et j’aimerais en savoir un peu plus sur ton parcours. Comment en es-tu arrivé à développer Scrapoxy ? Depuis combien de temps travailles-tu sur ce projet ?

Fabien : Bonne question ! J’ai commencé à faire du scraping il y a environ vingt ans, pratiquement depuis mes débuts sur le web. À l’époque, je travaillais sur des moteurs de recherche et j’avais besoin de récupérer de la donnée, ce qui m’a amené progressivement du crawling au scraping.

J’avais un projet ambitieux : prédire les évolutions professionnelles des gens à partir de leur profil. L’idée était d’identifier leur « next step » en fonction de divers facteurs. Cela ouvrait la voie à des applications comme la recommandation d’emplois ou l’analyse prédictive des tendances du marché du travail. À l’époque, on n’avait pas d’IA aussi avancée qu’aujourd’hui, seulement des modèles basiques en NLP.

J’ai commencé à récupérer des millions de profils sur un réseau social bien connu. Mais rapidement, j’ai fait face à des problèmes de bannissement. Pour contourner cela, il fallait gérer plusieurs adresses IP, ce qui était complexe et coûteux.

J’ai donc développé une solution pour automatiser ce processus. D’abord avec des proxies sur AWS, puis en mettant en place un système d’orchestration automatique, qui est devenu Scrapoxy. Je l’ai partagé en open source et il a été rapidement adopté. Certains utilisateurs l’ont poussé à l’extrême en démarrant 20 000 machines par nuit, alors que je n’en utilisais que 200 ! C’est là que j’ai réalisé l’engouement pour cet outil.

Guillaume : C’est impressionnant ! J’imagine que les plateformes n’ont pas tardé à réagir. Comment ont-elles renforcé leurs défenses au fil du temps ?

Fabien : Exactement. Au départ, ça fonctionnait très bien, mais les protections se sont renforcées. À un moment donné, j’avais récupéré pratiquement tous les profils français de LinkedIn, soit environ 16 millions de profils.

Je ne les ai jamais exploités commercialement, mais j’ai fait des tests internes avec du NLP, notamment pour prédire quand une personne allait quitter son emploi. À partir des données, on pouvait anticiper les changements professionnels et suggérer des opportunités d’emploi adaptées.

Certaines entreprises ont utilisé des techniques similaires, certaines ont réussi, d’autres ont été rachetées ou ont cessé leur activité. Cela montre à quel point ces outils peuvent être puissants.

Guillaume : Et aujourd’hui, Scrapoxy gère quoi exactement dans le processus de scraping ?

Fabien : Scrapoxy est un gestionnaire de proxy dédié au scraping. Il ne fait pas de crawling, mais orchestre les proxies. Il gère différents fournisseurs comme AWS, OVH, Digital Ocean et 25 fournisseurs de proxy, y compris des proxies résidentiels.

Il automatise la rotation des adresses IP, gère le scaling des instances pour réduire les coûts. Par exemple, au lieu de garder 200 instances actives en permanence, Scrapoxy les allume et les éteint dynamiquement, réduisant ainsi les coûts de 80 %.

Il propose aussi des fonctionnalités comme l’empreinte digitale des navigateurs pour éviter la détection, la gestion des bans et l’intégration avec Scrapy pour faciliter l’utilisation.

Guillaume : Donc, en gros, Scrapoxy optimise l’infrastructure pour que les scrapers puissent fonctionner sans trop de frictions ?

Fabien : Exactement. Scrapoxy n’est pas un outil de scraping en soi, mais une solution qui permet de mieux utiliser des outils existants. Il évite que les IPs soient rapidement bannies et optimise les coûts en ne faisant tourner les machines que lorsque c’est nécessaire. C’est aussi une base modulaire, j’ai des contributeurs qui font des modules pour leurs cas particuliers et les mettent à disposition ensuite. Il y a aussi des gens qui proposent des solutions très intéressantes pour faire varier la charge par palier.

Guillaume : L’open source, c’est génial, mais comment gères-tu la communauté, et puis aussi la monétisation de Scrapoxy ?

Fabien : C’est un vrai défi. Plusieurs modèles existent : consulting, open core (version gratuite et version premium payante), ou sponsoring. J’ai testé le consulting, mais ça dévie souvent vers d’autres problématiques non liées à Scrapoxy.

Je réfléchi plutôt actuellement sur un modèle open core avec une version avancée payante. Mais avec les avancées de l’IA, je me pose la question de limiter l’open source, car il devient trop facile de cloner et améliorer un projet grâce aux IA.

Guillaume : C’est un vrai dilemme, ça. D’ailleurs tu penses que l’IA va transformer en profondeur le domaine du scraping ?

Fabien : Oui, on assiste à une évolution du jeu permanent du « chat et de la souris ». Avant, les protections étaient basées sur des bans d’IP, puis sur la détection des empreintes digitales des navigateurs. Aujourd’hui, on entre dans un combat entre IA : une IA crée un antibot, une autre IA trouve comment le contourner. Le futur sera un affrontement automatisé entre ces systèmes.

On voit aussi l’émergence de modèles capables d’interagir avec les sites comme un humain, en simulant des comportements naturels. Ce sont des challenges passionnants à suivre !

Guillaume : Passionnant ! Merci Fabien pour cette discussion très enrichissante.

Fabien : Merci à toi, Guillaume. C’était un plaisir d’échanger sur ces sujets !