• Publié par Akim Demora

IA & données : la CNIL clarifie le terrain de jeu du scraping.

  • Analytique et data management
  • Data management platform

La CNIL fixe les règles : utiliser l’intérêt légitime pour entraîner une IA, ok… mais gare aux limites. Le web scraping est autorisé, mais sous conditions strictes pour protéger les données.

En juin 2025, la CNIL a publié deux recommandations clés, issues d’une consultation publique : l’usage de l’intérêt légitime pour l’IA, et un focus spécifique sur le web scraping. Ce move fait suite à l’avis du CEPD de décembre 2024. L’objectif ? Donner du cadre pratique pour les entreprises et chercheurs sans noyer sous le consentement.

Points clés

  1. Intérêt légitime = base juridique possible (mais pas open bar) La CNIL confirme que l’intérêt légitime, une des 6 bases légales du RGPD, peut fonder un projet IA, notamment quand le consentement est compliqué à récupérer à grande échelle. Mais faut passer le test : légitimité, nécessité, proportionnalité.
  2. Web scraping encadré façon pro La collecte automatisée est autorisée, mais avec toute une check‑list à cocher : exclusion des données sensibles, respect des robots.txt/CAPTCHA, anonymisation ou suppression rapide des données non pertinentes, transparence envers les utilisateurs, droit d’opposition.
  3. Garantie obligatoire côté protection Exclusion par défaut de certaines catégories (minors, santé…), mise en place d’un “push‑back list” pour traiter les objections avant collecte, documentation complète et PIA si nécessaire. On parle aussi anonymisation ou données synthétiques.
  4. Cas concrets + roll‑out prévu La CNIL donne des exemples terrains, type : réutilisation de conversations d’un agent conversationnel avec garanties (info, opposition, pseudonymisation). Et annonce d’autres recommandations à venir : statut RGPD des modèles, sécurité, annotation des données.

Insight

C’est un vrai signal pour le secteur : la CNIL met le pied au plancher pour que les IA respectent le RGPD tout en permettant l’innovation. Le move ? Passer de trucs flous à un cadre actionable. Les devs d’IA peuvent y aller, mais sérieux : pas de moissonnage sauvage. Les acteurs EU risquent de suivre le sillon, et ceux qui jouent en dehors seront vite hors jeu.

Pour aller plus loin
  1. Mets en place un « legitimate interest assessment » rigoureux (nécessité + proportionnalité).
  2. Intègre dans ton process scraping : exclusion par défaut des données sensibles, respect des signaux techniques et droit d’opposition.
  3. Documente, anonymise et publie ta liste de sources + conditions d’usage.
  4. Prépare ta gouvernance IA : privacy by design, PIA, info/des droits aux utilisateurs.

Commentaires