reCAPTCHA

Un reCAPTCHA, avec un mot lisible puis un mot à déchiffrer totalement, servant à entrainer les IA de reconnaissance de caractères de Google

reCAPTCHA est un service de test CAPTCHA proposé par Google aux éditeurs de sites webs pour leur permettre de différencier de manière automatisée les utilisateurs humains des robots, et ainsi se prémunir contre divers abus. Le système se différencie des CAPTCHA classiques en mettant à profit les capacités de reconnaissance que le test mobilise chez les utilisateurs humains, pour entraîner par la même occasion les intelligences artificielles que Google développe.

À l'origine, il s'agissait d'un test de reconnaissance de texte, servant à la numérisation de livres, là où échouaient les systèmes de reconnaissance optique de caractères (OCR). Il a été remplacé en 2012 par un test de reconnaissance d'images issues de Google Street View, pour améliorer la reconnaissance de formes. Depuis 2014, ce test n'est plus réalisé que si un robot le juge nécessaire, après que l'utilisateur eut été invité à cliquer sur une simple case à cocher.

Mis au point par des chercheurs de la Carnegie Mellon School of Computer Science (en) de l'université Carnegie-Mellon à Pittsburgh, dont était également issu le projet CAPTCHA[1], le système appartient à Google depuis fin 2009[2],[3].

Description

[modifier | modifier le code]

L'idée est de rendre utile une tâche qui peut sembler rébarbative. La technique tient du crowdsourcing.

Concrètement, par rapport à un processus habituel d'authentification par CAPTCHA, ce ne sont pas un mais deux mots qui sont présentés à l'utilisateur. L'un d'eux est un CAPTCHA habituel, dont la solution est par conséquent connue de manière certaine ; seul l'autre est issu de la numérisation d'un livre : c'est celui dont la solution est incertaine voire inconnue et que l'utilisateur va aider à résoudre.

Le système part du principe que si les utilisateurs résolvent correctement le CAPTCHA habituel, alors ils ont aussi déchiffré correctement le mot inconnu. Néanmoins, un mot n'est considéré comme vraiment reconnu que si plusieurs utilisateurs l'ont vérifié en obtenant le même résultat.

Les mots à reconnaître sont issus de numérisations opérées par Internet Archive sur des ouvrages anciens appartenant au domaine public. Ils sont fournis lors des requêtes par le site web du projet reCAPTCHA[4]. Le projet reCAPTCHA propose des bibliothèques pour différents langages de programmation afin de faciliter le processus. Le service est gratuit, à l'exception des utilisateurs qui auraient besoin d'une bande passante trop élevée.

Le but de reCAPTCHA est le même que celui poursuivi par Distributed Proofreaders, un autre projet visant également à valider l'OCR par des opérateurs humains, mais de manière conventionnelle, sans avoir recours à un système de CAPTCHA.

En 2012, les algorithmes de reconnaissance de caractères de Google étant devenus suffisamment performants pour ne plus avoir besoin d'utilisateurs, Google réoriente le service vers la reconnaissance d'objets dans des images[5].

En 2009, le projet reCAPTCHA est à même de numériser les archives du New York Times : en , environ 20 ans d'archives avaient été numérisés, et les responsables du projet espéraient avoir complètement numérisé les 110 autres années avant la fin de 2010[6].

Le , Google annonce l'acquisition de la société reCAPTCHA[2]. Celle-ci est alors utilisée principalement dans le processus de numérisation d'ouvrages de Google Livres.

Depuis , reCAPTCHA se présente sous forme d'une reconnaissance d'images issues de Google Street View et est utilisé par Google pour l'améliorer[7].

En , une seconde version de reCAPTCHA évite à l'internaute d'avoir à taper des caractères ou des chiffres : il n'a plus qu'à cliquer sur une case. Un système à base d'intelligence artificielle détecte s'il s'agit bien d'un clic fait par un humain et si c'est bien le cas, le CAPTCHA est validé[8]. Toutefois, le processus a toujours une utilité pour Google, car les clics des utilisateurs servent à entraîner des intelligences artificielles, dans les voitures autonomes notamment[2]. Une version audio existe pour les personnes déficientes visuelles. Les interactions enregistrées par le site, en particulier les déplacements de souris, servent aussi à identifier la probabilité d'être face à un robot, et augmenter le niveau du défi proposé selon ce risque[9].

Au début de , la troisième version de reCAPTCHA est introduite, rendant l'usage du dispositif invisible dans la majorité des cas, et donnant lieu à des inquiétudes concernant la vie privée[10],[11].

En est introduite une version entreprise[12].

Controverses

[modifier | modifier le code]

Vie privée et usage des données collectées

[modifier | modifier le code]

Les données collectées par reCAPTCHA sur chaque personne concernent les matériels et les logiciels utilisés[13].

Ces données incluent les cookies de moins de 6 mois déposés par Google, les clics sur la page où se situe le dispositif, les informations CSS et objets JavaScript, l'horodatage, les modules installés sur le navigateur et la langue qui y est configurée, ainsi que potentiellement une capture d'image de la fenêtre du navigateur. Les données telles que les identifiants entrés sur les pages de connexion à un compte sont aussi concernées[14].

Les tests effectués montrent que reCAPTCHA suspecte un robot dans le cas où des mesures de protection de la vie privée sont mises en place telles que l'usage d'un VPN, d'un navigateur Tor[11], d'un module de navigateur protégeant les données personnelles, ou la suppression régulière des cookies[10]. Dans le cas d'un module de navigateur protégeant la vie privée, l'échec est invisible[10].

Enfin, depuis sa troisième version, reCAPTCHA utilise ces informations pour évaluer de manière invisible si l'utilisateur est un être humain : l'URL qui a permis d'arriver à la page courante, le système d'exploitation, les cookies, les mouvements de souris[9] et frappes de clavier, la durée des pauses entre les actions, la configuration du périphérique (langue et localisation)[15].

Le service reCAPTCHA demande à la fois l'adhésion à ses conditions d'utilisation propres et les mêmes autorisations que pour les autres services Google, ce qui autorise le recoupement avec des informations collectées auprès de tiers telles que :

  • les recherches effectuées ;
  • les vidéos regardées ;
  • les vues et interactions avec les annonces publicitaires ;
  • les informations audio et vocales captées lorsqu'une fonctionnalité audio est utilisée ;
  • les informations associées aux achats ;
  • les personnes avec lesquelles l'utilisateur communique ou partage des contenus ;
  • l'activité associée aux autres sites web visités et les applications qui utilisent les services Google ;
  • l'historique Google Chrome éventuellement synchronisé avec un compte Google.

Cette collecte ne détaille pas les informations qui sont exploitées et celles qui ne le sont pas[16],[17],[14].

Incompatibilité avec la législation européenne et française

[modifier | modifier le code]

L'outil reCAPTCHA indique collecter des données sans préciser lesquelles, et sans garantir un hébergement à l'intérieur de l'Union européenne[13] comme le demande le RGPD[16].

La CNIL s'est penchée sur la question de la conformité au RGPD de cette fonctionnalité à la suite de l'article "Bien sûr que je ne suis pas un robot ! Quoique..." (Editions législatives, 5 novembre 2018).

La CNIL a publié la décision no MED-2020-015 le , qui mettait en demeure le ministère des Solidarités et de la Santé[18] dans le contexte de l'application StopCovid. La CNIL y relève que l'usage de reCAPTCHA doit être précisé dans l'analyse d'impact (AIPD) d'un logiciel, sous peine de manquement à l'article 35 du RGPD[19]. Elle précise aussi que les développeurs sont clairement informés par Google dans ses conditions d'utilisation que cet usage est soumis à une demande de consentement de la part des personnes qui l'utilisent[13], puisque la collecte de données n'a pas pour seul objet la sécurisation de l'application[20]. Enfin, elle signale que ne pas demander le consentement des personnes utilisatrices constitue un manquement à l'article 82 de la Loi informatique et libertés[21]. En , une réponse de la CNIL a été publiée, confirmant la remise en cause de la compatibilité de l'usage de reCAPTCHA avec le RGPD[16].

Selon la directive 4.8 du RGPD, l'usage d'un reCAPTCHA relève de la responsabilité de l'éditeur du site, en particulier pour le recueil du consentement des personnes qui doivent remplir ce captcha ainsi que leur droit d'opposition, Google n'étant que sous-traitant. Toutefois, ce droit d'opposition entre en conflit direct avec l'intérêt du dispositif. Par ailleurs, la troisième version de ce dispositif se basant sur une décision automatique, elle rend impossible l'explication par le délégué à la protection des données d'une décision de refus telle que l'impose l'article 22 du RGPD[10].

Participation contrainte à un objectif militaire

[modifier | modifier le code]

Il consisterait aussi en un travail numérique contraint, qui pouvait être utilisé dans le cadre de Maven, projet du Pentagone visant à améliorer les technologies embarquées dans les drones de l'armée américaine en zone de guerre. Face aux inquiétudes émises en interne comme en externe, Google a décidé de ne pas reconduire ce projet[10].

Notes et références

[modifier | modifier le code]
  1. (en) Luis von Ahn, Ben Maurer, Colin McMillen, David Abraham et Manuel Blum, « reCAPTCHA: Human-Based Character Recognition via Web Security Measures », Science, vol. 321, no 5895,‎ , p. 016013 2025 (DOI 10.1126/science.1160379, lire en ligne [PDF]).
  2. a b et c Cédric Ingrand, « Comment, sans le savoir, vos clics améliorent les voitures autonomes de Google », LCI, (consulté le ).
  3. (en) Luis von Ahn et Will Cathcart, « Teaching computers to read: Google acquires reCAPTCHA », sur Official Google Blog, .
  4. « Exclusif : Un Captcha pour Internet Archive, concurrent de Google Books », sur ActuaLitté.com (consulté le )
  5. (en-US) Ellis Hamburger, « Google turns people into StreetView image decoders with new ReCAPTCHA boxes », sur The Verge, (consulté le )
  6. (en) « Diamond Factory, Anthrax Investigation, Auto-Tune and Profile: Luis von Ahn », Nova ScienceNow (en), PBS,  : « Luis von Ahn: The New York Times has this huge archive of 130 years of newspaper archived there. And we've done, maybe, about 20 years so far of The New York Times in the last few months. And I believe we're going to be done next year, by just having people do a word at a time. » (46:58).
  7. Guillaume Champeau, « Comment Google exploite le spam pour améliorer Google Maps », sur Numerama, .
  8. (en-US) Vinay Shet, « Are you a robot? Introducing “No CAPTCHA reCAPTCHA” », Google Online Security Blog, (consulté le ).
  9. a et b Vincent Hermann, « reCAPTCHA : Google veut prouver que vous n'êtes pas un robot avec une case à cocher », sur Next INpact, (consulté le ).
  10. a b c d et e Bruno Rasle (délégué général de l'Association française des correspondants à la protection des données à caractère personnel), « Bien sûr que je ne suis pas un robot ! Quoique... », sur editions-legislatives.fr, Lefebvre-Dalloz, (consulté le ).
  11. a et b Katharine Schwab, « Google’s new reCAPTCHA has a dark side », sur fastcompany.com, (consulté le ).
  12. Google, « What is reCAPTCHA? » (consulté le ).
  13. a b et c Google reCAPTCHA, « Enregistrez un site : Conditions d'utilisation de reCAPTCHA » (consulté le ) : « Vous reconnaissez et comprenez que le fonctionnement de l'API reCAPTCHA repose sur la collecte d'informations matérielles et logicielles, telles que les données sur les appareils et les applis, qui sont transmises à Google pour analyse. Les informations recueillies lorsque vous utilisez ce service seront utilisées pour améliorer la fonctionnalité reCAPTCHA, ainsi qu'à des fins de sécurité générale. Google ne s'en servira pas pour vous proposer de la publicité personnalisée. En vertu de la section 3(d) des conditions d'utilisation des API Google, si vous utilisez les API, vous acceptez qu'il vous incombe d'en informer les utilisateurs et de leur demander leur autorisation pour la collecte et le partage de ces données avec Google. Dans l'Union européenne, le ou les clients d'API, et vous-même, devez vous conformer aux Règles relatives au consentement de l'utilisateur dans l'UE. Votre utilisation de reCAPTCHA est soumise à une limite du nombre d'appels. Google peut appliquer ces limites à sa seule discrétion via l'un des procédés décrits dans la section concernant les limites du nombre d'appels ou dans les présentes conditions d'utilisation. »
  14. a et b Mikaël, « Antispam ReCAPTCHA V3 de Google, êtes-vous conforme avec la RGPD ? : Un point sur l’outil antispam le Recaptcha V3 de Google plébiscité par un large panel des sites et blogs high tech et marketing. », sur sporadik.fr, (consulté le ).
  15. (en) « Google’s ReCAPTCHA v3: What you need to know to be GDPR compliant », sur usercentrics.com, (consulté le ).
  16. a b et c Florent Gastaud, « La solution GOOGLE reCAPTCHA est-elle illégale ? », sur mon-dpo-externe.com, (consulté le ).
  17. Google, « Règles de confidentialité : Informations collectées par Google », (consulté le ) : « Les informations que nous collectons servent à améliorer les services proposés à tous nos utilisateurs. Il peut s'agir d'informations de base, telles que la langue que vous utilisez, ou plus complexes, comme les annonces que vous trouvez les plus utiles, les personnes qui vous intéressent le plus sur le Web ou les vidéos YouTube qui sont susceptibles de vous plaire. Les informations que nous collectons et l'usage que nous en faisons dépendent de la manière dont vous utilisez nos services et dont vous gérez vos paramètres de confidentialité. Lorsque vous n'êtes connecté à aucun compte Google, nous stockons les informations collectées en les associant à des identifiants uniques liés au navigateur, à l'application ou à l'appareil que vous utilisez. Cela nous permet, par exemple, de conserver vos préférences pour toutes vos sessions de navigation (que ce soit votre langue d'affichage, ou si vous voulez ou non voir des annonces ou des résultats de recherche plus pertinents en fonction de votre activité). Lorsque vous êtes connecté à votre compte, nous stockons les informations collectées en les associant à votre compte Google et les considérons comme des informations personnelles. [...] Les informations relatives à votre activité que nous recueillons peuvent inclure les éléments suivants :
    • Les termes que vous recherchez.
    • Les vidéos que vous regardez.
    • Vos vues de contenu et d'annonces ainsi que vos interactions avec ces derniers.
    • Des informations audio et vocales lorsque vous utilisez des fonctionnalités audio.
    • L'activité relative aux achats.
    • Les personnes avec lesquelles vous communiquez ou partagez du contenu.
    • L'activité sur des applications et sites tiers qui utilisent nos services.
    • L'historique de navigation Chrome que vous avez synchronisé avec votre compte Google. »
  18. Marie-Laure Denis (présidente de la CNIL), « Décision no MED-2020-015 du mettant en demeure le ministère des solidarités et de la santé », sur Légifrance, (consulté le ).
  19. « Article 35 du RGPD », sur cnil.fr, (consulté le ).
  20. Baptiste Soleil, Simon Bonaventure, Raphaël Poitevin, Clément Cousein et Maxence Mille, « Captcha et numérique responsable : quelles solutions ? », sur sur le site Empreinte digitale, (consulté le )
  21. « Article 82 de la Loi informatique et libertés », sur cnil.fr, (consulté le ).

Articles connexes

[modifier | modifier le code]

Liens externes

[modifier | modifier le code]