reCAPTCHA

Un reCAPTCHA, avec un mot lisible puis un mot à déchiffrer totalement, servant à entrainer les IA de reconnaissance de caractères de Google

reCAPTCHA est un service de test CAPTCHA proposé par Google aux éditeurs de sites webs pour leur permettre de différencier de manière automatisée les utilisateurs humains des robots, et ainsi se prémunir contre divers abus. Le système se différencie des CAPTCHA classiques en mettant à profit les capacités de reconnaissance que le test mobilise chez les utilisateurs humains, pour entraîner par la même occasion les intelligences artificielles que Google développe.

À l'origine, il s'agissait d'un test de reconnaissance de texte, servant à la numérisation de livres, là où échouaient les systèmes de reconnaissance optique de caractères (OCR). Il a été remplacé en 2012 par un test de reconnaissance d'images issues de Google Street View, pour améliorer la reconnaissance de formes. Depuis 2014, ce test n'est plus réalisé que si un robot le juge nécessaire, après que l'utilisateur eut été invité à cliquer sur une simple case à cocher.

Mis au point par des chercheurs de la Carnegie Mellon School of Computer Science (en) de l'université Carnegie-Mellon à Pittsburgh, dont était également issu le projet CAPTCHA^[1], le système appartient à Google depuis fin 2009^[2]^,^[3].

Description

L'idée est de rendre utile une tâche qui peut sembler rébarbative. La technique tient du crowdsourcing.

Concrètement, par rapport à un processus habituel d'authentification par CAPTCHA, ce ne sont pas un mais deux mots qui sont présentés à l'utilisateur. L'un d'eux est un CAPTCHA habituel, dont la solution est par conséquent connue de manière certaine ; seul l'autre est issu de la numérisation d'un livre : c'est celui dont la solution est incertaine voire inconnue et que l'utilisateur va aider à résoudre.

Le système part du principe que si les utilisateurs résolvent correctement le CAPTCHA habituel, alors ils ont aussi déchiffré correctement le mot inconnu. Néanmoins, un mot n'est considéré comme vraiment reconnu que si plusieurs utilisateurs l'ont vérifié en obtenant le même résultat.

Les mots à reconnaître sont issus de numérisations opérées par Internet Archive sur des ouvrages anciens appartenant au domaine public. Ils sont fournis lors des requêtes par le site web du projet reCAPTCHA^[4]. Le projet reCAPTCHA propose des bibliothèques pour différents langages de programmation afin de faciliter le processus. Le service est gratuit, à l'exception des utilisateurs qui auraient besoin d'une bande passante trop élevée.

Le but de reCAPTCHA est le même que celui poursuivi par Distributed Proofreaders, un autre projet visant également à valider l'OCR par des opérateurs humains, mais de manière conventionnelle, sans avoir recours à un système de CAPTCHA.

En 2012, les algorithmes de reconnaissance de caractères de Google étant devenus suffisamment performants pour ne plus avoir besoin d'utilisateurs, Google réoriente le service vers la reconnaissance d'objets dans des images^[5].

Histoire

En 2009, le projet reCAPTCHA est à même de numériser les archives du New York Times : en septembre 2009, environ 20 ans d'archives avaient été numérisés, et les responsables du projet espéraient avoir complètement numérisé les 110 autres années avant la fin de 2010^[6].

Le 16 septembre 2009, Google annonce l'acquisition de la société reCAPTCHA^[2]. Celle-ci est alors utilisée principalement dans le processus de numérisation d'ouvrages de Google Livres.

Depuis mars 2012, reCAPTCHA se présente sous forme d'une reconnaissance d'images issues de Google Street View et est utilisé par Google pour l'améliorer^[7].

En décembre 2014, une seconde version de reCAPTCHA évite à l'internaute d'avoir à taper des caractères ou des chiffres : il n'a plus qu'à cliquer sur une case. Un système à base d'intelligence artificielle détecte s'il s'agit bien d'un clic fait par un humain et si c'est bien le cas, le CAPTCHA est validé^[8]. Toutefois, le processus a toujours une utilité pour Google, car les clics des utilisateurs servent à entraîner des intelligences artificielles, dans les voitures autonomes notamment^[2]. Une version audio existe pour les personnes déficientes visuelles. Les interactions enregistrées par le site, en particulier les déplacements de souris, servent aussi à identifier la probabilité d'être face à un robot, et augmenter le niveau du défi proposé selon ce risque^[9].

Au début de 2017, la troisième version de reCAPTCHA est introduite, rendant l'usage du dispositif invisible dans la majorité des cas, et donnant lieu à des inquiétudes concernant la vie privée^[10]^,^[11].

En 2020 est introduite une version entreprise^[12].

Controverses

Vie privée et usage des données collectées

Article connexe : Google § Données collectées.

Les données collectées par reCAPTCHA sur chaque personne concernent les matériels et les logiciels utilisés^[13].

Ces données incluent les cookies de moins de 6 mois déposés par Google, les clics sur la page où se situe le dispositif, les informations CSS et objets JavaScript, l'horodatage, les modules installés sur le navigateur et la langue qui y est configurée, ainsi que potentiellement une capture d'image de la fenêtre du navigateur. Les données telles que les identifiants entrés sur les pages de connexion à un compte sont aussi concernées^[14].

Les tests effectués montrent que reCAPTCHA suspecte un robot dans le cas où des mesures de protection de la vie privée sont mises en place telles que l'usage d'un VPN, d'un navigateur Tor^[11], d'un module de navigateur protégeant les données personnelles, ou la suppression régulière des cookies^[10]. Dans le cas d'un module de navigateur protégeant la vie privée, l'échec est invisible^[10].

Enfin, depuis sa troisième version, reCAPTCHA utilise ces informations pour évaluer de manière invisible si l'utilisateur est un être humain : l'URL qui a permis d'arriver à la page courante, le système d'exploitation, les cookies, les mouvements de souris^[9] et frappes de clavier, la durée des pauses entre les actions, la configuration du périphérique (langue et localisation)^[15].

Le service reCAPTCHA demande à la fois l'adhésion à ses conditions d'utilisation propres et les mêmes autorisations que pour les autres services Google, ce qui autorise le recoupement avec des informations collectées auprès de tiers telles que :

les recherches effectuées ;
les vidéos regardées ;
les vues et interactions avec les annonces publicitaires ;
les informations audio et vocales captées lorsqu'une fonctionnalité audio est utilisée ;
les informations associées aux achats ;
les personnes avec lesquelles l'utilisateur communique ou partage des contenus ;
l'activité associée aux autres sites web visités et les applications qui utilisent les services Google ;
l'historique Google Chrome éventuellement synchronisé avec un compte Google.

Cette collecte ne détaille pas les informations qui sont exploitées et celles qui ne le sont pas^[16]^,^[17]^,^[14].

Incompatibilité avec la législation européenne et française

L'outil reCAPTCHA indique collecter des données sans préciser lesquelles, et sans garantir un hébergement à l'intérieur de l'Union européenne^[13] comme le demande le RGPD^[16].

La CNIL s'est penchée sur la question de la conformité au RGPD de cette fonctionnalité à la suite de l'article "Bien sûr que je ne suis pas un robot ! Quoique..." (Editions législatives, 5 novembre 2018).

La CNIL a publié la décision n^o MED-2020-015 le 15 juillet 2020, qui mettait en demeure le ministère des Solidarités et de la Santé^[18] dans le contexte de l'application StopCovid. La CNIL y relève que l'usage de reCAPTCHA doit être précisé dans l'analyse d'impact (AIPD) d'un logiciel, sous peine de manquement à l'article 35 du RGPD^[19]. Elle précise aussi que les développeurs sont clairement informés par Google dans ses conditions d'utilisation que cet usage est soumis à une demande de consentement de la part des personnes qui l'utilisent^[13], puisque la collecte de données n'a pas pour seul objet la sécurisation de l'application^[20]. Enfin, elle signale que ne pas demander le consentement des personnes utilisatrices constitue un manquement à l'article 82 de la Loi informatique et libertés^[21]. En avril 2022, une réponse de la CNIL a été publiée, confirmant la remise en cause de la compatibilité de l'usage de reCAPTCHA avec le RGPD^[16].

Selon la directive 4.8 du RGPD, l'usage d'un reCAPTCHA relève de la responsabilité de l'éditeur du site, en particulier pour le recueil du consentement des personnes qui doivent remplir ce captcha ainsi que leur droit d'opposition, Google n'étant que sous-traitant. Toutefois, ce droit d'opposition entre en conflit direct avec l'intérêt du dispositif. Par ailleurs, la troisième version de ce dispositif se basant sur une décision automatique, elle rend impossible l'explication par le délégué à la protection des données d'une décision de refus telle que l'impose l'article 22 du RGPD^[10].

Participation contrainte à un objectif militaire

Il consisterait aussi en un travail numérique contraint, qui pouvait être utilisé dans le cadre de Maven, projet du Pentagone visant à améliorer les technologies embarquées dans les drones de l'armée américaine en zone de guerre. Face aux inquiétudes émises en interne comme en externe, Google a décidé de ne pas reconduire ce projet^[10].

Notes et références

↑ (en) Luis von Ahn, Ben Maurer, Colin McMillen, David Abraham et Manuel Blum, « reCAPTCHA: Human-Based Character Recognition via Web Security Measures », Science, vol. 321, n^o 5895,‎ 12 septembre 2008, p. 016013 2025 (DOI 10.1126/science.1160379, lire en ligne [PDF]).
↑ ^{a b et c} Cédric Ingrand, « Comment, sans le savoir, vos clics améliorent les voitures autonomes de Google », LCI, 20 septembre 2018 (consulté le 30 mai 2020).
↑ (en) Luis von Ahn et Will Cathcart, « Teaching computers to read: Google acquires reCAPTCHA », sur Official Google Blog, 16 septembre 2009.
↑ « Exclusif : Un Captcha pour Internet Archive, concurrent de Google Books », sur ActuaLitté.com (consulté le 31 août 2023)
↑ (en-US) Ellis Hamburger, « Google turns people into StreetView image decoders with new ReCAPTCHA boxes », sur The Verge, 29 mars 2012 (consulté le 31 août 2023)
↑ (en) « Diamond Factory, Anthrax Investigation, Auto-Tune and Profile: Luis von Ahn », Nova ScienceNow (en), PBS, 30 juin 2009 : « Luis von Ahn: The New York Times has this huge archive of 130 years of newspaper archived there. And we've done, maybe, about 20 years so far of The New York Times in the last few months. And I believe we're going to be done next year, by just having people do a word at a time. » (46:58).
↑ Guillaume Champeau, « Comment Google exploite le spam pour améliorer Google Maps », sur Numerama, 30 mars 2012.
↑ (en-US) Vinay Shet, « Are you a robot? Introducing “No CAPTCHA reCAPTCHA” », Google Online Security Blog, 3 décembre 2014 (consulté le 29 avril 2017).
↑ ^{a et b} Vincent Hermann, « reCAPTCHA : Google veut prouver que vous n'êtes pas un robot avec une case à cocher », sur Next INpact, 4 décembre 2014 (consulté le 19 mai 2022).
↑ ^{a b c d et e} Bruno Rasle (délégué général de l'Association française des correspondants à la protection des données à caractère personnel), « Bien sûr que je ne suis pas un robot ! Quoique... », sur editions-legislatives.fr, Lefebvre-Dalloz, 5 novembre 2018 (consulté le 15 novembre 2022).
↑ ^{a et b} Katharine Schwab, « Google’s new reCAPTCHA has a dark side », sur fastcompany.com, 27 juin 2019 (consulté le 15 novembre 2022).
↑ Google, « What is reCAPTCHA? » (consulté le 15 novembre 2022).
↑ ^{a b et c} Google reCAPTCHA, « Enregistrez un site : Conditions d'utilisation de reCAPTCHA » (consulté le 12 mai 2022) : « Vous reconnaissez et comprenez que le fonctionnement de l'API reCAPTCHA repose sur la collecte d'informations matérielles et logicielles, telles que les données sur les appareils et les applis, qui sont transmises à Google pour analyse. Les informations recueillies lorsque vous utilisez ce service seront utilisées pour améliorer la fonctionnalité reCAPTCHA, ainsi qu'à des fins de sécurité générale. Google ne s'en servira pas pour vous proposer de la publicité personnalisée. En vertu de la section 3(d) des conditions d'utilisation des API Google, si vous utilisez les API, vous acceptez qu'il vous incombe d'en informer les utilisateurs et de leur demander leur autorisation pour la collecte et le partage de ces données avec Google. Dans l'Union européenne, le ou les clients d'API, et vous-même, devez vous conformer aux Règles relatives au consentement de l'utilisateur dans l'UE. Votre utilisation de reCAPTCHA est soumise à une limite du nombre d'appels. Google peut appliquer ces limites à sa seule discrétion via l'un des procédés décrits dans la section concernant les limites du nombre d'appels ou dans les présentes conditions d'utilisation. »
↑ ^{a et b} Mikaël, « Antispam ReCAPTCHA V3 de Google, êtes-vous conforme avec la RGPD ? : Un point sur l’outil antispam le Recaptcha V3 de Google plébiscité par un large panel des sites et blogs high tech et marketing. », sur sporadik.fr, 26 octobre 2022 (consulté le 15 novembre 2022).
↑ (en) « Google’s ReCAPTCHA v3: What you need to know to be GDPR compliant », sur usercentrics.com, 20 octobre 2021 (consulté le 15 novembre 2022).
↑ ^{a b et c} Florent Gastaud, « La solution GOOGLE reCAPTCHA est-elle illégale ? », sur mon-dpo-externe.com, 22 avril 2022 (consulté le 15 novembre 2022).
↑
Google, « Règles de confidentialité : Informations collectées par Google », 10 février 2022 (consulté le 13 mai 2022) :
« Les informations que nous collectons servent à améliorer les services proposés à tous nos utilisateurs. Il peut s'agir d'informations de base, telles que la langue que vous utilisez, ou plus complexes, comme les annonces que vous trouvez les plus utiles, les personnes qui vous intéressent le plus sur le Web ou les vidéos YouTube qui sont susceptibles de vous plaire. Les informations que nous collectons et l'usage que nous en faisons dépendent de la manière dont vous utilisez nos services et dont vous gérez vos paramètres de confidentialité. Lorsque vous n'êtes connecté à aucun compte Google, nous stockons les informations collectées en les associant à des identifiants uniques liés au navigateur, à l'application ou à l'appareil que vous utilisez. Cela nous permet, par exemple, de conserver vos préférences pour toutes vos sessions de navigation (que ce soit votre langue d'affichage, ou si vous voulez ou non voir des annonces ou des résultats de recherche plus pertinents en fonction de votre activité). Lorsque vous êtes connecté à votre compte, nous stockons les informations collectées en les associant à votre compte Google et les considérons comme des informations personnelles. [...] Les informations relatives à votre activité que nous recueillons peuvent inclure les éléments suivants :
- Les termes que vous recherchez.
- Les vidéos que vous regardez.
- Vos vues de contenu et d'annonces ainsi que vos interactions avec ces derniers.
- Des informations audio et vocales lorsque vous utilisez des fonctionnalités audio.
- L'activité relative aux achats.
- Les personnes avec lesquelles vous communiquez ou partagez du contenu.
- L'activité sur des applications et sites tiers qui utilisent nos services.
- L'historique de navigation Chrome que vous avez synchronisé avec votre compte Google. »
↑ Marie-Laure Denis (présidente de la CNIL), « Décision n^o MED-2020-015 du 15 juillet 2020 mettant en demeure le ministère des solidarités et de la santé », sur Légifrance, 15 juillet 2020 (consulté le 12 mai 2022).
↑ « Article 35 du RGPD », sur cnil.fr, 27 avril 2016 (consulté le 12 mai 2022).
↑ Baptiste Soleil, Simon Bonaventure, Raphaël Poitevin, Clément Cousein et Maxence Mille, « Captcha et numérique responsable : quelles solutions ? », sur sur le site Empreinte digitale, 5 septembre 2022 (consulté le 17 février 2023)
↑ « Article 82 de la Loi informatique et libertés », sur cnil.fr, 12 décembre 2018 (consulté le 12 mai 2022).

Voir aussi

Articles connexes

Liens externes

(en) Site officiel

[vonAhn2008-1] (en) Luis von Ahn, Ben Maurer, Colin McMillen, David Abraham et Manuel Blum, « reCAPTCHA: Human-Based Character Recognition via Web Security Measures », Science, vol. 321, n^o 5895,‎ 12 septembre 2008, p. 016013 2025 (DOI 10.1126/science.1160379, lire en ligne [PDF]).

[lci-2] {a b et c} Cédric Ingrand, « Comment, sans le savoir, vos clics améliorent les voitures autonomes de Google », LCI, 20 septembre 2018 (consulté le 30 mai 2020).

[googleacquires-3] (en) Luis von Ahn et Will Cathcart, « Teaching computers to read: Google acquires reCAPTCHA », sur Official Google Blog, 16 septembre 2009.

[4] « Exclusif : Un Captcha pour Internet Archive, concurrent de Google Books », sur ActuaLitté.com (consulté le 31 août 2023)

[5] (en-US) Ellis Hamburger, « Google turns people into StreetView image decoders with new ReCAPTCHA boxes », sur The Verge, 29 mars 2012 (consulté le 31 août 2023)

[6] (en) « Diamond Factory, Anthrax Investigation, Auto-Tune and Profile: Luis von Ahn », Nova ScienceNow (en), PBS, 30 juin 2009 : « Luis von Ahn: The New York Times has this huge archive of 130 years of newspaper archived there. And we've done, maybe, about 20 years so far of The New York Times in the last few months. And I believe we're going to be done next year, by just having people do a word at a time. » (46:58).

[7] Guillaume Champeau, « Comment Google exploite le spam pour améliorer Google Maps », sur Numerama, 30 mars 2012.

[8] (en-US) Vinay Shet, « Are you a robot? Introducing “No CAPTCHA reCAPTCHA” », Google Online Security Blog, 3 décembre 2014 (consulté le 29 avril 2017).

[:0-9] {a et b} Vincent Hermann, « reCAPTCHA : Google veut prouver que vous n'êtes pas un robot avec une case à cocher », sur Next INpact, 4 décembre 2014 (consulté le 19 mai 2022).

[:1-10] {a b c d et e} Bruno Rasle (délégué général de l'Association française des correspondants à la protection des données à caractère personnel), « Bien sûr que je ne suis pas un robot ! Quoique... », sur editions-legislatives.fr, Lefebvre-Dalloz, 5 novembre 2018 (consulté le 15 novembre 2022).

[:2-11] {a et b} Katharine Schwab, « Google’s new reCAPTCHA has a dark side », sur fastcompany.com, 27 juin 2019 (consulté le 15 novembre 2022).

[12] Google, « What is reCAPTCHA? » (consulté le 15 novembre 2022).

[ConditionsDUtilisationReCaptcha-13] {a b et c} Google reCAPTCHA, « Enregistrez un site : Conditions d'utilisation de reCAPTCHA » (consulté le 12 mai 2022) : « Vous reconnaissez et comprenez que le fonctionnement de l'API reCAPTCHA repose sur la collecte d'informations matérielles et logicielles, telles que les données sur les appareils et les applis, qui sont transmises à Google pour analyse. Les informations recueillies lorsque vous utilisez ce service seront utilisées pour améliorer la fonctionnalité reCAPTCHA, ainsi qu'à des fins de sécurité générale. Google ne s'en servira pas pour vous proposer de la publicité personnalisée. En vertu de la section 3(d) des conditions d'utilisation des API Google, si vous utilisez les API, vous acceptez qu'il vous incombe d'en informer les utilisateurs et de leur demander leur autorisation pour la collecte et le partage de ces données avec Google. Dans l'Union européenne, le ou les clients d'API, et vous-même, devez vous conformer aux Règles relatives au consentement de l'utilisateur dans l'UE. Votre utilisation de reCAPTCHA est soumise à une limite du nombre d'appels. Google peut appliquer ces limites à sa seule discrétion via l'un des procédés décrits dans la section concernant les limites du nombre d'appels ou dans les présentes conditions d'utilisation. »

[:3-14] {a et b} Mikaël, « Antispam ReCAPTCHA V3 de Google, êtes-vous conforme avec la RGPD ? : Un point sur l’outil antispam le Recaptcha V3 de Google plébiscité par un large panel des sites et blogs high tech et marketing. », sur sporadik.fr, 26 octobre 2022 (consulté le 15 novembre 2022).

[15] (en) « Google’s ReCAPTCHA v3: What you need to know to be GDPR compliant », sur usercentrics.com, 20 octobre 2021 (consulté le 15 novembre 2022).

[LegalitereCaptcha-16] {a b et c} Florent Gastaud, « La solution GOOGLE reCAPTCHA est-elle illégale ? », sur mon-dpo-externe.com, 22 avril 2022 (consulté le 15 novembre 2022).

[17] Google, « Règles de confidentialité : Informations collectées par Google », 10 février 2022 (consulté le 13 mai 2022) : « Les informations que nous collectons servent à améliorer les services proposés à tous nos utilisateurs. Il peut s'agir d'informations de base, telles que la langue que vous utilisez, ou plus complexes, comme les annonces que vous trouvez les plus utiles, les personnes qui vous intéressent le plus sur le Web ou les vidéos YouTube qui sont susceptibles de vous plaire. Les informations que nous collectons et l'usage que nous en faisons dépendent de la manière dont vous utilisez nos services et dont vous gérez vos paramètres de confidentialité. Lorsque vous n'êtes connecté à aucun compte Google, nous stockons les informations collectées en les associant à des identifiants uniques liés au navigateur, à l'application ou à l'appareil que vous utilisez. Cela nous permet, par exemple, de conserver vos préférences pour toutes vos sessions de navigation (que ce soit votre langue d'affichage, ou si vous voulez ou non voir des annonces ou des résultats de recherche plus pertinents en fonction de votre activité). Lorsque vous êtes connecté à votre compte, nous stockons les informations collectées en les associant à votre compte Google et les considérons comme des informations personnelles. [...] Les informations relatives à votre activité que nous recueillons peuvent inclure les éléments suivants :
Les termes que vous recherchez.

Les vidéos que vous regardez.

Vos vues de contenu et d'annonces ainsi que vos interactions avec ces derniers.

Des informations audio et vocales lorsque vous utilisez des fonctionnalités audio.

L'activité relative aux achats.

Les personnes avec lesquelles vous communiquez ou partagez du contenu.

L'activité sur des applications et sites tiers qui utilisent nos services.

L'historique de navigation Chrome que vous avez synchronisé avec votre compte Google. »

[18] Les termes que vous recherchez.

[19] Les vidéos que vous regardez.

[20] Vos vues de contenu et d'annonces ainsi que vos interactions avec ces derniers.

[21] Des informations audio et vocales lorsque vous utilisez des fonctionnalités audio.

[22] L'activité relative aux achats.

[23] Les personnes avec lesquelles vous communiquez ou partagez du contenu.

[24] L'activité sur des applications et sites tiers qui utilisent nos services.

[25] L'historique de navigation Chrome que vous avez synchronisé avec votre compte Google. »

[18] Marie-Laure Denis (présidente de la CNIL), « Décision n^o MED-2020-015 du 15 juillet 2020 mettant en demeure le ministère des solidarités et de la santé », sur Légifrance, 15 juillet 2020 (consulté le 12 mai 2022).

[19] « Article 35 du RGPD », sur cnil.fr, 27 avril 2016 (consulté le 12 mai 2022).

[20] Baptiste Soleil, Simon Bonaventure, Raphaël Poitevin, Clément Cousein et Maxence Mille, « Captcha et numérique responsable : quelles solutions ? », sur sur le site Empreinte digitale, 5 septembre 2022 (consulté le 17 février 2023)

[21] « Article 82 de la Loi informatique et libertés », sur cnil.fr, 12 décembre 2018 (consulté le 12 mai 2022).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]