1

Google chante le requiem pour les cookies, mais le grand chœur du pistage résonnera encore

Google va cesser de nous pister avec des cookies tiers ! Une bonne nouvelle, oui mais… Regardons le projet d’un peu plus près avec un article de l’EFF.

La presse en ligne s’en est fait largement l’écho : par exemple siecledigital, generation-nt ou lemonde. Et de nombreux articles citent un éminent responsable du tout-puissant Google :

Chrome a annoncé son intention de supprimer la prise en charge des cookies tiers et que nous avons travaillé avec l’ensemble du secteur sur le Privacy Sandbox afin de mettre au point des innovations qui protègent l’anonymat tout en fournissant des résultats aux annonceurs et aux éditeurs. Malgré cela, nous continuons à recevoir des questions pour savoir si Google va rejoindre d’autres acteurs du secteur des technologies publicitaires qui prévoient de remplacer les cookies tiers par d’autres identifiants de niveau utilisateur. Aujourd’hui, nous précisons qu’une fois les cookies tiers supprimés, nous ne créerons pas d’identifiants alternatifs pour suivre les individus lors de leur navigation sur le Web et nous ne les utiliserons pas dans nos produits.

David Temkin, Director of Product Management, Ads Privacy and Trust (source)

« Pas d’identifiants alternatifs » voilà de quoi nous réjouir : serait-ce la fin d’une époque ?

Comme d’habitude avec Google, il faut se demander où est l’arnaque lucrative. Car il semble bien que le Béhémoth du numérique n’ait pas du tout renoncé à son modèle économique qui est la vente de publicité.

Dans cet article de l’Electronic Frontier Foundation, que vous a traduit l’équipe de Framalang, il va être question d’un projet déjà entamé de Google dont l’acronyme est FLoC, c’est-à-dire Federated Learning of Cohorts. Vous le trouverez ici traduit AFC pour « Apprentissage Fédéré de Cohorte » (voir l’article de Wikipédia Apprentissage fédéré).

Pour l’essentiel, ce dispositif donnerait au navigateur Chrome la possibilité de créer des groupes de milliers d’utilisateurs ayant des habitudes de navigation similaires et permettrait aux annonceurs de cibler ces « cohortes ».


Article original sur le blog de l’Electronic Frontier Foundation : Google’s FLoC is a terrible idea.

Traduction Framalang : amostra, audionuma, Fabrice, goofy, jums, Mannik, mo, amostra, serici, Wisi_eu

Le FLoC de Google est une très mauvaise idée

par Bennett Cyphers

Les cookies tiers se meurent, mais Google essaie de créer leur remplaçant.

Personne ne devrait pleurer la disparition des cookies tels que nous les connaissons aujourd’hui. Pendant plus de deux décennies, les cookies tiers ont été la pierre angulaire d’une obscure et sordide industrie de surveillance publicitaire sur le Web, brassant plusieurs milliards de dollars ; l’abandon progressif des cookies de pistage et autres identifiants tiers persistants tarde à arriver. Néanmoins, si les bases de l’industrie publicitaire évoluent, ses acteurs les plus importants sont déterminés à retomber sur leurs pieds.

Google veut être en première ligne pour remplacer les cookies tiers par un ensemble de technologies permettant de diffuser des annonces ciblées sur Internet. Et certaines de ses propositions laissent penser que les critiques envers le capitalisme de surveillance n’ont pas été entendues. Cet article se concentrera sur l’une de ces propositions : l’Apprentissage Fédéré de Cohorte (AFC, ou FLoC en anglais), qui est peut-être la plus ambitieuse – et potentiellement la plus dangereuse de toutes.

L’AFC est conçu comme une nouvelle manière pour votre navigateur d’établir votre profil, ce que les pisteurs tiers faisaient jusqu’à maintenant, c’est-à-dire en retravaillant votre historique de navigation récent pour le traduire en une catégorie comportementale qui sera ensuite partagée avec les sites web et les annonceurs. Cette technologie permettra d’éviter les risques sur la vie privée que posent les cookies tiers, mais elle en créera de nouveaux par la même occasion. Une solution qui peut également exacerber les pires attaques sur la vie privée posées par les publicités comportementales, comme une discrimination accrue et un ciblage prédateur.

La réponse de Google aux défenseurs de la vie privée a été de prétendre que le monde de demain avec l’AFC (et d’autres composants inclus dans le « bac à sable de la vie privée » sera meilleur que celui d’aujourd’hui, dans lequel les marchands de données et les géants de la tech pistent et profilent en toute impunité. Mais cette perspective attractive repose sur le présupposé fallacieux que nous devrions choisir entre « le pistage à l’ancienne » et le « nouveau pistage ». Au lieu de réinventer la roue à espionner la vie privée, ne pourrait-on pas imaginer un monde meilleur débarrassé des problèmes surabondants de la publicité ciblée ?

Nous sommes à la croisée des chemins. L’ère des cookies tiers, peut-être la plus grande erreur du Web, est derrière nous et deux futurs possibles nous attendent.

Dans l’un d’entre eux, c’est aux utilisateurs et utilisatrices que revient le choix des informations à partager avec chacun des sites avec lesquels il ou elle interagit. Plus besoin de s’inquiéter du fait que notre historique de navigation puisse être utilisé contre nous-mêmes, ou employé pour nous manipuler, lors de l’ouverture d’un nouvel onglet.

Dans l’autre, le comportement de chacune et chacun est répercuté de site en site, au moyen d’une étiquette, invisible à première vue mais riche de significations pour celles et ceux qui y ont accès. L’historique de navigation récent, concentré en quelques bits, est « démocratisé » et partagé avec les dizaines d’interprètes anonymes qui sont partie prenante des pages web. Les utilisatrices et utilisateurs commencent chaque interaction avec une confession : voici ce que j’ai fait cette semaine, tenez-en compte.

Les utilisatrices et les personnes engagées dans la défense des droits numériques doivent rejeter l’AFC et les autres tentatives malvenues de réinventer le ciblage comportemental. Nous exhortons Google à abandonner cette pratique et à orienter ses efforts vers la construction d’un Web réellement favorable aux utilisateurs.

Qu’est-ce que l’AFC ?

En 2019, Google présentait son bac à sable de la vie privée qui correspond à sa vision du futur de la confidentialité sur le Web. Le point central de ce projet est un ensemble de protocoles, dépourvus de cookies, conçus pour couvrir la multitude de cas d’usage que les cookies tiers fournissent actuellement aux annonceurs. Google a soumis ses propositions au W3C, l’organisme qui forge les normes du Web, où elles ont été principalement examinées par le groupe de commerce publicitaire sur le Web, un organisme essentiellement composé de marchands de technologie publicitaire. Dans les mois qui ont suivi, Google et d’autres publicitaires ont proposé des dizaines de standards techniques portant des noms d’oiseaux : pigeon, tourterelle, moineau, cygne, francolin, pélican, perroquet… et ainsi de suite ; c’est très sérieux ! Chacune de ces propositions aviaires a pour objectif de remplacer différentes fonctionnalités de l’écosystème publicitaire qui sont pour l’instant assurées par les cookies.

L’AFC est conçu pour aider les annonceurs à améliorer le ciblage comportemental sans l’aide des cookies tiers. Un navigateur ayant ce système activé collecterait les informations sur les habitudes de navigation de son utilisatrice et les utiliserait pour les affecter à une « cohorte » ou à un groupe. Les utilisateurs qui ont des habitudes de navigations similaires – reste à définir le mot « similaire » – seront regroupés dans une même cohorte. Chaque navigateur partagera un identifiant de cohorte, indiquant le groupe d’appartenance, avec les sites web et les annonceurs. D’après la proposition, chaque cohorte devrait contenir au moins plusieurs milliers d’utilisatrices et utilisateurs (ce n’est cependant pas une garantie).

Si cela vous semble complexe, imaginez ceci : votre identifiant AFC sera comme un court résumé de votre activité récente sur le Web.

La démonstration de faisabilité de Google utilisait les noms de domaines des sites visités comme base pour grouper les personnes. Puis un algorithme du nom de SimHash permettait de créer les groupes. Il peut tourner localement sur la machine de tout un chacun, il n’y a donc pas besoin d’un serveur central qui collecte les données comportementales. Toutefois, un serveur administrateur central pourrait jouer un rôle dans la mise en œuvre des garanties de confidentialité. Afin d’éviter qu’une cohorte soit trop petite (c’est à dire trop caractéristique), Google propose qu’un acteur central puisse compter le nombre de personnes dans chaque cohorte. Si certaines sont trop petites, elles pourront être fusionnées avec d’autres cohortes similaires, jusqu’à ce qu’elles représentent suffisamment d’utilisateurs.

Pour que l’AFC soit utile aux publicitaires, une cohorte d’utilisateurs ou utilisatrices devra forcément dévoiler des informations sur leur comportement.

Selon la proposition formulée par Google, la plupart des spécifications sont déjà à l’étude. Le projet de spécification prévoit que l’identification d’une cohorte sera accessible via JavaScript, mais on ne peut pas savoir clairement s’il y aura des restrictions, qui pourra y accéder ou si l’identifiant de l’utilisateur sera partagé par d’autres moyens. L’AFC pourra constituer des groupes basés sur l’URL ou le contenu d’une page au lieu des noms domaines ; également utiliser une synergie de « système apprentissage » (comme le sous-entend l’appellation AFC) afin de créer des regroupements plutôt que de se baser sur l’algorithme de SimHash. Le nombre total de cohortes possibles n’est pas clair non plus. Le test de Google utilise une cohorte d’utilisateurs avec des identifiants sur 8 bits, ce qui suppose qu’il devrait y avoir une limite de 256 cohortes possibles. En pratique, ce nombre pourrait être bien supérieur ; c’est ce que suggère la documentation en évoquant une « cohorte d’utilisateurs en 16 bits comprenant 4 caractères hexadécimaux ». Plus les cohortes seront nombreuses, plus elles seront spécialisées – plus les identifiants de cohortes seront longs, plus les annonceurs en apprendront sur les intérêts de chaque utilisatrice et auront de facilité pour cibler leur empreinte numérique.

Mais si l’un des points est déjà clair c’est le facteur temps. Les cohortes AFC seront réévaluées chaque semaine, en utilisant chaque fois les données recueillies lors de la navigation de la semaine précédente.
Ceci rendra les cohortes d’utilisateurs moins utiles comme identifiants à long terme, mais les rendra plus intrusives sur les comportements des utilisatrices dans la durée.

De nouveaux problèmes pour la vie privée.

L’AFC fait partie d’un ensemble qui a pour but d’apporter de la publicité ciblée dans un futur où la vie privée serait préservée. Cependant la conception même de cette technique implique le partage de nouvelles données avec les annonceurs. Sans surprise, ceci crée et ajoute des risques concernant la donnée privée.

Le Traçage par reconnaissance d’ID.

Le premier enjeu, c’est le pistage des navigateurs, une pratique qui consiste à collecter de multiples données distinctes afin de créer un identifiant unique, personnalisé et stable lié à un navigateur en particulier. Le projet Cover Your Tracks (Masquer Vos Traces) de l’Electronic Frontier Foundation (EFF) montre comment ce procédé fonctionne : pour faire simple, plus votre navigateur paraît se comporter ou agir différemment des autres, plus il est facile d’en identifier l’empreinte unique.

Google a promis que la grande majorité des cohortes AFC comprendrait chacune des milliers d’utilisatrices, et qu’ainsi on ne pourra vous distinguer parmi le millier de personnes qui vous ressemblent. Mais rien que cela offre un avantage évident aux pisteurs. Si un pistage commence avec votre cohorte, il doit seulement identifier votre navigateur parmi le millier d’autres (au lieu de plusieurs centaines de millions). En termes de théorie de l’information, les cohortes contiendront quelques bits d’entropie jusqu’à 8, selon la preuve de faisabilité. Cette information est d’autant plus éloquente sachant qu’il est peu probable qu’elle soit corrélée avec d’autres informations exposées par le navigateur. Cela va rendre la tâche encore plus facile aux traqueurs de rassembler une empreinte unique pour les utilisateurs de l’AFC.

Google a admis que c’est un défi et s’est engagé à le résoudre dans le cadre d’un plan plus large, le « Budget vie privée »  qui doit régler le problème du pistage par l’empreinte numérique sur le long terme. Un but admirable en soi, et une proposition qui va dans le bon sens ! Mais selon la Foire Aux Questions, le plan est « une première proposition, et n’a pas encore d’implémentation dans un navigateur ». En attendant, Google a commencé à tester l’AFC dès ce mois de mars.

Le pistage par l’empreinte numérique est évidemment difficile à arrêter. Des navigateurs comme Safari et Tor se sont engagés dans une longue bataille d’usure contre les pisteurs, sacrifiant une grande partie de leurs fonctionnalités afin de réduire la surface des attaques par traçage. La limitation du pistage implique généralement des coupes ou des restrictions sur certaines sources d’entropie non nécessaires. Il ne faut pas que Google crée de nouveaux risques d’être tracé tant que les problèmes liés aux risques existants subsistent.

L’exposition croisée

Un second problème est moins facile à expliquer : la technologie va partager de nouvelles données personnelles avec des pisteurs qui peuvent déjà identifier des utilisatrices. Pour que l’AFC soit utile aux publicitaires, une cohorte devra nécessairement dévoiler des informations comportementales.

La page Github du projet aborde ce sujet de manière très directe :

Cette API démocratise les accès à certaines informations sur l’historique de navigation général des personnes (et, de fait, leurs intérêts principaux) à tous les sites qui le demandent… Les sites qui connaissent les Données à Caractère Personnel (c’est-à-dire lorsqu’une personne s’authentifie avec son adresse courriel) peuvent enregistrer et exposer leur cohorte. Cela implique que les informations sur les intérêts individuels peuvent éventuellement être rendues publiques.

Comme décrit précédemment, les cohortes AFC ne devraient pas fonctionner en tant qu’identifiant intrinsèque. Cependant, toute entreprise capable d’identifier un utilisateur d’une manière ou d’une autre – par exemple en offrant les services « identifiez-vous via Google » à différents sites internet – seront à même de relier les informations qu’elle apprend de l’AFC avec le profil de l’utilisateur.

Deux catégories d’informations peuvent alors être exposées :

1. Des informations précises sur l’historique de navigation. Les pisteurs pourraient mettre en place une rétro-ingénierie sur l’algorithme d’assignation des cohortes pour savoir si une utilisatrice qui appartient à une cohorte spécifique a probablement ou certainement visité des sites spécifiques.
2. Des informations générales relatives à la démographie ou aux centres d’intérêts. Par exemple, une cohorte particulière pourrait sur-représenter des personnes jeunes, de sexe féminin, ou noires ; une autre cohorte des personnes d’âge moyen votant Républicain ; une troisième des jeunes LGBTQ+, etc.

Cela veut dire que chaque site que vous visitez se fera une bonne idée de quel type de personne vous êtes dès le premier contact avec ledit site, sans avoir à se donner la peine de vous suivre sur le Net. De plus, comme votre cohorte sera mise à jour au cours du temps, les sites sur lesquels vous êtes identifié⋅e⋅s pourront aussi suivre l’évolution des changements de votre navigation. Souvenez-vous, une cohorte AFC n’est ni plus ni moins qu’un résumé de votre activité récente de navigation.

Vous devriez pourtant avoir le droit de présenter différents aspects de votre identité dans différents contextes. Si vous visitez un site pour des informations médicales, vous pourriez lui faire confiance en ce qui concerne les informations sur votre santé, mais il n’y a pas de raison qu’il ait besoin de connaître votre orientation politique. De même, si vous visitez un site de vente au détail, ce dernier n’a pas besoin de savoir si vous vous êtes renseigné⋅e récemment sur un traitement pour la dépression. L’AFC érode la séparation des contextes et, au contraire, présente le même résumé comportemental à tous ceux avec qui vous interagissez.

Au-delà de la vie privée

L’AFC est conçu pour éviter une menace spécifique : le profilage individuel qui est permis aujourd’hui par le croisement des identifiants contextuels. Le but de l’AFC et des autres propositions est d’éviter de laisser aux pisteurs l’accès à des informations qu’ils peuvent lier à des gens en particulier. Alors que, comme nous l’avons montré, cette technologie pourrait aider les pisteurs dans de nombreux contextes. Mais même si Google est capable de retravailler sur ses conceptions et de prévenir certains risques, les maux de la publicité ciblée ne se limitent pas aux violations de la vie privée. L’objectif même de l’AFC est en contradiction avec d’autres libertés individuelles.

Pouvoir cibler c’est pouvoir discriminer. Par définition, les publicités ciblées autorisent les annonceurs à atteindre certains types de personnes et à en exclure d’autres. Un système de ciblage peut être utilisé pour décider qui pourra consulter une annonce d’emploi ou une offre pour un prêt immobilier aussi facilement qu’il le fait pour promouvoir des chaussures.

Au fur et à mesure des années, les rouages de la publicité ciblée ont souvent été utilisés pour l’exploitation, la discrimination et pour nuire. La capacité de cibler des personnes en fonction de l’ethnie, la religion, le genre, l’âge ou la compétence permet des publicités discriminatoires pour l’emploi, le logement ou le crédit. Le ciblage qui repose sur l’historique du crédit – ou des caractéristiques systématiquement associées – permet de la publicité prédatrice pour des prêts à haut taux d’intérêt. Le ciblage basé sur la démographie, la localisation et l’affiliation politique aide les fournisseurs de désinformation politique et la suppression des votants. Tous les types de ciblage comportementaux augmentent les risques d’abus de confiance.

Au lieu de réinventer la roue du pistage, nous devrions imaginer un monde sans les nombreux problèmes posés par les publicités ciblées.

Google, Facebook et beaucoup d’autres plateformes sont en train de restreindre certains usages sur de leur système de ciblage. Par exemple, Google propose de limiter la capacité des annonceurs de cibler les utilisatrices selon des « catégories de centres d’intérêt à caractère sensible ». Cependant, régulièrement ces tentatives tournent court, les grands acteurs pouvant facilement trouver des compromis et contourner les « plateformes à usage restreint » grâce à certaines manières de cibler ou certains types de publicité.

Même un imaginant un contrôle total sur quelles informations peuvent être utilisées pour cibler quelles personnes, les plateformes demeurent trop souvent incapables d’empêcher les usages abusifs de leur technologie. Or l’AFC utilisera un algorithme non supervisé pour créer ses propres cohortes. Autrement dit, personne n’aura un contrôle direct sur la façon dont les gens seront regroupés.
Idéalement (selon les annonceurs), les cohortes permettront de créer des regroupements qui pourront avoir des comportements et des intérêts communs. Mais le comportement en ligne est déterminé par toutes sortes de critères sensibles : démographiques comme le genre, le groupe ethnique, l’âge ou le revenu ; selon les traits de personnalités du « Big 5 »; et même la santé mentale. Ceci laisse à penser que l’AFC regroupera aussi des utilisateurs parmi n’importe quel de ces axes.
L’AFC pourra aussi directement rediriger l’utilisatrice et sa cohorte vers des sites internet qui traitent l’abus de substances prohibées, de difficultés financières ou encore d’assistance aux victimes d’un traumatisme.

Google a proposé de superviser les résultats du système pour analyser toute corrélation avec ces catégories sensibles. Si l’on découvre qu’une cohorte spécifique est étroitement liée à un groupe spécifique protégé, le serveur d’administration pourra choisir de nouveaux paramètres pour l’algorithme et demander aux navigateurs des utilisateurs concernés de se constituer en un autre groupe.

Cette solution semble à la fois orwellienne et digne de Sisyphe. Pour pouvoir analyser comment les groupes AFC seront associés à des catégories sensibles, Google devra mener des enquêtes gigantesques en utilisant des données sur les utilisatrices : genre, race, religion, âge, état de santé, situation financière. Chaque fois que Google trouvera qu’une cohorte est associée trop fortement à l’un de ces facteurs, il faudra reconfigurer l’ensemble de l’algorithme et essayer à nouveau, en espérant qu’aucune autre « catégorie sensible » ne sera impliquée dans la nouvelle version. Il s’agit d’une variante bien plus compliquée d’un problème que Google s’efforce déjà de tenter de résoudre, avec de fréquents échecs.

Dans un monde numérique doté de l’AFC, il pourrait être plus difficile de cibler directement les utilisatrices en fonction de leur âge, genre ou revenu. Mais ce ne serait pas impossible. Certains pisteurs qui ont accès à des informations secondaires sur les utilisateurs seront capables de déduire ce que signifient les groupes AFC, c’est-à-dire quelles catégories de personnes appartiennent à une cohorte, à force d’observations et d’expérimentations. Ceux qui seront déterminés à le faire auront la possibilité de la discrimination. Pire, les plateformes auront encore plus de mal qu’aujourd’hui à contrôler ces pratiques. Les publicitaires animés de mauvaises intentions pourront être dans un déni crédible puisque, après tout, ils ne cibleront pas directement des catégories protégées, ils viseront seulement les individus en fonction de leur comportement. Et l’ensemble du système sera encore plus opaque pour les utilisatrices et les régulateurs.

deux guitaristes : l'un acoustoique à gauche chante : cookies c'est fini, dire que c'était la source de mes premiers revenus… (sur l'air de Capri c'est fini). L'autre à droite, guitare électrique dit : "et maintenant un peu de Floc and roll".
Avec Google les instruments changent, mais c’est toujours la même musique…

Google, ne faites pas ça, s’il vous plaît

Nous nous sommes déjà prononcés sur l’AFC et son lot de propositions initiales lorsque tout cela a été présenté pour la première fois, en décrivant l’AFC comme une technologie « contraire à la vie privée ». Nous avons espéré que les processus de vérification des standards mettraient l’accent sur les défauts de base de l’AFC et inciteraient Google à renoncer à son projet. Bien entendu, plusieurs problèmes soulevés sur leur GitHub officiel exposaient exactement les mêmes préoccupations que les nôtres. Et pourtant, Google a poursuivi le développement de son système, sans pratiquement rien changer de fondamental. Ils ont commencé à déployer leur discours sur l’AFC auprès des publicitaires, en vantant le remplacement du ciblage basé sur les cookies par l’AFC « avec une efficacité de 95 % ». Et à partir de la version 89 de Chrome, depuis le 2 mars, la technologie est déployée pour un galop d’essai. Une petite fraction d’utilisateurs de Chrome – ce qui fait tout de même plusieurs millions – a été assignée aux tests de cette nouvelle technologie.

Ne vous y trompez pas, si Google poursuit encore son projet d’implémenter l’AFC dans Chrome, il donnera probablement à chacun les « options » nécessaires. Le système laissera probablement le choix par défaut aux publicitaires qui en tireront bénéfice, mais sera imposé par défaut aux utilisateurs qui en seront affectés. Google se glorifiera certainement de ce pas en avant vers « la transparence et le contrôle par l’utilisateur », en sachant pertinemment que l’énorme majorité de ceux-ci ne comprendront pas comment fonctionne l’AFC et que très peu d’entre eux choisiront de désactiver cette fonctionnalité. L’entreprise se félicitera elle-même d’avoir initié une nouvelle ère de confidentialité sur le Web, débarrassée des vilains cookies tiers, cette même technologie que Google a contribué à développer bien au-delà de sa date limite, engrangeant des milliards de dollars au passage.

Ce n’est pas une fatalité. Les parties les plus importantes du bac-à-sable de la confidentialité comme l’abandon des identificateurs tiers ou la lutte contre le pistage des empreintes numériques vont réellement améliorer le Web. Google peut choisir de démanteler le vieil échafaudage de surveillance sans le remplacer par une nouveauté nuisible.

Nous rejetons vigoureusement le devenir de l’AFC. Ce n’est pas le monde que nous voulons, ni celui que méritent les utilisatrices. Google a besoin de tirer des leçons pertinentes de l’époque du pistage par des tiers et doit concevoir son navigateur pour l’activité de ses utilisateurs et utilisatrices, pas pour les publicitaires.

Remarque : nous avons contacté Google pour vérifier certains éléments exposés dans ce billet ainsi que pour demander davantage d’informations sur le test initial en cours. Nous n’avons reçu aucune réponse à ce jour.




Publicité segmentée : la méthode Cacarico

Aujourd’hui, c’est une interview de Franck Riester sur France Inter (et particulièrement ce passage sur la publicité segmentée) qui a fait réagir notre grisebouilleur Gee…

Sources :

Crédit : Gee (Creative Commons By-Sa)




Résistons à la pub sur Internet #bloquelapubnet

Aujourd’hui Framasoft (parmi d’autres) montre son soutien à l’association RAP (Résistance à l’Agression Publicitaire) ainsi qu’à la Quadrature du Net qui lancent une campagne de sensibilisation et d’action pour lutter contre les nuisances publicitaires non-consenties sur Internet.

#BloquelapubNet : un site pour expliquer comment se protéger

Les lectrices et lecteurs de ce blog sont probablement déjà équipé⋅e⋅s de bloqueurs de pub et autres dispositifs de filtrage. Il faut dire que le tracking publicitaire est un des outils essentiels aux  géants du web, à tel point qu’ils nous créent une dystopie histoire que des gens cliquent sur des pubs, et ce malgré des initiatives se voulant respectueuses comme celle de NextINpact ou trollesques comme notre Framadsense.

Cliquez sur l’image pour aller directement sur bloquelapub.net

Si vous, vous savez comment vous prémunir de cette pollution informationnelle… avez-vous déjà songé à aider vos proches, collègues et connaissances ? C’est compliqué de tout bien expliquer avec des mots simples, hein ? C’est justement à ça que sert le site bloquelapub.net  : un tutoriel à suivre qui permet, en quelques clics, d’apprendre quelques gestes essentiels pour notre hygiène numérique. Voilà un site utile, à partager et communiquer autour de soi avec enthousiasme, sans modération et accompagné du mot clé #bloquelapubnet !

Pourquoi bloquer ? – Le communiqué

Nous reproduisons ci dessous le communiqué de presse des associations Résistance à l’Agression Publicitaire et La Quadrature du Net.

Internet est devenu un espace prioritaire pour les investissements des publicitaires. En France, pour la première fois en 2016, le marché de la publicité numérique devient le « premier média investi sur l’ensemble de l’année », avec une part de marché de 29,6%, devant la télévision. En 2017, c’est aussi le cas au niveau mondial. Ce jeune « marché » est principalement capté par deux géants de la publicité numérique. Google et Facebook. Ces deux géants concentrent à eux seuls autour de 50% du marché et bénéficient de la quasi-totalité des nouveaux investissements sur ce marché. « Pêché originel d’Internet », où, pour de nombreuses personnes et sociétés, il demeure difficile d’obtenir un paiement monétaire direct pour des contenus et services commerciaux et la publicité continue de s’imposer comme un paiement indirect.

Les services vivant de la publicité exploitent le « temps de cerveau disponible » des internautes qui les visitent, et qui n’en sont donc pas les clients, mais bien les produits. Cette influence est achetée par les annonceurs qui font payer le cout publicitaire dans les produits finalement achetés.

La publicité en ligne a plusieurs conséquences : en termes de dépendance vis-à-vis des annonceurs et des revenus publicitaires, et donc des limites sur la production de contenus et d’information, en termes de liberté de réception et de possibilité de limiter les manipulations publicitaires, sur la santé, l’écologie…

En ligne, ces problématiques qui concernent toutes les publicités ont de plus été complétées par un autre enjeu fondamental. Comme l’exprime parfaitement Zeynep Tufekci, une chercheuse turque, « on a créé une infrastructure de surveillance dystopique juste pour que des gens cliquent sur la pub ». De grandes entreprises telles que Google, Facebook et d’autres « courtiers en données » comme Criteo ont développés des outils visant à toujours mieux nous « traquer » dans nos navigations en ligne pour nous profiler publicitairement. Ces pratiques sont extrêmement intrusives et dangereuses pour les libertés fondamentales.

L’Europe dispose pourtant désormais d’un règlement qui devrait mettre majoritairement fin à cette exploitation de nos données personnelles. En vertu du règlement général pour la protection des données RGPD, la plupart de ces pratiques de collecte de données personnelles en ligne devraient reposer sur un consentement libre et éclairé. Sinon, ces pratiques sont illégales. C’est sur ce fondement que La Quadrature du Net a porté plainte collectivement contre les 5 géants du numérique. Si le RGPD est rentré en application récemment et que ces plaintes collectives prennent du temps, la CNIL française a déjà agi sur des questionnements similaires, et a même, lundi 22 janvier 2019, commencé à sanctionner Google à une amende de 50 millions d’euros s’agissant de ces pratiques relatives à Android.

Il est plus temps que cette législation soit totalement respectée et que les publicitaires cessent de nous espionner en permanence en ligne.

 

Un sondage BVA-La Dépêche de 2018, révélait que 77% des Français·es se disent inquiet·es de l’utilisation que pouvaient faire des grandes entreprises commerciales de leurs données numériques personnelles. 83% des Français·es sont irrité·es par la publicité en ligne selon un sondage de l’institut CSA en mars 2016 et « seulement » 24% des personnes interrogées avaient alors installé un bloqueur de publicité.

 

Le blocage de la publicité en ligne apparait comme un bon outil de résistance pour se prémunir de la surveillance publicitaire sur Internet. Pour l’aider à se développer, nos associations lancent le site Internet :

http://bloquelapub.net

Plusieurs opérations collectives ou individuelles de sensibilisation et blocages de la publicité auront lieu sur plusieurs villes du territoire français et sur Internet peu de temps avant et le jour du 28 janvier 2019, journée européenne de la « protection des données personnelles ». Le jour rêvé pour s’opposer à la publicité en ligne qui exploite ces données !

 

RAP et La Quadrature du Net demandent :

  • Le respect de la liberté de réception dans l’espace public et ailleurs, le droit et la possibilité de refuser d’être influencé par la publicité,
  • Le strict respect du règlement général pour la protection des données et l’interdiction de la collecte de données personnelles à des fins publicitaires sans le recueil d’un consentement libre (non-conditionnant pour l’accès au service), explicite et éclairé où les paramètres les plus protecteurs sont configurés par défaut. Les sites Internet et services en ligne ne doivent par défaut collecter aucune information à des fins publicitaires sans que l’internaute ne les y ait expressément autorisés.

 

Rendez-vous sur bloquelapub.net et sur Internet toute la journée du 28 janvier 2019

 

Les associations soutiens de cette mobilisation : Framasoft, Le CECIL, Globenet, Le Creis-Terminal




Les données que récolte Google – Ch.5

Voici déjà la traduction du cinquième chapitre de Google Data Collection, l’étude élaborée par l’équipe du professeur Douglas C. Schmidt, spécialiste des systèmes logiciels, chercheur et enseignant à l’Université Vanderbilt. Si vous les avez manqués, retrouvez les chapitres précédents déjà publiés.
Il s’agit cette fois d’explorer la quantité de données que Google collecte lorsque l’on a désactivé tout ce qui pouvait l’être…

Traduction Framalang : Khrys, Mika, Piup, David_m, Côme, Serici, Fabrice, Bullcheat, Goofy

V. Quantité de données collectées lors d’une utilisation minimale des produits Google

58. Cette section montre les détails de la collecte de données par Google à travers ses services de publication et d’annonces. Afin de comprendre une telle collecte de données, une expérience est réalisée impliquant un utilisateur qui se sert de son téléphone dans sa vie de tous les jours mais qui évite délibérément d’utiliser les produits Google (Search, Gmail, YouTube, Maps, etc.), exception faite du navigateur Chrome.

59. Pour que l’expérience soit aussi réaliste que possible, plusieurs études sur les usages de consommateurs12 ont été utilisées pour créer le profil d’usage journalier d’un utilisateur lambda. Ensuite, toutes les interactions directes avec les services Google ont été retirées du profil. La section IX.F dans les annexes liste les sites internet et applications utilisés pendant l’expérience.

60. L’expérience a été reproduite sur des appareils Android et iOS et les données HTTPS envoyées aux serveurs Google et Apple ont été tracées et analysées en utilisant une méthode similaire à celle expliquée dans la section précédente. Les résultats sont résumés dans la figure 12. Pendant la période de 24 h (qui inclut la période de repos nocturne), la majorité des appels depuis le téléphone Android ont été effectués vers les services Google de localisation et de publication de publicités (DoubleClick, Analytics). Google a enregistré la géolocalisation de l’utilisateur environ 450 fois, ce qui représente 1,4 fois le volume de l’expérience décrite dans la section III.C, qui se basait sur un téléphone immobile.

comparaison des requêtes Google entre iOS et Android avec téléphone en mouvement

Figure 12 : Requêtes du téléphone portable durant une journée typique d’utilisation

61. Les serveurs de Google communiquent significativement moins souvent avec un appareil iPhone qu’avec Android (45 % moins). En revanche, le nombre d’appels aux régies publicitaires de Google reste les mêmes pour les deux appareils — un résultat prévisible puisque l’utilisation de pages web et d’applications tierces était la même sur chacun des périphériques. À noter, une différence importante est que l’envoi de données de géolocalisation à Google depuis un appareil iOS est pratiquement inexistant. En absence des plateformes Android et Chrome — ou de l’usage d’un des autres produits de Google — Google perd significativement sa capacité à pister la position des utilisateurs.

62. Le nombre total d’appels aux serveurs Apple depuis un appareil iOS était bien moindre, seulement 19 % des appels aux serveurs de Google depuis l’appareil Android. De plus, il n’y a pas d’appels aux serveurs d’Apple liés à la publicité, ce qui pourrait provenir du fait que le modèle économique d’Apple ne dépend pas autant de la publicité que celui de Google. Même si Apple obtient bien certaines données de localisation des utilisateurs d’appareil iOS, le volume de données collectées est bien moindre (16 fois moins) que celui collecté par Google depuis Android.

63. Au total, les téléphones Android ont communiqué 11.6 Mo de données par jour (environ 350 Mo par mois) avec les serveurs de Google. En comparaison, l’iPhone n’a envoyé que la moitié de ce volume. La quantité de données spécifiques aux régies publicitaires de Google est restée pratiquement identique sur les deux appareils.

64. L’appareil iPhone a communiqué bien moins de données aux serveurs Apple que l’appareil Android n’a échangé avec les serveurs Google.

65. De manière générale, même en l’absence d’interaction utilisateur avec les applications Google les plus populaires, un utilisateur de téléphone Android muni du navigateur Chrome a tout de même tendance à envoyer une quantité non négligeable de données à Google, dont la majorité est liée à la localisation et aux appels aux serveurs de publicité. Bien que, dans le cadre limité de cette expérience, un utilisateur d’iPhone soit protégé de la collecte des données de localisation par Google, Google recueille tout de même une quantité comparable de données liées à la publicité.

66. La section suivante décrit les données collectées par les applications les plus populaires de Google, telles que Gmail, Youtube, Maps et la recherche.




Les données que récolte Google – Ch.3

Voici déjà la traduction du troisième chapitre de Google Data Collection, l’étude élaborée par l’équipe du professeur Douglas C. Schmidt, spécialiste des systèmes logiciels, chercheur et enseignant à l’Université Vanderbilt. Si vous les avez manqués, retrouvez les chapitres précédents déjà publiés.

Il s’agit aujourd’hui de mesurer ce que les plateformes les plus populaires recueillent de nos smartphones

Traduction Framalang : Côme, goofy, Khrys, Mika, Piup. Remerciements particuliers à badumtss qui a contribué à la traduction de l’infographie.

La collecte des données par les plateformes Android et Chrome

11. Android et Chrome sont les plateformes clés de Google qui facilitent la collecte massive de données des utilisateurs en raison de leur grande portée et fréquence d’utilisation. En janvier 2018, Android détenait 53 % du marché américain des systèmes d’exploitation mobiles (iOS d’Apple en détenait 45 %)3 et, en mai 2017, il y avait plus de 2 milliards d’appareils Android actifs par mois dans le monde.4

12. Le navigateur Chrome de Google représentait plus de 60 % de l’utilisation mondiale de navigateurs Internet avec plus d’un milliard d’utilisateurs actifs par mois, comme l’indiquait le rapport Q4 10K de 20175. Les deux plateformes facilitent l’usage de contenus de Google et de tiers (p.ex. applications et sites tiers) et fournissent donc à Google un accès à un large éventail d’informations personnelles, d’activité web, et de localisation.

A. Collecte d’informations personnelles et de données d’activité

13. Pour télécharger et utiliser des applications depuis le Google Play Store sur un appareil Android, un utilisateur doit posséder (ou créer) un compte Google, qui devient une passerelle clé par laquelle Google collecte ses informations personnelles, ce qui comporte son nom d’utilisateur, son adresse de messagerie et son numéro de téléphone. Si un utilisateur s’inscrit à des services comme Google Pay6, Android collecte également les données de la carte bancaire, le code postal et la date de naissance de l’utilisateur. Toutes ces données font alors partie des informations personnelles de l’utilisateur associées à son compte Google.

14. Alors que Chrome n’oblige pas le partage d’informations personnelles supplémentaires recueillies auprès des utilisateurs, il a la possibilité de récupérer de telles informations. Par exemple, Chrome collecte toute une gamme d’informations personnelles avec la fonctionnalité de remplissage automatique des formulaires, qui incluent typiquement le nom d’utilisateur, l’adresse, le numéro de téléphone, l’identifiant de connexion et les mots de passe.7 Chrome stocke les informations saisies dans les formulaires sur le disque dur de l’utilisateur. Cependant, si l’utilisateur se connecte à Chrome avec un compte Google et active la fonctionnalité de synchronisation, ces informations sont envoyées et stockées sur les serveurs de Google. Chrome pourrait également apprendre la ou les langues que parle la personne avec sa fonctionnalité de traduction, activée par défaut.8

15. En plus des données personnelles, Chrome et Android envoient tous deux à Google des informations concernant les activités de navigation et l’emploi d’applications mobiles, respectivement. Chaque visite de page internet est automatiquement traquée et collectée par Google si l’utilisateur a un compte Chrome. Chrome collecte également son historique de navigation, ses mots de passe, les permissions particulières selon les sites web, les cookies, l’historique de téléchargement et les données relatives aux extensions.9

16. Android envoie des mises à jour régulières aux serveurs de Google, ce qui comprend le type d’appareil, le nom de l’opérateur, les rapports de bug et des informations sur les applications installées10. Il avertit également Google chaque fois qu’une application est ouverte sur le téléphone (ex. Google sait quand un utilisateur d’Android ouvre son application Uber).

B. Collecte des données de localisation de l’utilisateur

17. Android et Chrome collectent méticuleusement la localisation et les mouvements de l’utilisateur en utilisant une variété de sources, représentées sur la figure 3. Par exemple, un accès à la « localisation approximative » peut être réalisé en utilisant les coordonnées GPS sur un téléphone Android ou avec l’adresse IP sur un ordinateur. La précision de la localisation peut être améliorée (« localisation précise ») avec l’usage des identifiants des antennes cellulaires environnantes ou en scannant les BSSID (’’Basic Service Set IDentifiers’’), identifiants assignés de manière unique aux puces radio des points d’accès Wi-Fi présents aux alentours11. Les téléphones Android peuvent aussi utiliser les informations des balises Bluetooth enregistrées dans l’API Proximity Beacon de Google12. Ces balises non seulement fournissent les coordonnées de géolocalisation de l’utilisateur, mais pourraient aussi indiquer à quel étage exact il se trouve dans un immeuble.13

schéma représentatt les différents moyens (wifi, bluetooth) de localiser les données d’un utilisateur de smartphone
Figure 3 : Android et Chrome utilisent diverses manières de localiser l’utilisateur d’un téléphone.

 

18. Il est difficile pour un utilisateur de téléphone Android de refuser le traçage de sa localisation. Par exemple, sur un appareil Android, même si un utilisateur désactive le Wi-Fi, la localisation est toujours suivie par son signal Wi-Fi. Pour éviter un tel traçage, le scan Wi-Fi doit être explicitement désactivé par une autre action de l’utilisateur, comme montré sur la figure 4.

2 copies d’écran de paramètres d’android pour montrer que le wifi est toujours sacnné même s’il est désactivé
Figure 4 : Android collecte des données même si le Wi-Fi est éteint par l’utilisateur

 

19. L’omniprésence de points d’accès Wi-Fi a rendu le traçage de localisation assez fréquent. Par exemple, durant une courte promenade de 15 minutes autour d’une résidence, un appareil Android a envoyé neuf requêtes de localisation à Google. Les requêtes contenaient au total environ 100 BSSID de points d’accès Wi-Fi publics et privés.

20. Google peut vérifier avec un haut degré de confiance si un utilisateur est immobile, s’il marche, court, fait du vélo, ou voyage en train ou en car. Il y parvient grâce au traçage à intervalles de temps réguliers de la localisation d’un utilisateur Android, combiné avec les données des capteurs embarqués (comme l’accéléromètre) sur les téléphones mobiles. La figure 5 montre un exemple de telles données communiquées aux serveurs de Google pendant que l’utilisateur marchait.

code renvoyé aux serveurs : la localisation d’un utilisateur
Figure 5 : capture d’écran d’un envoi de localisation d’utilisateur à Google.

 

C. Une évaluation de la collecte passive de données par Google via Android et Chrome

21. Les données actives que les plateformes Android ou Chrome collectent et envoient à Google à la suite des activités des utilisateurs sur ces plateformes peuvent être évaluées à l’aide des outils MyActivity et Takeout. Les données passives recueillies par ces plateformes, qui vont au-delà des données de localisation et qui restent relativement méconnues des utilisateurs, présentent cependant un intérêt potentiellement plus grand. Afin d’évaluer plus en détail le type et la fréquence de cette collecte, une expérience a été menée pour surveiller les données relatives au trafic envoyées à Google par les téléphones mobiles (Android et iPhone) en utilisant la méthode décrite dans la section IX.D de l’annexe. À titre de comparaison, cette expérience comprenait également l’analyse des données envoyées à Apple via un appareil iPhone.

22. Pour des raisons de simplicité, les téléphones sont restés stationnaires, sans aucune interaction avec l’utilisateur. Sur le téléphone Android, une seule session de navigateur Chrome restait active en arrière-plan, tandis que sur l’iPhone, le navigateur Safari était utilisé. Cette configuration a permis une analyse systématique de la collecte de fond que Google effectue uniquement via Android et Chrome, ainsi que de la collecte qui se produit en l’absence de ceux-ci (c’est-à-dire à partir d’un appareil iPhone), sans aucune demande de collecte supplémentaire générée par d’autres produits et applications (par exemple YouTube, Gmail ou utilisation d’applications).

23. La figure 6 présente un résumé des résultats obtenus dans le cadre de cette expérience. L’axe des abscisses indique le nombre de fois où les téléphones ont communiqué avec les serveurs Google (ou Apple), tandis que l’axe des ordonnées indique le type de téléphone (Android ou iPhone) et le type de domaine de serveur (Google ou Apple) avec lequel les paquets de données ont été échangés par les téléphones. La légende en couleur décrit la catégorisation générale du type de demandes de données identifiées par l’adresse de domaine du serveur. Une liste complète des adresses de domaine appartenant à chaque catégorie figure dans le tableau 5 de la section IX.D de l’annexe.

24. Au cours d’une période de 24 heures, l’appareil Android a communiqué environ 900 échantillons de données à une série de terminaux de serveur Google. Parmi ceux-ci, environ 35 % (soit environ 14 par heure) étaient liés à la localisation. Les domaines publicitaires de Google n’ont reçu que 3 % du trafic, ce qui est principalement dû au fait que le navigateur mobile n’a pas été utilisé activement pendant la période de collecte. Le reste (62 %) des communications avec les domaines de serveurs Google se répartissaient grosso modo entre les demandes adressées au magasin d’applications Google Play, les téléchargements par Android de données relatives aux périphériques (tels que les rapports de crash et les autorisations de périphériques), et d’autres données — principalement de la catégorie des appels et actualisations de fond des services Google.

infographie exposant les proportions de trafic envoyé par les appareils divers vers les serveurs de Google
Figure 6 : Données sur le trafic envoyées par les appareils Andoid et les iPhones en veille.

 

25. La figure 6 montre que l’appareil iPhone communiquait avec les domaines Google à une fréquence inférieure de plus d’un ordre de grandeur (50 fois) à celle de l’appareil Android, et que Google n’a recueilli aucun donnée de localisation utilisateur pendant la période d’expérience de 24 heures via iPhone. Ce résultat souligne le fait que les plateformes Android et Chrome jouent un rôle important dans la collecte de données de Google.

26. De plus, les communications de l’appareil iPhone avec les serveurs d’Apple étaient 10 fois moins fréquentes que les communications de l’appareil Android avec Google. Les données de localisation ne représentaient qu’une très faible fraction (1 %) des données nettes envoyées aux serveurs Apple à partir de l’iPhone, Apple recevant en moyenne une fois par jour des communications liées à la localisation.

27. En termes d’amplitude, les téléphones Android communiquaient 4,4 Mo de données par jour (130 Mo par mois) avec les serveurs Google, soit 6 fois plus que ce que les serveurs Google communiquaient à travers l’appareil iPhone.

28. Pour rappel, cette expérience a été réalisée à l’aide d’un téléphone stationnaire, sans interaction avec l’utilisateur. Lorsqu’un utilisateur commence à bouger et à interagir avec son téléphone, la fréquence des communications avec les serveurs de Google augmente considérablement. La section V du présent rapport résume les résultats d’une telle expérience.

 




Ce que récolte Google : revue de détail

Le temps n’est plus où il était nécessaire d’alerter sur la prédation opérée par Google et ses nombreux services sur nos données personnelles. Il est fréquent aujourd’hui d’entendre dire sur un ton fataliste : « de toute façon, ils espionnent tout »

Si beaucoup encore proclament à l’occasion « je n’ai rien à cacher » c’est moins par conviction réelle que parce que chacun en a fait l’expérience : « on ne peut rien cacher » dans le monde numérique. Depuis quelques années, les mises en garde, listes de précautions à prendre et solutions alternatives ont été largement exposées, et Framasoft parmi d’autres y a contribué.

Il manquait toutefois un travail de fond pour explorer et comprendre, une véritable étude menée suivant la démarche universitaire et qui, au-delà du jugement global approximatif, établisse les faits avec précision.

C’est à quoi s’est attelée l’équipe du professeur Douglas C. Schmidt, spécialiste depuis longtemps des systèmes logiciels, chercheur et enseignant à l’Université Vanderbilt, qui livre au public une étude d’une cinquantaine de pages intitulée Google Data Collection. Cette étude, qui nous semble pouvoir servir de référence, a retenu l’attention du groupe Framalang qui vous en livre ci-dessous l’executive summary, c’est-à-dire une sorte de résumé initial, qui en donne un aperçu programmatique.

Si vous trouvez un intérêt à cette traduction et souhaitez que Framalang vous propose la suite nous ferons de notre mieux…

Traduction Framalang : Alain, fab, FranBAG, Goofy, jums, Khrys, Mika, Piup, serici

La collecte de données de Google

Un premier aperçu

1.
Google est la plus grosse agence de publicité numérique du monde 14. Elle fournit aussi le leader des navigateurs web 15, la première plateforme mobile 16 ainsi que le moteur de recherche le plus utilisé au monde 17. La plateforme vidéo de Google, ses services de mail et de cartographie comptent 1 milliard d’utilisateurs mensuels actifs chacun 18. Google utilise l’immense popularité de ses produits pour collecter des données détaillées sur le comportement des utilisateurs en ligne comme dans la vie réelle, données qu’il utilisera ensuite pour cibler ses utilisateurs avec de la publicité payante. Les revenus de Google augmentent significativement en fonction de la finesse des technologies de ciblage des données.

2.
Google collecte les données utilisateurs de diverses manières. Les plus évidentes sont « actives », celles dans lesquelles l’utilisateur donne
directement et consciemment des informations à Google, par exemple en s’inscrivant à des applications très populaires telles que YouTube, Gmail, ou le moteur de recherche. Les voies dites « passives » utilisées par Google pour collecter des données sont plus discrètes, quand une application devient pendant son utilisation l’instrument de la collecte des données, sans que l’utilisateur en soit conscient. On trouve ces méthodes de collecte dans les plateformes (Android, Chrome), les applications (le moteur de recherche, YouTube, Maps), des outils de publication (Google Analytics, AdSense) et de publicité (AdMob, AdWords). L’étendue et l’ampleur de la collecte passive de données de Google ont été en grande partie négligées par les études antérieures sur le sujet 19.

3.
Pour comprendre les données que Google collecte, cette étude s’appuie sur quatre sources clefs :
a. Les outils Google « Mon activité » (My Activity) 20 et « Téléchargez vos données » (Takeout) 21, qui décrivent aux utilisateurs l’information collectée lors de l’usage des outils Google.
b. Les données interceptées lors de l’envoi aux serveurs de Google pendant l’utilisation des produits Google ou d’autres sociétés associées.
c. Les règles concernant la vie privée (des produits Google spécifiquement ou en général).
d. Des recherches tierces qui ont analysé les collectes de données opérées par Google.

Histoire naturelle, générale et particulière, des mollusques, animaux sans vertèbres et à sang blanc. T.2. Paris,L’Imprimerie de F. Dufart,An X-XIII [1802-1805]. biodiversitylibrary.org/page/35755415

4.
Au travers de la combinaison des sources ci-dessus, cette étude montre une vue globale et exhaustive de l’approche de Google concernant la collecte des données et aborde en profondeur certains types d’informations collectées auprès des utilisateurs et utilisatrices.
Cette étude met en avant les éléments clés suivants :

a. Dans une journée d’utilisation typique, Google en apprend énormément sur les intérêts personnels de ses utilisateurs. Dans ce scénario d’une journée « classique », où un utilisateur réel avec un compte Google et un téléphone Android (avec une nouvelle carte SIM) suit sa routine quotidienne, Google collecte des données tout au long des différentes activités, comme la localisation, les trajets empruntés, les articles achetés et la musique écoutée. De manière assez surprenante, Google collecte ou infère plus de deux tiers des informations via des techniques passives. Au bout du compte, Google a identifié les intérêts des utilisateurs avec une précision remarquable.

b. Android joue un rôle majeur dans la collecte des données pour Google, avec plus de 2 milliards d’utilisateurs actifs mensuels dans le monde 22. Alors que le système d’exploitation Android est utilisé par des fabricants d’équipement d’origine (FEO) partout dans le monde, il est étroitement connecté à l’écosystème Google via le service Google Play. Android aide Google à récolter des informations personnelles sur les utilisateurs (nom, numéro de téléphone, date de naissance, code postal et dans beaucoup de cas le numéro de carte bancaire), les activités réalisées sur le téléphone (applications utilisées, sites web consultés) et les coordonnées de géolocalisation. En coulisses, Android envoie fréquemment la localisation de l’utilisateur ainsi que des informations sur l’appareil lui-même, comme sur l’utilisation des applications, les rapports de bugs, la configuration de l’appareil, les sauvegardes et différents identifiants relatifs à l’appareil.

c. Le navigateur Chrome aide Google à collecter des données utilisateurs depuis à la fois le téléphone et l’ordinateur de bureau, grâce à quelque 2 milliards d’installations dans le monde 23. Le navigateur Chrome collecte des informations personnelles (comme lorsqu’un utilisateur remplit un formulaire en ligne) et les envoie à Google via le processus de synchronisation. Il liste aussi les pages visitées et envoie les données de géolocalisation à Google.

d. Android comme Chrome envoient des données à Google même en l’absence de toute interaction de l’utilisateur. Nos expériences montrent qu’un téléphone Android dormant et stationnaire (avec Chrome actif en arrière-plan) a communiqué des informations de localisation à Google 340 fois pendant une période de 24 heures, soit en moyenne 14 communications de données par heure. En fait, les informations de localisation représentent 35 % de l’échantillon complet de données envoyés à Google. À l’opposé, une expérience similaire a montré que sur un appareil iOS d’Apple avec Safari (où ni Android ni Chrome n’étaient utilisés), Google ne pouvait pas collecter de données notables (localisation ou autres) en absence d’interaction de l’utilisateur avec l’appareil.

e. Une fois qu’un utilisateur ou une utilisatrice commence à interagir avec un téléphone Android (par exemple, se déplace, visite des pages web, utilise des applications), les communications passives vers les domaines de serveurs Google augmentent considérablement, même dans les cas où l’on n’a pas utilisé d’applications Google majeures (c.-à-d. ni recherche Google, ni YouTube, pas de Gmail ni Google Maps). Cette augmentation s’explique en grande partie par l’activité sur les données de l’éditeur et de l’annonceur de Google (Google Analytics, DoubleClick, AdWords) 24. Ces données représentaient 46 % de l’ensemble des requêtes aux serveurs Google depuis le téléphone Android. Google a collecté la localisation à un taux 1,4 fois supérieur par rapport à l’expérience du téléphone fixe sans interaction avec l’utilisateur. En termes d’amplitude, les serveurs de Google ont communiqué 11,6 Mo de données par jour (ou 0,35 Go / mois) avec l’appareil Android. Cette expérience suggère que même si un utilisateur n’interagit avec aucune application phare de Google, Google est toujours en mesure de recueillir beaucoup d’informations par l’entremise de ses produits d’annonce et d’éditeur.

f. Si un utilisateur d’appareil sous iOS décide de renoncer à l’usage de tout produit Google (c’est-à-dire sans Android, ni Chrome, ni applications Google) et visite exclusivement des pages web non-Google, le nombre de fois où les données sont communiquées aux serveurs de Google demeure encore étonnamment élevé. Cette communication est menée exclusivement par des services de l’annonceur/éditeur. Le nombre d’appels de ces services Google à partir d’un appareil iOS est similaire à ceux passés par un appareil Android. Dans notre expérience, la quantité totale de données communiquées aux serveurs Google à partir d’un appareil iOS est environ la moitié de ce qui est envoyé à partir d’un appareil Android.

g. Les identificateurs publicitaires (qui sont censés être « anonymisés » et collectent des données sur l’activité des applications et les visites des pages web tierces) peuvent être associés à l’identité d’un utilisateur ou utilisatrice de Google. Cela se produit par le transfert des informations d’identification depuis l’appareil Android vers les serveurs de Google. De même, le cookie ID DoubleClick (qui piste les activités des utilisateurs et utilisatrices sur les pages web d’un tiers) constitue un autre identificateur censé être anonymisé que Google peut associer à celui d’un compte personnel Google, si l’utilisateur accède à une application Google avec le navigateur déjà utilisé pour aller sur la page web externe. En définitive, nos conclusions sont que Google a la possibilité de connecter les données anonymes collectées par des moyens passifs avec les données personnelles de l’utilisateur.




Framadsense, la publicité qui a du sens

C’est avec le plus grand sérieux que nous lançons aujourd’hui notre alternative à la régie publicitaire Google AdSense : Framadsense !

Aujourd’hui on trolle la pub !

On ne va pas noyer le poisson : aujourd’hui est le jour rêvé pour lancer notre outil de bannières publicitaires. C’est dimanche, nos salarié·e·s se reposent, nos bénévoles ont une vie personnelle, vous allez donc pouvoir enflammer les z’internets en toute autonomie.

Vous croyez que c’est une blague…? Vous ne vous doutez pas à quel point nous sommes sérieuxses, dès qu’il s’agit de déconner.

Nous avons déjà parlé ici du fléau qu’est la publicité « digitale » (comme disent les « dir’comm' » et les « dir’mark' »). C’est le profilage publicitaire qui est aux origines des Léviathans qui centralisent le web. Il suffit de voir le talk « Nous créons une dystopie simplement pour obliger les gens à cliquer sur des publicités » pour comprendre combien c’est grave, et combien il faut Dégoogliser Internet. Nous relayons aussi des alternatives plus vertueuses, comme celle de la rédaction de NexINpact.

La pub en ligne est partout, c’est une catastrophe numérique et écologique… On comprend pourquoi certaines personnes s’échangent de formidables astuces pour résister à l’agression publicitaire. L’ironie, c’est que la plupart des alternatives et connaissances qui nous permettent de faire respecter nos intimités numériques sont peu connues… et qu’elles manquent de pub !

Notre sérieux va vous surprendre

C’est parti d’une idée de JosephK. Oui, JosephK, un salarié de Framasoft qui déjà, pour la blague, avait codé le Bingo du Troll (à utiliser sans modération dès qu’un troll vous emmouscaille). Celui qui, récemment, a bidouillé un joli lifting pour le Framablog (vous avez remarqué comme il est plus aéré, plus lisible ?). JosephK, un des plus farouches opposants à la pub parmi nous, qui vient nous proposer :

Et si on montrait les mécanismes de la pub en ligne tout en faisant de la réclame pour les alternatives éthiques ?

Il y a des informations que nos navigateurs web diffusent en permanence : de quel site on vient (c’est le rôle du « référent »), ainsi que les versions de notre système d’exploitation et notre navigateur web (ce que transmet le « user agent »). Rien qu’avec ces infos-là, donc sans pister quiconque, on peut générer des bannières qui expliquent aux personnes utilisant des outils fermés comment mieux se libérer… « Tu viens de Facebook ? Essaie Framasphère ! » ou « Tu utilises Chrome ? Firefox est plus rapide et plus éthique ! »

Framadsense, parce que ça nous fait rire

Si on crée ce micro-outil pour nous, autant le mettre à disposition de tou·te·s, non ? Ainsi est né Framadsense, disponible à l’adresse https://sense.framasoft.org. Si vous voulez l’utiliser pour votre site web, il vous suffit :

  • D’aller sur Framadsense
  • De paramétrer le type de bannière que vous voulez (cocher des cases, quoi !)
  • De copier/coller le code généré à l’endroit de votre site où vous voulez insérer de la (fausse-)pub !

Sense3, le logiciel développé par JosephK, est un logiciel libre (forcément !) qui respecte notre vie privée, et dont les bannières affichent uniquement des projets libres et non lucratifs… voire des œuvres d’art, juste pour le plaisir de remplacer la pollution visuelle par de la culture ! Vous pouvez d’ailleurs proposer de nouvelles bannières en collaborant au code sur son dépôt (nous, on a juste fait les exemples les plus courants… venez pas nous gronder si votre projet libre favori n’y est pas encore !).

Voilà : même quand il s’agit de déconner, on en profite pour hacker les codes de la pub. Plus qu’un poisson, Framadsense est un vrai logiciel qui permet au moins qu’on se pose la question :

comment attirer l’attention de nos proches sur le fait que nos attentions sont sur-sollicitées ?

Vous avez le reste du (long) week-end pour y répondre (ou pour manger du chocolat).

 

L’équipe de Framasoft.




La nouvelle dystopie, c’est maintenant

L’article qui suit n’est pas une traduction intégrale mais un survol aussi fidèle que possible de la conférence TED effectuée par la sociologue des technologies Zeynep Tufecki. Cette conférence intitulée : « Nous créons une dystopie simplement pour obliger les gens à cliquer sur des publicités »
(We’re building a dystopia just to make people click on ads) est en cours de traduction sur la plateforme Amara préconisée par TED, mais la révision n’étant pas effectuée, il faudra patienter pour en découvrir l’intégralité sous-titrée en français. est maintenant traduite en français \o/

En attendant, voici 4 minutes de lecture qui s’achèvent hélas sur des perspectives assez vagues ou plutôt un peu vastes : il faut tout changer. Du côté de Framasoft, nous proposons de commencer par outiller la société de contribution avec la campagne Contributopia… car dégoogliser ne suffira pas !

 

Mettez un peu à jour vos contre-modèles, demande Zeynep : oubliez les références aux menaces de Terminator et du 1984 d’Orwell, ces dystopies ne sont pas adaptées à notre débutant XXIe siècle.

Cliquez sur l'image pour afficher la vidéo sur le site de TED (vous pourrez afficher les sous-titres via un bouton en bas de la vidéo)
Cliquez sur l’image pour afficher la vidéo sur le site de TED (vous pourrez afficher les sous-titres via un bouton en bas de la vidéo)

Ce qui est à craindre aujourd’hui, car c’est déjà là, c’est plutôt comment ceux qui détiennent le pouvoir utilisent et vont utiliser l’intelligence artificielle pour exercer sur nous des formes de contrôle nouvelles et malheureusement peu détectables. Les technologies qui menacent notre liberté et notre jardin secret (celui de notre bulle d’intimité absolue) sont développées par des entreprises-léviathans qui le font d’abord pour vendre nos données et notre attention aux GAFAM (Tristan Nitot, dans sa veille attentive, signale qu’on les appelle les frightful five, les 5 qui font peur, aux États-Unis). Zeynep ajoute d’ailleurs Alibaba et Tencent. D’autres à venir sont sur les rangs, peut-on facilement concevoir.

Ne pas se figurer que c’est seulement l’étape suivante qui prolonge la publicité en ligne, c’est au contraire un véritable saut vers une autre catégorie « un monde différent » à la fois exaltant par son potentiel extraordinaire mais aussi terriblement dangereux.

Voyons un peu la mécanique de la publicité. Dans le monde physique, les friandises à portée des enfants au passage en caisse de supermarché sont un procédé d’incitation efficace, mais dont la portée est limitée. Dans le monde numérique, ce que Zeynep appelle l’architecture de la persuasion est à l’échelle de plusieurs milliards de consommateurs potentiels. Qui plus est, l’intelligence artificielle peut cibler chacun distinctement et envoyer sur l’écran de son smartphone (on devrait dire spyphone, non ?) un message incitatif qui ne sera vu que par chacun et le ciblera selon ses points faibles identifiés par algorithmes.

Prenons un exemple : quand hier l’on voulait vendre des billets d’avion pour Las Vegas, on cherchait la tranche d’âge idéale et la carte de crédit bien garnie. Aujourd’hui, les mégadonnées et l’apprentissage machine (machine learning) s’appuient sur tout ce que Facebook peut avoir collecté sur vous à travers messages, photos, « likes », même sur les textes qu’on a commencés à saisir au clavier et qu’on a ensuite effacés, etc. Tout est analysé en permanence, complété avec ce que fournissent des courtiers en données.

Les algos d’apprentissage, comme leur nom l’indique, apprennent ainsi non seulement votre profil personnel mais également, face à un nouveau compte, à quel type déjà existant on peut le rapprocher. Pour reprendre l’exemple, ils peuvent deviner très vite si telle ou telle personne est susceptible d’acheter un billet pour un séjour à Las Vegas.

Vous pensez que ce n’est pas très grave si on nous propose un billet pour Vegas.

Le problème n’est pas là.
Le problème c’est que les algorithmes complexes à l’œuvre deviennent opaques pour tout le monde, y compris les programmeurs, même s’ils ont accès aux données qui sont généralement propriétaires donc inaccessibles.

« Comme si nous cessions de programmer pour laisser se développer une forme d’intelligence que nous ne comprenons pas véritablement. Et tout cela marche seulement s’il existe une énorme quantité de données, donc ils encouragent une surveillance étendue : pour que les algos de machine learning puissent opérer. Voilà pourquoi Facebook veut absolument collecter le plus de données possible sur vous. Les algos fonctionneront bien mieux »

Que se passerait-il, continue Zeynep avec l’exemple de Las Vegas, si les algos pouvaient repérer les gens bipolaires, soumis à des phases de dépenses compulsives et donc bons clients pour Vegas, capitale du jeu d’argent ? Eh bien un chercheur qui a contacté Zeynep a démontré que les algos pouvaient détecter les profils à risques psychologiques avec les médias sociaux avant que des symptômes cliniques ne se manifestent…
Les outils de détection existent et sont accessibles, les entreprises s’en servent et les développent.

L’exemple de YouTube est également très intéressant : nous savons bien, continue Zeynep, que nous sommes incités par un algo à écouter/regarder d’autres vidéos sur la page où se trouve celle que nous avons choisie.

Eh bien en 2016, témoigne Zeynep, j’ai reçu de suggestions par YouTube : comme j’étudiais la campagne électorale en sociologue, je regardais des vidéos des meetings de Trump et YouTube m’a suggéré des vidéos de suprématistes (extrême-droite fascisante aux USA) !
Ce n’est pas seulement un problème de politique. L’algorithme construit une idée du comportement humain, en supposant que nous allons pousser toujours notre curiosité vers davantage d’extrêmes, de manière à nous faire demeurer plus longtemps sur un site pendant que Google vous sert davantage de publicités.
Pire encore, comme l’ont prouvé des expériences faites par ProPublica et BuzzFeed, que ce soit sur Facebook ou avec Google, avec un investissement minime, on peut présenter des messages et profils violemment antisémites à des personnes qui ne sont pas mais pourraient (toujours suivant les algorithmes) devenir antisémites.

L’année dernière, le responsable médias de l’équipe de Trump a révélé qu’ils avaient utilisé de messages « non-publics » de Facebook pour démobiliser les électeurs, les inciter à ne pas voter, en particulier dans des villes à forte population d’Afro-américains. Qu’y avait-il dans ces messages « non-publics » ? On ne le saura pas, Twitter ne le dira pas.

Les algorithmes peuvent donc aussi influencer le comportement des électeurs.

Facebook a fait une expérience en 2010 qui a été divulguée après coup.
Certains ont vu ce message les incitant à voter. Voici la version basique :

et d’autres ont vu cette version (avec les imagettes des contacts qui ont cliqué sur « j’ai voté »)

Ce message n’a été présenté qu’une fois mais 340 000 électeurs de plus ont voté lors de cette élection, selon cette recherche, confirmée par les listes électorales.
En 2012, même expérience, résultats comparables : 270 000 électeurs de plus.
De quoi laisser songeur quand on se souvient que l’élection présidentielle américaine de 2016 s’est décidée à environ 100 000 voix près…

« Si une plate-forme dotée d’un tel pouvoir décide de faire passer les partisans d’un candidat avant les autres, comment le saurions-nous ? »

Les algorithmes peuvent facilement déduire notre appartenance à une communauté ethnique, nos opinions religieuses et politiques, nos traits de personnalité, l’intelligence, la consommation de substances addictives, la séparation parentale, l’âge et le sexe, en se fondant sur les « j’aime » de Facebook. Ces algorithmes peuvent identifier les manifestants même si leurs visages sont partiellement dissimulés, et même l’orientation sexuelle des gens à partir de leurs photos de leur profil de rencontres.
Faut-il rappeler que la Chine utilise déjà la technologie de détection des visages pour identifier et arrêter les personnes ?

Le pire, souligne Zeynep est que

« Nous construisons cette infrastructure de surveillance autoritaire uniquement pour inciter les gens à cliquer sur les publicités. »

Si nous étions dans l’univers terrifiant de 1984 nous aurions peur mais nous saurions de quoi, nous détesterions et pourrions résister. Mais dans ce nouveau monde, si un état nous observe et nous juge, empêche par anticipation les potentiels fauteurs de trouble de s’opposer, manipule individus et masses avec la même facilité, nous n’en saurons rien ou très peu…

« Les mêmes algorithmes que ceux qui nous ont été lancés pour nous rendre plus flexibles en matière de publicité organisent également nos flux d’informations politiques, personnelles et sociales… »

Les dirigeants de Facebook ou Google multiplient les déclarations bien intentionnées pour nous convaincre qu’ils ne nous veulent aucun mal. Mais le problème c’est le business model qu’ils élaborent. Ils se défendent en prétendant que leur pouvoir d’influence est limité, mais de deux choses l’une : ou bien Facebook est un énorme escroquerie et les publicités ne fonctionnent pas sur leur site (et dans ce cas pourquoi des entreprises paieraient-elles pour leur publicité sur Facebook ?), ou bien leur pouvoir d’influence est terriblement préoccupant. C’est soit l’un, soit l’autre. Même chose pour Google évidemment.

Que faire ?
C’est toute la structure et le fonctionnement de notre technologie numérique qu’il faudrait modifier…

« Nous devons faire face au manque de transparence créé par les algorithmes propriétaires, au défi structurel de l’opacité de l’apprentissage machine, à toutes ces données qui sont recueillies à notre sujet. Nous avons une lourde tâche devant nous. Nous devons mobiliser notre technologie, notre créativité et aussi notre pouvoir politique pour construire une intelligence artificielle qui nous soutienne dans nos objectifs humains, mais qui soit aussi limitée par nos valeurs humaines. »

 

« Nous avons besoin d’une économie numérique où nos données et notre attention ne sont pas destinées à la vente aux plus offrants autoritaires ou démagogues. »