Allergie au Google Home

Alors que se répandent les enceintes connectées (comme le Google Home ou l’Amazon Echo), fleurissent aussi des projets pour les empêcher de vous écouter en permanence (ce qui est nécessaire à leur fonctionnement normal, rappelons-le).

Cela peut faire sourire car le meilleur moyen de ne pas être espionné par ce genre d’objet, c’est encore de s’en passer. La question qui se pose alors, c’est : doit-on accepter d’aller chez des gens qui ont ce genre d’objet chez eux ?

Allergie au Google Home

Se passer des GAFAM est un défi technique (surtout pour les néophytes), même si ça l’est de moins en moins.

Mais c’est souvent aussi un défi social.

On prend toujours les réseaux du genre Facebook comme exemple de site qui n’a aucun intérêt si vous êtes tout seul dessus…

Seulement, même les outils pour lesquels on peut se déGAFAMiser gentiment dans son coin deviennent problématiques si un tiers utilise du GAFAM.

Non contents de permettre la surveillance généralisée de nos vies numériques, les GAFAM se proposent maintenant de surveiller directement nos maisons par le biais d’enceintes connectées (objets qui colleraient des crises de priapisme à tout cadre de la Stasi).

Gee montre 4 images et dit : « Cherchez l'intrus… » Les 4 images sont : « A. Google Home (de Google) ; B. Echo (d'Amazon) ; C. Télécran (de Orwell) ; D. Télécran (de Joustra) » Le smiley, blasé : « Les optimistes diront que c'est celui d'Orwell car tous les autres sont des jouets… J'ai jamais été très optimiste… »

Pour contrer ces dispositifs de surveillance (qui fileraient des crampes au poignet à tout agent de la DINA), un moyen simple existe :

NE PAS EN ACHETER.

Mais ça, vous le saviez déjà, et c’est relativement simple à appliquer.

Le problème se situe encore une fois dans nos relations sociales avec des gens moins prévenants : que faire si une de vos connaissances possédant un tel objet vous invite chez elle ? Doit-on se soumettre à la surveillance par pression sociale ?

Un mec s'exclame, pas sûr de lui : « J'ai réglé le problème : je n'ai aucun ami. Joie. Haha. » Le smiley, l'air déprimé, une guitare dans les mains, chante : « Hello darkness my old friend… »

Vous voyez, moi qui suis allergique aux poils de chats…

Le smiley remarque, en tirant la langue : « Ça, c'est comme la Cour des Comptes en vacances. » Gee : « C'est-à-dire ? » Le smiley : « Aucun rapport. » Gee : « Merci pour cette intervention de qualité. » Le smiley : « Pas d'quoi. »

Bon.

Quand je dis allergique, c’est ALLERGIQUE.

Pour vous donner une idée, petit, je faisais des crises d’asthme quand j’étais assis à côté d’un camarade de classe qui avait un chat chez lui…

Un ami de Gee agite une branche d'arbuste en disant : « On zoue à la Guerre des Zétoiles ! Ze suis Luc Skaïwokeur ! Ziiiioooooon ! » Gee enfant, un énorme tube de Ventoline dans le dos et un masque sur le visage, respire mal et dit : « Je joue pas… Kffff. Kffff. Kffff. »

À ce niveau d’allergie, les antihistaminiques limitent la casse, mais faut pas rêver.

Donc.

Moi qui suis allergique aux poils de chats, je ne vais pas chez les possesseurs de chats. Tout simplement.

Ça fait rarement plaisir mais c’est une question de survie.

Gee regarde son ordinateur. Sur l'écran, un chat remarque : « Par contre, regarder des GIF de chats rigolos, ça ça passe ? » Gee, brzas croisés : « Ah mais j'suis pas anti-chats. C'est les chats qui sont anti-moi ! Pi de toute façon, j'préfère les lapins. » Le smiley est représenté avec des grandes oreilles, toujours l'ai blasé.

Eh bien, je me demande si je n’vais pas tout simplement me considérer comme allergique aux enceintes connectées. Ça simplifiera les choses.

Alors je sais ce que vous allez me dire : c’est un coup à se retrouver assez vite isolé.

Bah pas forcément.

Mettons qu’on ait tous une grosse poussée d’allergie anti-Google-Home, anti-Amazon-Echo, etc.

Le mec lambda, tout seul avec son enceinte connectée, est triste sur son fauteuil : « C'est dingue ça ! Personne n'est venu à mon apéro ! OK Google. Tu sais jouer à Jungle Speed ? OK Google. Tu peux simuler un pote bourré ? Je suis tellement seul… »

Moralité : sauvons nos potes. Devenons allergiques aux enceintes connectées.

Crédit : Simon Gee Giraudot (Creative Commons By-Sa)

Framasoft en 2019 pour les gens pressés

Vous avez aimé Dégooglisons Internet et pensez le plus grand bien de Contributopia ? Vous aimeriez savoir en quelques mots où notre feuille de route nous mènera en 2019 ? Cet article est fait pour vous, les décideurs pressés 🙂

Cet article présente de façon synthétique et ramassée ce que nous avons développé dans l’article de lancement de la campagne 2018-2019 : «Changer le monde, un octet à la fois».

Un octet à la fois, oui, parce qu’avec nos pattounes, ça prend du temps.

Passé

Depuis 14 ans, Framasoft a créé un annuaire du logiciel libre, écrit et traduit des milliers d’articles, diffusé le logiciel libre sur de nombreux supports.

Depuis 4 ans, Framasoft montre qu’il est possible de décentraliser Internet avec l’opération « Dégooglisons Internet ». Le propos n’est ni de critiquer ni de culpabiliser, mais d’informer et de mettre en avant des alternatives qui existaient déjà, mais demeuraient difficiles d’accès ou d’usage.

De façon à ne pas devenir un nouveau nœud de centralisation, l’initiative CHATONS a été lancée, proposant de relier les hébergeurs de services en ligne qui partagent nos valeurs.

Dégooglisons Internet, vu par Péhä (CC-By)

Présent

Depuis l’année dernière, avec sa feuille de route Contributopia, Framasoft a décidé d’affirmer clairement qu’il fallait aller au-delà du logiciel libre, qui n’était pas une fin en soi, mais un moyen de faire advenir un monde que nous appelons de nos vœux.

Il faut donc encourager la société de contribution et dépasser celle de la consommation, y compris en promouvant des projets qui ne soient plus seulement des alternatives aux GAFAM, mais qui soient porteurs d’une nouvelle façon de faire. Cela se fera aussi en se rapprochant de structures (y compris en dehors du mouvement traditionnel du libre) avec lesquelles nous partageons certaines valeurs, de façon à apprendre et diffuser nos savoirs.

Cette année a vu naître la version 1.0 de PeerTube, logiciel phare qui annonce une nouvelle façon de diffuser des médias vidéos, en conservant le contrôle de ses données sans se couper du monde, qu’on soit vidéaste ou spectateur.

Le monde des services de Contributopia.
Illustration de David Revoy – Licence : CC-By 4.0

Avenir

La campagne de don actuelle est aussi l’occasion de de rappeler des éléments d’importance pour Framasoft : nous ne sommes pas une grosse multinationale, mais un petit groupe d’amis épaulé par quelques salarié·e·s, et une belle communauté de contributeurs et contributrices.

Cette petite taille et notre financement basé sur vos dons nous offrent souplesse et indépendance. Ils nous permettront de mettre en place de nouveaux projets comme MobilZon (mobilisation par le numérique), un Mooc CHATONS (tout savoir et comprendre sur pourquoi et comment devenir un chaton) ou encore Framapétitions (plateforme de pétitions n’exploitant pas les données des signataires).

Nous voulons aussi tenter d’en appeler à votre générosité sans techniques manipulatoires, en vous exposant simplement d’où nous venons et où nous allons. Nous espérons que cela vous motivera à nous faire un don.

Faire un don pour soutenir les actions de Framasoft

Pour en savoir plus

Un article détaillé sur l’année 2019 de Contributopia (13mn de lecture)
La nouvelle page d’accueil de Framasoft, pour la campagne d’appel au don de cette fin d’année

Projet Common Voice : pour que la voix soit libre

On nous demande souvent comment contribuer au Libre sans être un cador en informatique. Voici un projet utile, d’une grande importance et auquel il est très simple de contribuer : il suffit de savoir lire, parler et écouter. On vous explique tout.

On voit émerger à grande allure des objets avec lesquels l’interaction repose sur la reconnaissance vocale : smartphones, assistants connecté, dispositifs de réalité virtuelle…Selon les experts de ce marché, 50 % des recherches toutes plateformes confondues passeront par la voix d’ici 2 à 3 ans. Quant aux objets dits « intelligents », ils atteignent pour les pays favorisés un niveau de prix qui les rend accessibles à un nombre croissant de consommateurs. On peut trouver dès aujourd’hui dans la grande distribution des « enceintes connectées » à l’écoute de vos questions pour moins de 100 euros… Autant dire que ces produits sont en passe d’être des objets de consommation de masse.

Les services vocaux, au-delà des fonctions d’espionnage qui suscitent la méfiance, apporteront des avantages sensibles aux usages numériques du grand public. Ils abaisseront la barrière d’accès à des fonctionnalités utiles pour les personnes handicapées, en difficulté avec la lecture, dont les mains sont occupées ou pour celles qui ont besoin d’assistance immédiate. Dans bien des cas de figure il est ou sera plus efficace ou rapide d’utiliser la voix plutôt qu’une interface tactile ou souris/clavier¹

Le problème hélas a un air de déjà-vu : aujourd’hui les systèmes de reconnaissance vocale sont essentiellement propriétaires et reposent sur 4 ou 5 bases de données vocales propriétaires : Cortana (Microsoft), Siri (Apple), Google Now (Google), Vocapia Research (VoxSigma suite)… En d’autres termes, tout est prêt pour assurer à quelques géants du numérique, toujours les mêmes, une suprématie commerciale et technologique. Et l’histoire récente prouve qu’ils n’hésiteront pas longtemps avant de capter les données les plus précieuses, celles de notre vie dans la bulle privée de notre habitation.

Il se trouve qu’un projet qui repose sur des ressources libres (données et code informatique) a été lancé par l’un des acteurs majeurs du monde du Libre : la fondation Mozilla.

Pourquoi Mozilla s’en mêle ?

Parmi les principes qui guident Mozilla et qu’on retrouve dans son manifeste, la santé d’un Web ouvert et l’inclusivité sont des valeurs essentielles. Cette ressource numérique dont l’usage est appelé à se développer rapidement doit être à la disposition du plus grand nombre, à commencer par les entreprises innovantes (déjà sur la brèche par exemple Mycroft et Snips) qui n’ont pas les moyens financiers d’accéder aux bases propriétaires et qui seraient tout simplement marginalisées par les grandes entreprises. Au-delà, bien sûr, c’est pour que des produits reposant sur la reconnaissance vocale soient accessibles à tous, quelle que soit leur langue, leur genre, leur accent local etc.

De quoi s’agit-il ?

De constituer la plus riche base possible d’échantillons sonores qui seront mis à la disposition des développeurs sous une licence libre (licence CC0). Le projet global s’appelle Deep Speech et Mozilla fait travailler des ingénieurs à traiter les données collectées avec des algorithmes, et ainsi alimenter un dispositif d’apprentissage machine.

Comment ça peut marcher ?

Ici nous tentons une description simple donc forcément approximative…

Un réseau de neurones va « apprendre » si…

On donne à la machine des fichiers audio en entrée
On calcule la sortie, c’est-à-dire le texte
On compare au texte d’origine et… ben non c’est pas tout à fait ça.
On ajuste un petit peu des millions de paramètres internes pour essayer de se rapprocher de la sortie voulue
On répète sur des milliers d’heures…

portrait d’Alexandre Lissy ingénieur chez Mozilla — Alexandre Lissy, ingénieur Mozilla qui travaille au bureau de Paris pour le projet Deep Speech. Les autres membres de l’équipe sont à Berlin, au Brésil et à San Francisco… (Photo de Samuel Nohra publiée dans Ouest France)

Pourquoi est-ce difficile à réaliser ?

L’entraînement des machines et la transcription nécessitent une grosse puissance de calcul.
Un nombre très important d’heures d’enregistrements valides est nécessaire pour que la reconnaissance vocale soit la plus efficace possible. C’est une somme d’environ 10 000 heures qui est considérée comme souhaitable pour obtenir un résultat.
Il existe peu de gros jeux de données publiquement accessibles en CC0 pour construire des modèles de reconnaissance 100% libres.

Les principes de Common Voice

Tout d’abord le projet est mondial et vise à fonctionner pour le plus grand nombre de langues possible. Le projet est assez récent et pour l’instant, 16 langues seulement sont actives dont bien sûr le Français. On remarque que le projet a de l’importance pour les langues qui peuvent se sentir menacées : le Catalan, le Breton et le Kabyle par exemple sont déjà lancés !

*Mais euh… On n’en est que là nous autres les francophones ? Vous avez compris : il est temps de nous y mettre tous ! (copie d’écran de la page des langues)*

C’est aussi un projet inclusif pour lequel les intonations diverses sont bienvenues, avec une insistance particulière des ingénieurs responsables du projet pour qu’il y ait une grande diversité de voix : locuteurs et locutrices, de tous âges, avec tous les accents régionaux (oui les accents du sud, du nord etc. sont tout à fait bienvenus, une trentaine d’accents sont retenus), car les machines devront traiter la voix pour le plus grand nombre et pas exclusivement pour une prononciation standard appliquée. il est important de prononcer distinctement, mais le projet n’a pas besoin de textes déclamés professionnellement par des acteurs.

C’est surtout un projet communautaire et collaboratif. Il s’est construit dès le départ avec la communauté Mozilla et ses contributeurs et contributrices. Il fait maintenant appel à la communauté plus large de… tous les francophones. Car comme vous allez le voir, tout le monde ² peut y participer !

Simplicité de la contribution

Le mode d’emploi détaillé figure dans cet article de blog de Mozilla francophone. Mais pour l’essentiel, avec un micro-casque de qualité ordinaire vous pouvez :

1. PARLER

et enregistrer tour à tour une série de 5 brèves phrases

Pas d’inquiétude : on peut choisir « passer » avec un bouton dédié si on rencontre une difficulté de compréhension, prononciation ou autre. Et bien entendu si en se réécoutant on constate que ça peut être mieux, un simple clic permet de recommencer.

2. ÉCOUTER

pour valider ou non une série de 5 phrases

Vous vous demandez peut-être d’où viennent tous ces textes parfois bizarres qu’on doit lire à haute voix ou écouter. Eh bien ce sont des textes dont la licence permet l’utilisation, qui viennent de transcriptions de débats de l’assemblée Nationale, de quelques livres du projet Gutenberg, de quelques pièces de théâtre, d’adresses françaises… Ah tiens, mais s’il faut enrichir la base, les romans de Pouhiou et celui de Frédéric Urbain publiés chez Framabook sont en CC0 ! Ça pourrait donner des phrases de test assez rigolotes.

Quand t’as eu des hémorroïdes, tu peux plus croire à la réincarnation.

Vingt-cinq ans, j’ai été bignole. Vous pensez si je retapisse un poulet.

Le coin des pas contents

Ah et puis ça ne va pas rater, les chevaliers blancs du Libre ne vont pas manquer d’agiter leur drapeau immaculé, donc on vous le dit d’avance : oui malheureusement la page de Common Voice contient du Google Analytics. Et oui encore, amis sourcilleux sur les licences libres, la CC0 va permettre la réutilisation commerciale des voix enregistrées bénévolement. C’est dommage ou pas de placer un travail collectif sous une licence très permissive ?

*Cliquez sur l’image pour parcourir la page d’informations sur la CC0*

À vous de jouer !

Chaque contribution est précieuse, surtout si elle est réitérée un grand nombre de fois 😉 Pour s’encourager, on peut suivre la progression des objectifs quotidiens, et certain⋅e⋅s ne manquent pas de se prendre au jeu…

Vous l’avez compris, ce projet réclame une participation massive pour avancer, alors si chacun y contribue ne serait-ce que modestement, nous pourrons dire que la voix est libre !

Liens utiles

https://voice.mozilla.org/fr/new
- Écouter pour valider ou non https://voice.mozilla.org/fr/listen
- Lire à haute voix pour ajouter aux échantillons sonores https://voice.mozilla.org/fr/speak
- La page de progression suivant les langues : on est loin du compte ! https://voice.mozilla.org/fr/languages
Ludo répond à quelques questions pratiques sur un fil mastodon
Une vidéo de conférence présentée par Alexandre sur le projet Deep Speech – Common Voice
Le github du projet Deep Speech seulement pour ceux qui veulent se plonger dans sa dimension technique (on vous aura prévenu⋅e⋅s…)
Des articles :
- https://blog.mozfr.org/post/2017/07/Haussons-la-voix-tous-ensemble-pour-le-Web-Common-Voice
- Un article qui résume le projet https://blog.mozfr.org/post/2018/09/perdez-pas-voix-common-voice
- Un article récent : https://www.blogdumoderateur.com/common-voice-mozilla-reconnaissance-vocale/

Les données que récolte Google – Ch.6

Voici déjà la traduction du sixième chapitre de Google Data Collection, l’étude élaborée par l’équipe du professeur Douglas C. Schmidt, spécialiste des systèmes logiciels, chercheur et enseignant à l’Université Vanderbilt. Si vous les avez manqués, retrouvez les chapitres précédents déjà publiés.

Il s’agit cette fois de comprendre comment Google complète les données collectées avec les données provenant des applications et des comptes connectés des utilisateurs.

Traduction Framalang : Auteurs: Khrys, Piup, Goofy, David_m, Côme, Fabrice, Serici

VI. Données collectées par les applications clés de Google destinées aux particuliers

67. Google a des dizaines de produits et services qui évoluent en permanence (une liste est disponible dans le tableau 4, section IX.B de l’annexe). On accède souvent à ces produits grâce à un compte Google (ou on l’y associe), ce qui permet à Google de relier directement les détails des activités de l’utilisateur de ses produits et services à un profil utilisateur. En plus des données d’usage de ses produits, Google collecte également des identificateurs et des données de localisation liés aux appareils lorsqu’on accède aux services Google. ³

68. Certaines applications de Google (p.ex. YouTube, Search, Gmail et Maps) occupent une place centrale dans les tâches de base qu’une multitude d’utilisateurs effectuent quotidiennement sur leurs appareils fixes ou mobiles. Le tableau 2 décrit la portée de ces produits clés. Cette section explique comment chacune de ces applications majeures collecte les informations des utilisateurs.

Tableau 2 : Portée mondiale des principales applications Google

Produits	Utilisateurs actifs
Search	Plus d’un milliard d’utilisateurs actifs par mois, 90.6 % de part de marché des moteurs de recherche ⁴
Youtube	Plus de 1,8 milliard d’utilisateurs inscrits et actifs par mois ⁵
Maps	Plus d’un milliard d’utilisateurs actifs par mois ⁶
Gmail	1,2 milliard d’utilisateurs enregistrés ⁷

A. Recherche

69. Google Search est le moteur de recherche sur internet le plus populaire au monde ⁸, avec plus de 11 milliards de requêtes par mois aux États-Unis ⁹. En plus de renvoyer un classement de pages web en réponse aux requêtes globales des utilisateurs, Google exploite d’autres outils basés sur la recherche, tels que Google Finance, Flights (vols), News (actualités), Scholar (recherche universitaire), Patents (brevets), Books (livres), Images, Videos et Hotels. Google utilise ses applications de recherche afin de collecter des données liées aux recherches, à l’historique de navigation ainsi qu’aux activités d’achats et de clics sur publicités. Par exemple, Google Finance collecte des informations sur le type d’actions que les utilisateurs peuvent suivre, tandis que Google Flight piste leurs réservations et recherches de voyage.

70. Dès lors que Search est utilisé, Google collecte les données de localisation par différents biais, sur ordinateur ou sur mobile, comme décrit dans les sections précédentes. Google enregistre toute l’activité de recherche d’un utilisateur ou utilisatrice et la relie à son compte Google si cette personne est connectée. L’illustration 13 montre un exemple d’informations collectées par Google sur une recherche utilisateur par mot-clé et la navigation associée.

Un exemple de collecte de données de recherche extrait de la page My Activity (Mon Activité) d'un utilisateur — *Illustration 13 : Un exemple de collecte de données de recherche extrait de la page My Activity (Mon Activité) d’un utilisateur*

71. Non seulement c’est le moteur de recherche par défaut sur Chrome et les appareils Google, mais Google Search est aussi l’option par défaut sur d’autres navigateurs internet et applications grâce à des arrangements de distribution. Ainsi, Google est récemment devenu le moteur de recherche par défaut sur le navigateur internet Mozilla Firefox ¹⁰ dans des régions clés (dont les USA et le Canada), une position occupée auparavant par Yahoo. De même, Apple est passé de Microsoft Bing à Google pour les résultats de recherche via Siri sur les appareils iOS et Mac ¹¹. Google a des accords similaires en place avec des OEM (fabricants d’équipement informatique ou électronique) ¹², ce qui lui permet d’atteindre les consommateurs mobiles.

B. YouTube

72. YouTube met à disposition des utilisateurs et utilisatrices une plateforme pour la mise en ligne et la visualisation de contenu vidéo. Il attire plus de 180 millions de personnes rien qu’aux États-Unis et a la particularité d’être le deuxième site le plus visité des États-Unis ¹³, juste derrière Google Search. Au sein des entreprises de streaming multimédia, YouTube possède près de 80 % de parts de marché en termes de visites mensuelles (comme décrit dans l’illustration 14). La quantité de contenu mis en ligne et visualisé sur YouTube est conséquente : 400 heures de vidéo sont mises en ligne chaque minute ¹⁴ et 1 milliard d’heures de vidéo sont visualisées quotidiennement sur la plateforme YouTube.¹⁵

Illustration 14 : Comparaison d’audiences mensuelles des principaux sites multimédia aux États-Unis ¹⁶

73. Les utilisateurs peuvent accéder à YouTube sur l’ordinateur (navigateur internet), sur leurs appareils mobiles (application et/ou navigateur internet) et sur Google Home (via un abonnement payant appelé YouTube Red). Google collecte et sauvegarde l’historique de recherche, l’historique de visualisation, les listes de lecture, les abonnements et les commentaires aux vidéos. La date et l’horaire de chaque activité sont ajoutés à ces informations.

74. Si un utilisateur se connecte à son compte Google pour accéder à n’importe quelle application Google via un navigateur internet (par ex. Chrome, Firefox, Safari), Google reconnaît l’identité de l’utilisateur, même si l’accès à la vidéo est réalisé par un site hors Google (ex. : vidéos YouTube lues sur cnn.com). Cette fonctionnalité permet à Google de pister l’utilisation YouTube d’un utilisateur à travers différentes plateformes tierces. L’illustration 15 montre un exemple de données YouTube collectées.

Illustration 15 : Exemple de collecte de données YouTube dans My Activity (Mon Activité)

75. Google propose également un produit YouTube différencié pour les enfants, appelé YouTube Kids, dans l’intention d’offrir une version « familiale » de YouTube avec des fonctionnalités de contrôle parental et de filtres vidéos. Google collecte des informations de YouTube Kids, notamment le type d’appareil, le système d’exploitation, l’identifiant unique de l’appareil, les informations de journalisation et les détails d’utilisation du service. Google utilise ensuite ces informations pour fournir des annonces publicitaires limitées, qui ne sont pas cliquables et dont le format, la durée et le site sont limités.¹⁷.

C. Maps

76. Maps est l’application phare de navigation routière de Google. Google Maps peut déterminer les trajets et la vitesse d’un utilisateur et ses lieux de fréquentation régulière (ex. : domicile, travail, restaurants et magasins). Cette information donne à Google une idée des intérêts (ex. : préférences d’alimentation et d’achats), des déplacements et du comportement de l’utilisateur.

77. Maps utilise l’adresse IP, le GPS, le signal cellulaire et les points d’accès au Wi-Fi pour calculer la localisation d’un appareil. Les deux dernières informations sont collectées par le biais de l’appareil où Maps est utilisé, puis envoyées à Google pour évaluer la localisation via son interface de localisation (Location API). Cette interface fournit de nombreux détails sur un utilisateur, dont les coordonnées géographiques, son état stationnaire ou en mouvement, sa vitesse et la détermination probabiliste de son mode de transport (ex. : en vélo, voiture, train, etc.).

78. Maps sauvegarde un historique des lieux qu’un utilisateur connecté à Maps par son compte Googe a visités. L’illustration 16. montre un exemple d’un tel historique ¹⁸. Les points rouges indiquent les coordonnées géographiques recueillies par Maps lorsque l’utilisateur se déplace ; les lignes bleues représentent les projections de Maps sur le trajet réel de l’utilisateur.

Illustration 16 : Exemple d'un historique Google Maps (« Timeline ») d'un utilisateur réel — Illustration 16 : Exemple d’un historique Google Maps (« *Timeline* ») d’un utilisateur réel

79. La précision des informations de localisation recueillies par les applications de navigation routière permet à Google de non seulement cibler des audiences publicitaires, mais l’aide aussi à fournir des annonces publicitaires aux utilisateurs lorsqu’ils s’approchent d’un magasin ¹⁹. Google Maps utilise de plus ces informations pour générer des données de trafic routier en temps réel.²⁰

D. Gmail

80. Gmail sauvegarde tous les messages (envoyés et reçus), le nom de l’expéditeur, son adresse email et la date et l’heure des messages envoyés ou reçus. Puisque Gmail représente pour beaucoup un répertoire central pour la messagerie électronique, il peut déterminer leurs intérêts en scannant le contenu de leurs courriels, identifier les adresses de commerçants grâce à leurs courriels publicitaires ou les factures envoyées par message électronique, et connaître l’agenda d’un utilisateur (ex. : réservations à dîner, rendez-vous médicaux…). Étant donné que les utilisateurs utilisent leur identifiant Gmail pour des plateformes tierces (Facebook, LinkedIn…), Google peut analyser tout contenu qui leur parvient sous forme de courriel (ex. : notifications, messages).

81. Depuis son lancement en 2004 jusqu’à la fin de l’année 2017 (au moins), Google peut avoir analysé le contenu des courriels Gmail pour améliorer le ciblage publicitaire et les résultats de recherche ainsi que ses filtres de pourriel. Lors de l’été 2016, Google a franchi une nouvelle étape et a modifié sa politique de confidentialité pour s’autoriser à fusionner les données de navigation, autrefois anonymes, de sa filiale DoubleClick (qui fournit des publicités personnalisées sur internet) avec les données d’identification personnelles qu’il amasse à travers ses autres produits, dont Gmail ²¹. Le résultat : « les annonces publicitaires DoubleClick qui pistent les gens sur Internet peuvent maintenant leur être adaptées sur mesure, en se fondant sur les mots-clés qu’ils ont utilisés dans leur messagerie Gmail. Cela signifie également que Google peut à présent reconstruire le portrait complet d’une utilisatrice ou utilisateur par son nom, en fonction de tout ce qui est écrit dans ses courriels, sur tous les sites visités et sur toutes les recherches menées. » ²²

82. Vers la fin de l’année 2017, Google a annoncé qu’il arrêterait la personnalisation des publicités basées sur les messages Gmail ²³. Cependant, Google a annoncé récemment qu’il continue à analyser les messages Gmail pour certaines raisons ²⁴.

Les données que récolte Google – Ch.5

Voici déjà la traduction du cinquième chapitre de Google Data Collection, l’étude élaborée par l’équipe du professeur Douglas C. Schmidt, spécialiste des systèmes logiciels, chercheur et enseignant à l’Université Vanderbilt. Si vous les avez manqués, retrouvez les chapitres précédents déjà publiés.
Il s’agit cette fois d’explorer la quantité de données que Google collecte lorsque l’on a désactivé tout ce qui pouvait l’être…

Traduction Framalang : Khrys, Mika, Piup, David_m, Côme, Serici, Fabrice, Bullcheat, Goofy

V. Quantité de données collectées lors d’une utilisation minimale des produits Google

58. Cette section montre les détails de la collecte de données par Google à travers ses services de publication et d’annonces. Afin de comprendre une telle collecte de données, une expérience est réalisée impliquant un utilisateur qui se sert de son téléphone dans sa vie de tous les jours mais qui évite délibérément d’utiliser les produits Google (Search, Gmail, YouTube, Maps, etc.), exception faite du navigateur Chrome.

59. Pour que l’expérience soit aussi réaliste que possible, plusieurs études sur les usages de consommateurs²⁵, ²⁶ ont été utilisées pour créer le profil d’usage journalier d’un utilisateur lambda. Ensuite, toutes les interactions directes avec les services Google ont été retirées du profil. La section IX.F dans les annexes liste les sites internet et applications utilisés pendant l’expérience.

60. L’expérience a été reproduite sur des appareils Android et iOS et les données HTTPS envoyées aux serveurs Google et Apple ont été tracées et analysées en utilisant une méthode similaire à celle expliquée dans la section précédente. Les résultats sont résumés dans la figure 12. Pendant la période de 24 h (qui inclut la période de repos nocturne), la majorité des appels depuis le téléphone Android ont été effectués vers les services Google de localisation et de publication de publicités (DoubleClick, Analytics). Google a enregistré la géolocalisation de l’utilisateur environ 450 fois, ce qui représente 1,4 fois le volume de l’expérience décrite dans la section III.C, qui se basait sur un téléphone immobile.

Figure 12 : Requêtes du téléphone portable durant une journée typique d’utilisation

61. Les serveurs de Google communiquent significativement moins souvent avec un appareil iPhone qu’avec Android (45 % moins). En revanche, le nombre d’appels aux régies publicitaires de Google reste les mêmes pour les deux appareils — un résultat prévisible puisque l’utilisation de pages web et d’applications tierces était la même sur chacun des périphériques. À noter, une différence importante est que l’envoi de données de géolocalisation à Google depuis un appareil iOS est pratiquement inexistant. En absence des plateformes Android et Chrome — ou de l’usage d’un des autres produits de Google — Google perd significativement sa capacité à pister la position des utilisateurs.

62. Le nombre total d’appels aux serveurs Apple depuis un appareil iOS était bien moindre, seulement 19 % des appels aux serveurs de Google depuis l’appareil Android. De plus, il n’y a pas d’appels aux serveurs d’Apple liés à la publicité, ce qui pourrait provenir du fait que le modèle économique d’Apple ne dépend pas autant de la publicité que celui de Google. Même si Apple obtient bien certaines données de localisation des utilisateurs d’appareil iOS, le volume de données collectées est bien moindre (16 fois moins) que celui collecté par Google depuis Android.

63. Au total, les téléphones Android ont communiqué 11.6 Mo de données par jour (environ 350 Mo par mois) avec les serveurs de Google. En comparaison, l’iPhone n’a envoyé que la moitié de ce volume. La quantité de données spécifiques aux régies publicitaires de Google est restée pratiquement identique sur les deux appareils.

64. L’appareil iPhone a communiqué bien moins de données aux serveurs Apple que l’appareil Android n’a échangé avec les serveurs Google.

65. De manière générale, même en l’absence d’interaction utilisateur avec les applications Google les plus populaires, un utilisateur de téléphone Android muni du navigateur Chrome a tout de même tendance à envoyer une quantité non négligeable de données à Google, dont la majorité est liée à la localisation et aux appels aux serveurs de publicité. Bien que, dans le cadre limité de cette expérience, un utilisateur d’iPhone soit protégé de la collecte des données de localisation par Google, Google recueille tout de même une quantité comparable de données liées à la publicité.

66. La section suivante décrit les données collectées par les applications les plus populaires de Google, telles que Gmail, Youtube, Maps et la recherche.

MobiliZon : reprendre le pouvoir sur ce qui nous rassemble

Nous voulons façonner les outils que les géants du Web ne peuvent ni ne veulent créer. Pour y parvenir, nous avons besoin de votre soutien.

Penser hors des sentiers battus par les actionnaires

Pauvre MeetUp ! Pauvre Facebook avec ses événements et ses groupes ! Vous imaginez combien c’est dur, d’être une des plus grandes capitalisations boursières au monde ? Non mais c’est que les actionnaires ils sont jamais contents, alors il faut les arracher avec les dents, ces dividendes !

Nos pauvres petits géants du Web sont o-bli-gés de coder des outils qui ne vous donnent que très peu de contrôle sur vos communautés (familiales, professionnelles, militantes, etc.). Parce qu’au fond, les centres d’intérêt que vous partagez avec d’autres, c’est leur fonds de commerce ! Nos pauvres vendeurs de temps de cerveau disponible sont trop-for-cés de vous enfermer dans leurs plateformes où tout ce que vous ferez sera retenu envers et contre vous. Parce qu’un profil publicitaire complet, ça se vend plus cher, et ça, ça compte, dans leurs actions…

Cliquez sur l’image pour aller voir la conférence « Comment internet a facilité l’organisation des révolutions sociales mais en a compromis la victoire » de Zeynep Tufekci sur TED Talk

Et nous, internautes prétentieuses, on voudrait qu’ils nous fassent en plus un outil complet, éthique et pratique pour nous rassembler…? Mais on leur en demande trop, à ces milliardaires du marketing digital !

Comme on est choubidou chez Framasoft, on s’est dit qu’on allait leur enlever une épine du pied. Oui, il faut un outil pour organiser ces moments où on se regroupe, que ce soit pour le plaisir ou pour changer le monde. Alors on accepte le défi et on se relève les manches.

On ne changera pas le monde depuis Facebook

Lors du lancement de la feuille de route Contributopia, nous avions annoncé une alternative à Meetup, nom de code Framameet. Au départ, nous imaginions vraiment un outil qui puisse servir à se rassembler autour de l’anniversaire du petit dernier, de l’AG de son asso ou de la compète de son club d’Aïkido… Un outil singeant les groupes et événements Facebook, mais la version libre, qui respecte nos sphères d’intimité.

Puis, nous avons vu comment les « Marches pour le climat » se sont organisées sur Facebook, et comment cet outil a limité les personnes qui voulaient s’organiser pour participer à ces manifestations. Cliquera-t-on vraiment sur «ça m’intéresse» si on sait que nos collègues, nos ami·e·s d’enfance et notre famille éloignée peuvent voir et critiquer notre démarche ? Quelle capacité pour les orgas d’envoyer une info aux participant·e·s quand tout le monde est enfermé dans des murs Facebook où c’est l’Algorithme qui décide de ce que vous verrez, de ce que vous ne verrez pas ?

L’outil dont nous rêvons, les entreprises du capitalisme de surveillance sont incapables de le produire, car elles ne sauraient pas en tirer profit. C’est l’occasion de faire mieux qu’elles, en faisant autrement.

Nous avons été contacté·e·s par des personnes des manifestations #OnVautMieuxQueÇa et contre la loi travail, des Nuits Debout, des Marches pour le climat, et des Gilets Jaunes… Et nous travaillons régulièrement avec les Alternatiba, l’association Résistance à l’Agression Publicitaire, le mouvement Colibris ou les CEMÉA (entre autres) : la plupart de ces personnes peinent à trouver des outils permettant de structurer leurs actions de mobilisation, sans perdre le contrôle de leur communauté, du lien qui est créé.

Groupe gilets jaunes sur Facebook : «Quelle que soit l'issue du mouvement, la base de donnée "opinion" qui restera aux mains de Facebook est une bombe démocratique à retardement ... Et nous n'avons à ce jour absolument aucune garantie qu'elle ne soit pas vendue à la découpe au(x) plus offrant(s). » — Cliquez sur cette image pour lire « Après avoir liké, les Gilets Jaunes iront-ils voter ? » d’Olivier Ertzschied.

Or « qui peut le plus peut le moins » : si on conçoit un outil qui peut aider un mouvement citoyen à s’organiser, à s’émanciper… cet outil peut servir, en plus, pour gérer l’anniversaire surprise de Tonton Roger !

Ce que MeetUp nous refuse, MobiliZon l’intègrera

Concevoir le logiciel MobiliZon (car ce sera son nom), c’est reprendre le pouvoir qui a été capté par les plateformes centralisatrices des géants du Web. Prendre le pouvoir aux GAFAM pour le remettre entre les mains de… de nous, des gens, des humains, quoi. Nous allons nous inspirer de l’aventure PeerTube, et penser un logiciel réellement émancipateur :

Ce sera un logiciel Libre : la direction que Framasoft lui donne ne vous convient pas ? Vous aurez le pouvoir de l’emmener sur une autre voie.
Comme Mastodon ou PeerTube, ce sera une plateforme fédérée (via ActivityPub). Vous aurez le pouvoir de choisir qui héberge vos données sans vous isoler du reste de la fédération, du « fediverse ».
L’effet « double rainbow » de la fédération, c’est qu’avec MobiliZon vous donnerez à vos événements le pouvoir d’interagir avec les pouets de Mastodon, les vidéos PeerTube, les musiques de FunkWhale…
Vous voulez cloisonner vos rassemblements familiaux de vos activités associatives ou de vos mobilisations militantes ? Vous aurez le pouvoir de créer plusieurs identités depuis le même compte, comme autant de masques sociaux.
Vous voulez créer des événements réellement publics ? Vous donnerez le pouvoir de cliquer sur « je participe » sans avoir à se créer de compte.
Il faut lier votre événement à des outils externes, par exemple (au hasard) à un Framapad ? Vous aurez le pouvoir d’intégrer des outils externes à votre communauté MobiliZon.

dessin de MobiliZon par Devid Revoy — MobiliZon, illustré par David Revoy – Licence : CC-By 4.0

La route est longue, mais MobiliZon-nous pour que la voie soit libre !

Nous avons travaillé en amont pour poser des bases au projet, que nous vous présentons aujourd’hui sur JoinMobilizon.org. Au delà des briques logicielles et techniques, nous avons envie de penser à l’expérience utilisateur de l’application que les gens auront en main au final. Et qui, en plus, se doit d’être accessible et compréhensible par des néophytes.

Nous souhaitons éprouver ainsi une nouvelle façon de faire, en contribuant avec des personnes dont c’est le métier (designeurs et designeuses, on parlera très vite de Marie-Cécile et de Geoffrey !) pour œuvrer ensemble au service de causes qui veulent du bien à la société.

Le développement se fera par étapes et itérations, comme cela avait été le cas pour PeerTube, de façon à livrer rapidement (fin 2019) une version fonctionnelle qui soit aussi proche que possible des aspirations de celles et ceux qui ont besoin d’un tel outil pour se mobiliser.

Voilà notre déclaration d’intention. La question est : allez-vous nous soutenir ?

Car pour avancer vers la concrétisation de MobiliZon, et prolonger l’ensemble de nos projets, il n’y a pas de secrets : nous avons besoin de dons. Des dons qui, on le rappelle, restent déductibles des impôts (pour les contribuables français·es).

Pour notre campagne de dons de cette année, nous avons fait le choix de ne pas utiliser des outils invasifs qui jouent à vous motiver (genre la barre de dons qu’on a envie de voir se remplir). On a voulu rester sobre, et du coup c’est pas super la fête : on risque d’avoir du mal à ajouter MobiliZon dans notre budget 2019…

Alors si MobiliZon vous fait rêver autant que nous, et si vous le pouvez, pensez à soutenir Framasoft.

Faire un don pour soutenir les actions de Framasoft

Framasoft : les chiffres à connaître

Chaque année, nous nous rappelons à votre bon souvenir pour vous inciter à soutenir financièrement nos actions. Vous voyez au fil du temps de nouveaux services et des campagnes ambitieuses se mettre en place. Mais peut-être voudriez-vous savoir en chiffres ce que nous avons réalisé jusqu’à présent. Voilà de quoi vous satisfaire.

Par souci de transparence, nos bilans financiers sont publiés chaque année et nous offrons en temps réel l’accès à certaines statistiques d’usage de nos services. Mais cela ne couvre pas l’ensemble de nos actions et nous nous sommes dit que vous pourriez en vouloir plus que ce qui se trouve sur Framastats.

Libre à vous de picorer un chiffre ou l’autre, d’en faire des quizz ou de les reprendre pour votre argumentaire afin de démontrer l’efficacité du monde associatif. Nous espérons que vous y verrez l’illustration de notre engagement à promouvoir le libre sous toutes ses formes.

1 : Depuis son lancement voilà un an, chaque heure un nouveau site naît sur Framasite.
2,5 : Les 5 000 utilisatrices de Framadrive utilisent 2,5 To de données pour leurs 3 millions de fichiers.
5 : Toutes les 5 secondes en moyenne, un utilisateur se connecte sur les services Framasoft.
10 : Toutes les 10 minutes à peine, une nouvelle visioconférence est créée sur Framatalk, qui accueille environ 400 participant⋅es par jour.

Framatalk, la vision-conférence Libre, vue par Pëhà

11 : C’est le nombre de pizzas, additionné aux 47 plateaux-repas et 25 couscous qu’ont avalé les 25 personnes présentes pendant les 4 jours de l’AG Framasoft 2018.
33 : Framasoft vous propose 33 services en ligne alternatifs, respectueux de vos données et sans publicité.
35 : Grâce aux 300 abonné·e·s à la liste Framalang, ce ne sont pas moins de 35 traductions qui ont été effectuées et publiées sur le Framablog en un an.
252 : http://joinpeertube.org , c’est une fédération de 252 instances (déclarées) affichant 23 017 vidéos libérées de YouTube
750 : Chaque mois, notre support répond à environ 750 demandes, questions et problèmes. Avec un seul salarié !

Framalibre, l’annuaire à l’origine de Framasoft

871 : Framalibre, l’annuaire du libre vous présente 871 projets, logiciels ou créations artistiques sous licence libre à l’aide de courtes notices.
1 000 : Framaforms c’est environ 1000 formulaires créés quotidiennement et plus de 44 000 formulaires hébergés.
1 800 : Chaque jour, ce sont près de 1 800 images qui viennent s’ajouter aux 770 000 déjà présentes sur les serveurs de Framapic.
2 236 : Le Framablog c’est 2 236 articles et 28 919 commentaires depuis 2006, faisant le lien entre logiciel libre et société/culture libres.
3 000 : 4 000 utilisatrices réparties en 250 groupes ont créé plus de 3 000 présentations et conférences grâce à Framaslides alors qu’il n’est encore qu’en beta !
6 000 : Framemo héberge 6 000 tableaux qui ont aidé des utilisateurs à mettre leurs idées au clair, sans avoir à s’inscrire.

Framacarte, pour ne pas se perdre en chemin

6 000 : Sur Framacarte ajoutez votre propre fond de carte aux 6 000 qui existent déjà, en partenariat avec OpenStreetMap.
6 579 : Framapiaf, c’est 6 579 utilisateurs ayant « pouetté » 734 500 messages sur cette instance Mastodon, elle-même fédérée avec près de 4 000 autres instances (totalisant environ 1,5 million de comptes).
11 000 : Avec Framanews, ce sont 500 lecteurs (limite qu’on a nous même fixée pour restreindre la charge du serveur) qui accèdent régulièrement à leurs 11 000 flux RSS.
13 000 : Près de 4 000 utilisatrices accèdent à leur 13 000 notes depuis n’importe quel navigateur, avec un accès sécurisé, sur Framanotes.
15 000 : Avec Framabag 15 000 personnes ont pu sauvegarder et classer 1,5 million d’articles.

Framagit, pour partager librement votre code

25 000 : Notre forge logicielle, Framagit, héberge plus de 25 000 projets (et autant d’utilisateurs).
35 000 : Avec MyFrama, 35 000 utilisatrices partagent librement leurs liens Internet.
43 000 : Accédez à une des 43 000 adresses Web abrégées ou créez-en une grâce au raccourcisseur d’URL Framalink qui ne traque pas vos visiteurs.
52 000 : Découvrez Framasphère, membre du réseau social libre et fédéré Diaspora*, où 52 000 utilisatrices ont échangé environ 600 000 messages et autant de commentaires.
75 000 : Près de 75 000 joueurs ont pu faire une petite pause ludique sans s’exposer à de la publicité sur Framagames.

Framadrop, le partage aisé de gros fichier, en sécurité

100 000 : Sur Framadrop plus de 100 000 fichiers ont pu être échangés en toute confidentialité.
130 000 : Framacalc accueille plus de 130 000 feuilles de calcul, où vos données ne sont pas espionnées ni revendues
142 600 : Sur Framapad, c’est en moyenne plus de 142 600 pads actifs chaque jour et presque 8 millions d’utilisateurs depuis ses débuts.
150 000 : Les serveurs de Framalistes adressent en moyenne 150 000 courriels chaque jour aux 280 000 inscrites à des listes de discussion.
200 000 : Êtes-vous l’une des 200 000 personnes à avoir consulté un des 23 000 messages chiffrés de Framabin ?
500 000 : Framadate c’est plus de 500 000 visites par mois et plus de 1 000 sondages créés chaque jour.

2 500 000 : Plus de 2 millions et demi de personnes ont développé leurs idées, échafaudé des projets sur Framindmap depuis sa mise en place.
3 350 000 : Grâce à Framabook, 3 350 000 lecteurs ont pu télécharger en toute légalité un des 47 ouvrages librement publiés.
5 000 000 : Sur Framagenda environ 35 000 utilisateurs gèrent un million de contacts. Ils organisent et partagent près de cinq millions d’événements.
10 000 000 : Comme près de 40 000 personnes, travaillez en équipe sur Framateam et rejoignez un des 80 000 canaux avec presque 10 millions de messages !

Et le chiffre essentiel pour que tout cela soit possible, c’est celui de nos donatrices et donateurs (2381 en moyenne chaque année) : appuyez sur ce bouton pour le faire croître de 1

+1 : Je fais un don à Framasoft

Pour en savoir plus

Suivre #framastats sur les médias sociaux Mastodon et Twitter
Les comptes publiés annuellement sont en bas de la page de la présentation de l’association.

Les données que récolte Google – Ch.4

Voici déjà la traduction du quatrième chapitre de Google Data Collection, l’étude élaborée par l’équipe du professeur Douglas C. Schmidt, spécialiste des systèmes logiciels, chercheur et enseignant à l’Université Vanderbilt. Si vous les avez manqués, retrouvez les chapitres précédents déjà publiés.
Il s’agit cette fois d’explorer les stratégies des régies publicitaires qui opèrent en arrière-plan : des opérations fort discrètes mais terriblement efficaces…

Traduction Framalang : Côme, goofy, Khrys,Obny, Penguin, Piup, serici.

IV. Collecte de données par les outils des annonceurs et des diffuseurs

29. Une source majeure de collecte des données d’activité des utilisateurs provient des outils destinés au annonceurs et aux éditeurs tels que Google Analytics, DoubleClick, AdSense, AdWords et AdMob. Ces outils ont une portée énorme ; par exemple, plus d’un million d’applications mobiles utilisent AdMob²⁷, plus d’un million d’annonceurs utilisent AdWords²⁸, plus de 15 millions de sites internet utilisent AdSense²⁹ et plus de 30 millions de sites utilisent Google Analytics³⁰.

30. Au moment de la rédaction du présent rapport, Google a rebaptisé AdWords « Google Ads » et DoubleClick « Google Ad Manager« , mais aucune modification n’a été apportée aux fonctionnalités principales des produits, y compris la collecte d’informations par ces produits³¹. Par conséquent, pour les besoins du présent rapport, les premiers noms ont été conservés afin d’éviter toute confusion avec des noms de domaine connexes (tels que doubleclick.net).

31. Voici deux principaux groupes d’utilisateurs des outils de Google axés sur l’édition — et les annonces publicitaires :

Les éditeurs de sites web et d’applications, qui sont des organisations qui possèdent des sites web et créent des applications mobiles. Ces entités utilisent les outils de Google pour (1) gagner de l’argent en permettant l’affichage d’annonces aux visiteurs sur leurs sites web ou applications, et (2) mieux suivre et comprendre qui visite leurs sites et utilise leurs applications. Les outils de Google placent des cookies et exécutent des scripts dans les navigateurs des visiteurs du site web pour aider à déterminer l’identité d’un utilisateur et suivre son intérêt pour le contenu et son comportement en ligne. Les bibliothèques d’applications mobiles de Google suivent l’utilisation des applications sur les téléphones mobiles.
Les annonceurs, qui sont des organisations qui paient pour que des bannières, des vidéos ou d’autres publicités soient diffusées aux utilisateurs lorsqu’ils naviguent sur Internet ou utilisent des applications. Ces entités utilisent les outils de Google pour cibler des profils spécifiques de personnes pour que les publicités augmentent le retour sur leurs investissements marketing (les publicités mieux ciblées génèrent généralement des taux de clics et de conversion plus élevés). De tels outils permettent également aux annonceurs d’analyser leurs audiences et de mesurer l’efficacité de leur publicité numérique en regardant sur quelles annonces les utilisateurs cliquent et à quelle fréquence, et en donnant un aperçu du profil des personnes qui ont cliqué sur les annonces.

32. Ensemble, ces outils recueillent des informations sur les activités des utilisateurs sur les sites web et dans les applications, comme le contenu visité et les annonces cliquées. Ils travaillent en arrière-plan — en général imperceptibles par des utilisateurs. La figure 7 montre certains de ces outils clés, avec des flèches indiquant les données recueillies auprès des utilisateurs et les publicités qui leur sont diffusées.

Figure 7 : Produits Google destinés aux éditeurs et annonceurs³²

33. Les informations recueillies par ces outils comprennent un identifiant non personnel que Google peut utiliser pour envoyer des publicités ciblées sans identifier les informations personnelles de la personne concernée. Ces identificateurs peuvent être spécifiques à l’appareil ou à la session, ainsi que permanents ou semi-permanents. Le tableau 1 liste un ensemble de ces identificateurs. Afin d’offrir aux utilisateurs un plus grand anonymat lors de la collecte d’informations pour le ciblage publicitaire, Google s’est récemment tourné vers l’utilisation d’identifiants uniques semi-permanents (par exemple, les GAID)³³. Des sections ultérieures décrivent en détail la façon dont ces outils recueillent les données des utilisateurs et l’utilisation de ces identificateurs au cours du processus de collecte des données.

Tableau 1: Identificateurs transmis à Google

Identificateur	Type	Description
GAID/IDFA	Semi-permanent	Chaine de caractères alphanumériques pour appareils Android et iOS, pour permettre les publicités ciblées sur mobile. Réinitialisable par l’utilisateur.
ID client	Semi-permanent	ID créé la première fois qu’un cookie est stocké sur le navigateur. Utilisé pour relier les sessions de navigations. Réinitialisé lorsque les cookies du navigateur sont effacés.
Adresse IP	Semi-permanent	Une unique suite de nombre qui identifie le réseau par lequel un appareil accède à internet.
ID appareil Android	Semi-permanent	Nombre généré aléatoirement au premier démarrage d’un appareil. Utilisé pour identifier l’appareil. En retrait progressif pour la publicité. Réinitialisé lors d’une remise à zéro de l’appareil.
Google Services Framework (GSF)	Semi-permanent	Nombre assigné aléatoirement lorsqu’un utilisateur s’enregistre pour la première fois dans les services Google sur un appareil. Utilisé pour identifier un appareil unique. Réinitialisé lors d’une remise à zéro de l’appareil.
IEMI / MEID	Permanent	Identificateur utilisé dans les standards de communication mobile. Unique pour chaque téléphone portable.
Adresse MAC	Permanent	Identificateur unique de 12 caractères pour un élément matériel (ex. : routeur).
Numéro de série	Permanent	Chaine de caractères alphanumériques utilisée pour identifier un appareil.

A. Google Analytics et DoubleClick

34. DoubleClick et Google Analytics (GA) sont les produits phares de Google en matière de suivi du comportement des utilisateurs et d’analyse du trafic des pages Web sur les périphériques de bureau et mobiles. GA est utilisé par environ 75 % des 100 000 sites Web les plus visités³⁴. Les cookies DoubleClick sont associés à plus de 1,6 million de sites Web³⁵.

35. GA utilise de petits segments de code de traçage (appelés « balises de page ») intégrés dans le code HTML d’un site Web³⁶. Après le chargement d’une page Web à la demande d’un utilisateur, le code GA appelle un fichier analytics.js qui se trouve sur les serveurs de Google. Ce programme transfère un instantané « par défaut » des données de l’utilisateur à ce moment, qui comprend l’adresse de la page web visitée, le titre de la page, les informations du navigateur, l’emplacement actuel (déduit de l’adresse IP), et les paramètres de langue de l’utilisateur. Les scripts de GA utilisent des cookies pour suivre le comportement des utilisateurs.

36. Le script de GA, la première fois qu’il est exécuté, génère et stocke un cookie spécifique au navigateur sur l’ordinateur de l’utilisateur. Ce cookie a un identificateur de client unique (voir le tableau 1 pour plus de détails)³⁷ Google utilise l’identificateur unique pour lier les cookies précédemment stockés, qui capturent l’activité d’un utilisateur sur un domaine particulier tant que le cookie n’expire pas ou que l’utilisateur n’efface pas les cookies mis en cache dans son navigateur³⁸

37. Alors qu’un cookie GA est spécifique au domaine particulier du site Web que l’utilisateur visite (appelé « cookie de première partie »), un cookie DoubleClick est généralement associé à un domaine tiers commun (tel que doubleclick.net). Google utilise de tels cookies pour suivre l’interaction de l’utilisateur sur plusieurs sites web tiers³⁹ Lorsqu’un utilisateur interagit avec une publicité sur un site web, les outils de suivi de conversion de DoubleClick (par exemple, Floodlight) placent des cookies sur l’ordinateur de l’utilisateur et génèrent un identifiant client unique⁴⁰ Par la suite, si l’utilisateur visite le site web annoncé, le serveur DoubleClick accède aux informations stockées dans le cookie, enregistrant ainsi la visite comme une conversion valide.

B. AdSense, AdWords et AdMob

38. AdSense et AdWords sont des outils de Google qui diffusent des annonces sur les sites Web et dans les résultats de recherche Google, respectivement. Plus de 15 millions de sites Web ont installé AdSense pour afficher des annonces sponsorisées⁴¹ De même, plus de 2 millions de sites web et applications, qui constituent le réseau Google Display Network (GDN) et touchent plus de 90 % des internautes⁴² affichent des annonces AdWords.

39. AdSense collecte des informations indiquant si une annonce a été affichée ou non sur la page web de l’éditeur. Il recueille également la façon dont l’utilisateur a interagi avec l’annonce, par exemple en cliquant sur l’annonce ou en suivant le mouvement du curseur sur l’annonce⁴³. AdWords permet aux annonceurs de diffuser des annonces de recherche sur Google Search, d’afficher des annonces sur les pages des éditeurs et de superposer des annonces sur des vidéos YouTube. Pour suivre les taux de clics et de conversion des utilisateurs, les publicités AdWords placent un cookie sur les navigateurs des utilisateurs pour identifier l’utilisateur s’il visite par la suite le site web de l’annonceur ou s’il effectue un achat⁴⁴.

40. Bien qu’AdSense et AdWords recueillent également des données sur les appareils mobiles, leur capacité d’obtenir des renseignements sur les utilisateurs des appareils mobiles est limitée puisque les applications mobiles ne partagent pas de cookies entre elles, une technique d’isolement appelée « bac à sable »⁴⁵ qui rend difficile pour les annonceurs de suivre le comportement des utilisateurs entre différentes applications mobiles.

41 Pour résoudre ce problème, Google et d’autres entreprises utilisent des « bibliothèques d’annonces » mobiles (comme AdMob) qui sont intégrées dans les applications par leurs développeurs pour diffuser des annonces dans les applications mobiles. Ces bibliothèques compilent et s’exécutent avec les applications et envoient à Google des données spécifiques à l’application à laquelle elles sont intégrées, y compris les emplacements GPS, la marque de l’appareil et le modèle de l’appareil lorsque les applications ont les autorisations appropriées. Comme on peut le voir dans les analyses de trafic de données (Figure 8), et comme on peut trouver confirmation sur les propres pages web des développeurs de Google⁴⁶, de telles bibliothèques peuvent également envoyer des données personnelles de l’utilisateur, telles que l’âge et le genre, tout cela va vers Google à chaque fois que les développeurs d’applications envoient explicitement leurs valeurs numériques vers la bibliothèque.

Figure 8 : Aperçu des informations renvoyées à Google lorsqu’une application est lancée

C. Association de données recueillies passivement et d’informations à caractère personnel

42. Comme nous l’avons vu plus haut, Google recueille des données par l’intermédiaire de produits pour éditeurs et annonceurs, et associe ces données à une variété d’identificateurs semi-permanents et anonymes. Google a toutefois la possibilité d’associer ces identifiants aux informations personnelles d’un utilisateur. C’est ce qu’insinuent les déclarations faites dans la politique de confidentialité de Google, dont des extraits sont présentés à la figure 9. La zone de texte à gauche indique clairement que Google peut associer des données provenant de services publicitaires et d’outils d’analyse aux informations personnelles d’un utilisateur, en fonction des paramètres du compte de l’utilisateur. Cette disposition est activée par défaut, comme indiqué dans la zone de texte à droite.

Figure 9 : Page de confidentialité de Google pour la collecte de sites web tiers et l’association avec des informations personnelles⁴⁷⁴⁸.

43. De plus, une analyse du trafic de données échangé avec les serveurs de Google (résumée ci-dessous) a permis d’identifier deux exemples clés (l’un sur Android et l’autre sur Chrome) qui montrent la capacité de Google à corréler les données recueillies de façon anonyme avec les renseignements personnels des utilisateurs.

**1) L’identificateur de publicité mobile peut être désanonymé grâce aux données envoyées à Google par Android.**

44. Les analyses du trafic de données communiqué entre un téléphone Android et les domaines de serveur Google suggèrent un moyen possible par lequel des identifiants anonymes (GAID dans ce cas) peuvent être associés au compte Google d’un utilisateur. La figure 10 décrit ce processus en une série de trois étapes clés.

45. Dans l’étape 1, une donnée de check-in est envoyée à l’URL android.clients.google.com/checkin. Cette communication particulière fournit une synchronisation de données Android aux serveurs Google et contient des informations du journal Android (par exemple, du journal de récupération), des messages du noyau, des crash dumps, et d’autres identifiants liés au périphérique. Un instantané d’une demande d’enregistrement partiellement décodée envoyée au serveur de Google à partir d’Android est montré en figure 10.

Figure 10 : Les identifiants d’appareil sont envoyés avec les informations de compte dans les requêtes de vérification Android.

46. Comme l’indiquent les zones pointées, Android envoie à Google, au cours du processus d’enregistrement, une variété d’identifiants permanents importants liés à l’appareil, y compris l’adresse MAC de l’appareil, l’IMEI /MEID et le numéro de série du dispositif. En outre, ces demandes contiennent également l’identifiant Gmail de l’utilisateur Android, ce qui permet à Google de relier les informations personnelles d’un utilisateur aux identifiants permanents des appareils Android.

47. À l’étape 2, le serveur de Google répond à la demande d’enregistrement. Ce message contient un identifiant de cadre de services Google (GSF ID)⁴⁹ qui est similaire à l’« Android ID »⁵⁰ (voir le tableau 1 pour les descriptions).

48. L’étape 3 implique un autre cas de communication où le même identifiant GSF (de l’étape 2) est envoyé à Google en même temps que le GAID. La figure 10 montre l’une de ces transmissions de données à android.clients.google.com/fdfe/bulkDetails?au=1.

49. Grâce aux trois échanges de données susmentionnés, Google reçoit les informations nécessaires pour connecter un GAID avec des identifiants d’appareil permanents ainsi que les identifiants de compte Google des utilisateurs.

50. Ces échanges de données interceptés avec les serveurs de Google à partir d’un téléphone Android montrent comment Google peut connecter les informations anonymisées collectées sur un appareil mobile Android via les outils DoubleClick, Analytics ou AdMob avec l’identité personnelle de l’utilisateur. Au cours de la collecte de données sur 24 heures à partir d’un téléphone Android sans mouvement ni activité, deux cas de communications d’enregistrement avec des serveurs Google ont été observés. Une analyse supplémentaire est toutefois nécessaire pour déterminer si un tel échange d’informations a lieu avec une certaine périodicité ou s’il est déclenché par des activités spécifiques sur les téléphones.

2) L’ID du cookie DoubleClick est relié aux informations personnelles de l’utilisateur sur le compte Google.

51. La section précédente expliquait comment Google peut désanonymiser l’identité de l’utilisateur via les données passives et anonymisées qu’il collecte à partir d’un appareil mobile Android. Cette section montre comment une telle désanonymisation peut également se produire sur un ordinateur de bureau/ordinateur portable.

52. Les données anonymisées sur les ordinateurs de bureau et portables sont collectées par l’intermédiaire d’identifiants basés sur des cookies (par ex. Cookie ID), qui sont typiquement générés par les produits de publicité et d’édition de Google (par ex. DoubleClick) et stockés sur le disque dur local de l’utilisateur. L’expérience présentée ci-dessous a permis d’évaluer si Google peut établir un lien entre ces identificateurs (et donc les renseignements qui y sont associés) et les informations personnelles d’un utilisateur.
Cette expérience comportait les étapes ordonnées suivantes :

Ouverture d’une nouvelle session de navigation (Chrome ou autre) (pas de cookies enregistrés, par exemple navigation privée ou incognito) ;
Visite d’un site Web tiers qui utilisait le réseau publicitaire DoubleClick de Google ;
Visite du site Web d’un service Google largement utilisé (Gmail dans ce cas) ;
Connexion à Gmail.

53. Au terme des étapes 1 et 2, dans le cadre du processus de chargement des pages, le serveur DoubleClick a reçu une demande lorsque l’utilisateur a visité pour la première fois le site Web tiers. Cette demande faisait partie d’une série de reqêtes comprenant le processus d’initialisation DoubleClick lancé par le site Web de l’éditeur, qui a conduit le navigateur Chrome à installer un cookie pour le domaine DoubleClick. Ce cookie est resté sur l’ordinateur de l’utilisateur jusqu’à son expiration ou jusqu’à ce que l’utilisateur efface manuellement les cookies via les paramètres du navigateur.

54. Ensuite, à l’étape 3, lorsque l’utilisateur visite Gmail, il est invité à se connecter avec ses identifiants Google. Google gère l’identité à l’aide d’une architecture single sign on (SSO) [NdT : authentification unique], dans laquelle les identifiants sont fournis à un service de compte (ici accounts.google.com) en échange d’un « jeton d’authentification », qui peut ensuite être présenté à d’autres services Google pour identifier les utilisateurs. À l’étape 4, lorsqu’un utilisateur accède à son compte Gmail, il se connecte effectivement à son compte Google, qui fournit alors à Gmail un jeton d’autorisation pour vérifier l’identité de l’utilisateur.⁵¹ Ce processus est décrit à la figure 24 de la section IX.E de l’annexe.

55. Dans la dernière étape de ce processus de connexion, une requête est envoyée au domaine DoubleClick. Cette requête contient à la fois le jeton d’authentification fourni par Google et le cookie de suivi défini lorsque l’utilisateur a visité le site web tiers à l’étape 2 (cette communication est indiquée à la figure 11). Cela permet à Google de relier les informations d’identification Google de l’utilisateur à un cookie DoubleClick. Par conséquent, si les utilisateurs n’effacent pas régulièrement les cookies de leur navigateur, leurs informations de navigation sur les pages Web de tiers qui utilisent les services DoubleClick pourraient être associées à leurs informations personnelles sur Google Account.

Figure 11 : La requête à DoubleClick.net inclut le jeton d’authentification Google et les cookies passés.

56. Il est donc établi à présent que Google recueille une grande variété de données sur les utilisateurs par l’intermédiaire de ses outils d’éditeur et d’annonceur, sans que l’utilisateur en ait une connaissance directe. Bien que ces données soient collectées à l’aide d’identifiants anonymes, Google a la possibilité de relier ces informations collectées aux identifiants personnels de l’utilisateur stockés sur son compte Google.

57. Il convient de souligner que la collecte passive de données d’utilisateurs de Google à partir de pages web tierces ne peut être empêchée à l’aide d’outils populaires de blocage de publicité⁵², car ces outils sont conçus principalement pour empêcher la présence de publicités pendant que les utilisateurs naviguent sur des pages web tierces⁵³. La section suivante examine de plus près l’ampleur de cette collecte de données.