Ce que récolte Google : revue de détail

Temps de lecture 9 min

image_pdfimage_print

Le temps n’est plus où il était nécessaire d’alerter sur la prédation opérée par Google et ses nombreux services sur nos données personnelles. Il est fréquent aujourd’hui d’entendre dire sur un ton fataliste : « de toute façon, ils espionnent tout »

Si beaucoup encore proclament à l’occasion « je n’ai rien à cacher » c’est moins par conviction réelle que parce que chacun en a fait l’expérience : « on ne peut rien cacher » dans le monde numérique. Depuis quelques années, les mises en garde, listes de précautions à prendre et solutions alternatives ont été largement exposées, et Framasoft parmi d’autres y a contribué.

Il manquait toutefois un travail de fond pour explorer et comprendre, une véritable étude menée suivant la démarche universitaire et qui, au-delà du jugement global approximatif, établisse les faits avec précision.

C’est à quoi s’est attelée l’équipe du professeur Douglas C. Schmidt, spécialiste depuis longtemps des systèmes logiciels, chercheur et enseignant à l’Université Vanderbilt, qui livre au public une étude d’une cinquantaine de pages intitulée Google Data Collection. Cette étude, qui nous semble pouvoir servir de référence, a retenu l’attention du groupe Framalang qui vous en livre ci-dessous l’executive summary, c’est-à-dire une sorte de résumé initial, qui en donne un aperçu programmatique.

Si vous trouvez un intérêt à cette traduction et souhaitez que Framalang vous propose la suite nous ferons de notre mieux…

Traduction Framalang : Alain, fab, FranBAG, Goofy, jums, Khrys, Mika, Piup, serici

La collecte de données de Google

Un premier aperçu

1.
Google est la plus grosse agence de publicité numérique du monde 1. Elle fournit aussi le leader des navigateurs web 2, la première plateforme mobile 3 ainsi que le moteur de recherche le plus utilisé au monde 4. La plateforme vidéo de Google, ses services de mail et de cartographie comptent 1 milliard d’utilisateurs mensuels actifs chacun 5. Google utilise l’immense popularité de ses produits pour collecter des données détaillées sur le comportement des utilisateurs en ligne comme dans la vie réelle, données qu’il utilisera ensuite pour cibler ses utilisateurs avec de la publicité payante. Les revenus de Google augmentent significativement en fonction de la finesse des technologies de ciblage des données.

2.
Google collecte les données utilisateurs de diverses manières. Les plus évidentes sont « actives », celles dans lesquelles l’utilisateur donne
directement et consciemment des informations à Google, par exemple en s’inscrivant à des applications très populaires telles que YouTube, Gmail, ou le moteur de recherche. Les voies dites « passives » utilisées par Google pour collecter des données sont plus discrètes, quand une application devient pendant son utilisation l’instrument de la collecte des données, sans que l’utilisateur en soit conscient. On trouve ces méthodes de collecte dans les plateformes (Android, Chrome), les applications (le moteur de recherche, YouTube, Maps), des outils de publication (Google Analytics, AdSense) et de publicité (AdMob, AdWords). L’étendue et l’ampleur de la collecte passive de données de Google ont été en grande partie négligées par les études antérieures sur le sujet 6.

3.
Pour comprendre les données que Google collecte, cette étude s’appuie sur quatre sources clefs :
a. Les outils Google « Mon activité » (My Activity) 7 et « Téléchargez vos données » (Takeout) 8, qui décrivent aux utilisateurs l’information collectée lors de l’usage des outils Google.
b. Les données interceptées lors de l’envoi aux serveurs de Google pendant l’utilisation des produits Google ou d’autres sociétés associées.
c. Les règles concernant la vie privée (des produits Google spécifiquement ou en général).
d. Des recherches tierces qui ont analysé les collectes de données opérées par Google.

Histoire naturelle, générale et particulière, des mollusques, animaux sans vertèbres et à sang blanc. T.2. Paris,L’Imprimerie de F. Dufart,An X-XIII [1802-1805]. biodiversitylibrary.org/page/35755415

4.
Au travers de la combinaison des sources ci-dessus, cette étude montre une vue globale et exhaustive de l’approche de Google concernant la collecte des données et aborde en profondeur certains types d’informations collectées auprès des utilisateurs et utilisatrices.
Cette étude met en avant les éléments clés suivants :

a. Dans une journée d’utilisation typique, Google en apprend énormément sur les intérêts personnels de ses utilisateurs. Dans ce scénario d’une journée « classique », où un utilisateur réel avec un compte Google et un téléphone Android (avec une nouvelle carte SIM) suit sa routine quotidienne, Google collecte des données tout au long des différentes activités, comme la localisation, les trajets empruntés, les articles achetés et la musique écoutée. De manière assez surprenante, Google collecte ou infère plus de deux tiers des informations via des techniques passives. Au bout du compte, Google a identifié les intérêts des utilisateurs avec une précision remarquable.

b. Android joue un rôle majeur dans la collecte des données pour Google, avec plus de 2 milliards d’utilisateurs actifs mensuels dans le monde 9. Alors que le système d’exploitation Android est utilisé par des fabricants d’équipement d’origine (FEO) partout dans le monde, il est étroitement connecté à l’écosystème Google via le service Google Play. Android aide Google à récolter des informations personnelles sur les utilisateurs (nom, numéro de téléphone, date de naissance, code postal et dans beaucoup de cas le numéro de carte bancaire), les activités réalisées sur le téléphone (applications utilisées, sites web consultés) et les coordonnées de géolocalisation. En coulisses, Android envoie fréquemment la localisation de l’utilisateur ainsi que des informations sur l’appareil lui-même, comme sur l’utilisation des applications, les rapports de bugs, la configuration de l’appareil, les sauvegardes et différents identifiants relatifs à l’appareil.

c. Le navigateur Chrome aide Google à collecter des données utilisateurs depuis à la fois le téléphone et l’ordinateur de bureau, grâce à quelque 2 milliards d’installations dans le monde 10. Le navigateur Chrome collecte des informations personnelles (comme lorsqu’un utilisateur remplit un formulaire en ligne) et les envoie à Google via le processus de synchronisation. Il liste aussi les pages visitées et envoie les données de géolocalisation à Google.

d. Android comme Chrome envoient des données à Google même en l’absence de toute interaction de l’utilisateur. Nos expériences montrent qu’un téléphone Android dormant et stationnaire (avec Chrome actif en arrière-plan) a communiqué des informations de localisation à Google 340 fois pendant une période de 24 heures, soit en moyenne 14 communications de données par heure. En fait, les informations de localisation représentent 35 % de l’échantillon complet de données envoyés à Google. À l’opposé, une expérience similaire a montré que sur un appareil iOS d’Apple avec Safari (où ni Android ni Chrome n’étaient utilisés), Google ne pouvait pas collecter de données notables (localisation ou autres) en absence d’interaction de l’utilisateur avec l’appareil.

e. Une fois qu’un utilisateur ou une utilisatrice commence à interagir avec un téléphone Android (par exemple, se déplace, visite des pages web, utilise des applications), les communications passives vers les domaines de serveurs Google augmentent considérablement, même dans les cas où l’on n’a pas utilisé d’applications Google majeures (c.-à-d. ni recherche Google, ni YouTube, pas de Gmail ni Google Maps). Cette augmentation s’explique en grande partie par l’activité sur les données de l’éditeur et de l’annonceur de Google (Google Analytics, DoubleClick, AdWords) 11. Ces données représentaient 46 % de l’ensemble des requêtes aux serveurs Google depuis le téléphone Android. Google a collecté la localisation à un taux 1,4 fois supérieur par rapport à l’expérience du téléphone fixe sans interaction avec l’utilisateur. En termes d’amplitude, les serveurs de Google ont communiqué 11,6 Mo de données par jour (ou 0,35 Go / mois) avec l’appareil Android. Cette expérience suggère que même si un utilisateur n’interagit avec aucune application phare de Google, Google est toujours en mesure de recueillir beaucoup d’informations par l’entremise de ses produits d’annonce et d’éditeur.

f. Si un utilisateur d’appareil sous iOS décide de renoncer à l’usage de tout produit Google (c’est-à-dire sans Android, ni Chrome, ni applications Google) et visite exclusivement des pages web non-Google, le nombre de fois où les données sont communiquées aux serveurs de Google demeure encore étonnamment élevé. Cette communication est menée exclusivement par des services de l’annonceur/éditeur. Le nombre d’appels de ces services Google à partir d’un appareil iOS est similaire à ceux passés par un appareil Android. Dans notre expérience, la quantité totale de données communiquées aux serveurs Google à partir d’un appareil iOS est environ la moitié de ce qui est envoyé à partir d’un appareil Android.

g. Les identificateurs publicitaires (qui sont censés être « anonymisés » et collectent des données sur l’activité des applications et les visites des pages web tierces) peuvent être associés à l’identité d’un utilisateur ou utilisatrice de Google. Cela se produit par le transfert des informations d’identification depuis l’appareil Android vers les serveurs de Google. De même, le cookie ID DoubleClick (qui piste les activités des utilisateurs et utilisatrices sur les pages web d’un tiers) constitue un autre identificateur censé être anonymisé que Google peut associer à celui d’un compte personnel Google, si l’utilisateur accède à une application Google avec le navigateur déjà utilisé pour aller sur la page web externe. En définitive, nos conclusions sont que Google a la possibilité de connecter les données anonymes collectées par des moyens passifs avec les données personnelles de l’utilisateur.

  1. Google and Facebook tighten grip on US digital ad market,” eMarketer, 21 septembre 2017
  2. Market share or leading internet browsers in the United States and worldwide as of February 2018,” Statista, février 2018
  3. Global OS market share in sales to end users from 1st quarter 2009 to 2nd quarter 2017,” Statista, août 2017
  4. Worldwide desktop market share of leading search engines from January 2010 to October 2017,” Statista, février 2018
  5. Google 10K filings with the SEC, 2017
  6. Une liste des études antérieures ou nouvelles sur la collecte de données par Google figure dans l’appendice du document entier, pour l’instant en anglais
  7. My Activity,” Google
  8. Download your data,” Google
  9. Dave Burke, “Android : celebrating a big milestone together with you,” Google, 17 mai 2017
  10. Frederic Lardinois, “Google says there are now 2 billion active Chrome installs,” TechCrunch, 10 novembre 2016
  11. Google a récemment renommé sa régie publicitaire AdWords en “Google Ads” et DoubleClick devient “Google Ad Manager”
Suivre Framalang:

Framalang est le groupe de traduction bénévole et communautaire de Framasoft. Les membres traduisent des articles du monde du Libre à l'intention du public francophone. Pour participer à cette aventure, rejoignez notre liste de diffusion !

10 Responses

  1. Mimi

    Récemment, Google a publié un papier montrant qu’ils peuvent détecter les restaurants dangereux en voyant où ont passé du temps aux heures des repas les gens qui font des recherches concernant les problèmes gastriques et intestinaux. Je trouve ça plutôt sympa.

    • Phil

      Super ! Il paraît même qu’il savent même prédire quand tu seras enceinte avant que tu le saches. Sympa aussi ?

  2. NoComment

    Avec la dématérialisation, l’ouverture des données (pas très regardante sur le périmètre de cloisonnement) on va leur offrir bien plus que de simples ciblages publicitaires.

  3. Franck

    C’est un sujet aussi intéressant que flippant.
    Cela dit, ils sont tout de même nombreux les « je n’ai rien à cacher » (même si cette rengaine est presque systématiquement un aveu du contraire …) vis à vis des moteurs de recherche et autres invasifs en tous genres.

  4. Alexandre Hocquet

    C’est vraiment une bonne idée d’essayer d’en savoir plus sur ce qui se passe exactement pour éviter le plus possible de passer directement de « je n’ai rien à cacher » à « de toutes façons ils savent tout ».

    Par exemple, qu’est ce que ça change de naviguer en faisant attention de déconnecter son compte google?

    Autre exemple, je suis sur Lineage depuis récemment, j’en sais maintenant plus sur le recours des applis aux Google services. Google Maps refuse de fonctionner dans mon cas, ce qui me semble logique (et une bonne nouvelle) mais Google Translate marche. Quel est le niveau exact de recours aux Google Services des différentes applis Google ? Ce n’est manifestement pas exactement la même chose pour toutes.

  5. cclaire

    le soucis c’est que même en se protégeant de google, tu ne peux pas te protéger des autres
    donc t’es quand même tracer parce que ton pote a mis ton numéro dans ces contacts ou bien parce qu’il t’envoie des mails avec gmail bref …c’est impossible d’échapper à big brother sauf à vivre dans une grotte

  6. Alexandre Hocquet

    J’ai lu la framatraduction, j’ai regardé le pdf du « projet de recherche » (mis en scène par une agence de publicité!), j’ai lu les comms et j’ai même regardé le film « nothing to hide » . Je le redis une deuxième fois autrement :

    La tendance générale est au FUD, et le voeu de l’introduction, c’est à dire empêcher les gens de passer de « rien à cacher » à « de toutes façons ils savent tout » c’est très mal barré tant qu’on ne précisera pas les choses.

    Qu’est ce que ça change de déconnecter son compte google quand on navigue ?
    Qu’est ce que ça change de refuser les cookies ?
    Qu’est ce que ça change de cliquer sur do not track ?
    Qu’est ce que ça change de refuser la localisation par Wifi même Wifi éteint ?
    Qu’est ce que ça change d’installer un Lineage et de mettre un apk google dedans ? de mettre opengapps ? de mettre yalp ?

    On ne peut pas ? on ne sait pas ? ça sert à rien paskeu-c’est-imposiib-d’échapper-à-big-brother ?

    Tant qu’on enverra ce message qui mélange tout (corporate surveillance et state surveillance, navigation internet et téléphonie….), personne n’aura jamais envie de changer ses habitudes.

    Et cette étude « de l’université Vanderbilt » offerte par https://en.wikipedia.org/wiki/Digital_Content_Next avec ses références à l’Iphone (!) comme étude témoin, elle peut nous aider, mais il faudrait la critiquer aussi.

    • Goofy

      La publication de ces documents est destinée à susciter le débat. Alors n’hésite pas à répondre à ton gré aux nombreuses interrogations que tu lances ici, et si tu veux proposer une lecture critique de l’étude publiée, n’hésite pas non plus, les colonnes du Framablog sont ouvertes aux plumes invitées.

      • Alexandre Hocquet

        Je n’ai pas les réponses (et c’est pour ça que je pose les questions), mais je comprends aussi que les réponses ne viendront que petit à petit et collectivement (que la voie est libre, mais que la route est longue), et donc désolé si ma contrib avait l’air du bougon jamais content.
        J’ai peut être été atteint par l’ambiance générale FUD que suscite ce sujet. N’hésitez pas de votre côté à kutgw.