Linux trentenaire

Allez, pour changer un peu des articles qui dénoncent les GAFAM, Gee va plutôt faire un peu de célébration aujourd’hui. Car oui, le noyau Linux fête ses 30 ans !

(Bon okay, il va quand même un peu causer GAFAM sur la fin mais c’est par principe…)

Linux trentenaire

Joyeux trentième anniversaire à Linux !

Libriste casse-gonades : « Ah non non non ! On dit GNU/Linux, hein ! On l'a assez dit, hein, Linux, c'est juste le noyau, pas l'OS ! » Gee : « Oui non mais là justement, on ne parle pas de GNU, c'est bien le NOYAU qui a 30 ans. » Libriste : « Ah. Linux. » Gee : « Oui. Le noyau. » Libriste : « Je vois. » Gee : « Voilà. Du coup ce serait sympa de ne pas me péter les miens, de noyaux, dès la 1re image… »

Pour être précis, nous fêtons l’anniversaire de l’annonce du développement de Linux par un étudiant finlandais, un certain Linus Torvalds, le soir du 25 août 1991…

Linus en train de taper son fameux message sur un vieil ordinateur : « Je suis en train de faire un système d'exploitation gratuit.  Bon, c'est juste un passe-temps, ça ne sera pas gros et professionnel comme GNU. » Le gnou, agacé : « Je n'suis pas gros !  Je suis un peu packagé. » Le smiley : « Depuis, Linus aurait déclaré : “moi, les comparaisons, j'ai cessé.” »

La première version diffusée sera la 0.02, quelques semaines plus tard.

Gee, sifflotant : « Moi aussi, quand je diffuse un programme, je mets plein de zéros avant le premier chiffre pour bien signaler que c'est une ébauche de grosse daube codée avec les arpions entre le fromage et le dessert. Genre superflu-riteurnz-v0.0.0.0.0001- prealpha-draft-unstable.tar.gz

En 1992, le logiciel devient officiellement libre – il n’était alors que gratuit – en adoptant la licence GNU GPL, et la version 1.0.0 sort en mars 1994.

Tux : « 176 250 lignes de code, qu'est-ce que tu dis de ça ? » Le gnou : « L'autre se ramène avec son noyau monolithique et c'est moi qui me fais traiter de gros… » Tux : « Tiens d'ailleurs, ça avance, ton projet de micro-noyaux GNU Hurd ? » Le gnou : « Mais c'est qu'il me cherche, le piaf. » Tux : « Va donc, eh, gnunuche. » Une flèche point vers Tux : « (Tux, la mascotte, n'est techniquement apparue qu'en 1996, mais c'est pour l'illustration.à »

Eh oui, car à l’époque, deux systèmes d’exploitation libres existent déjà : le fameux projet GNU dont le noyau Hurd n’était pas encore fonctionnel, et le projet BSD de l’université de Berkeley alors empêtré dans un procès avec AT&T.

Beastie de BSD parle à un agent d'AT&T : « Mais puisqu'on vous dit qu'on n'utilise plus aucun code propriétaire de Unix ! » L'agent d'AT&T : « C'est c'qu'on verra au tribunal ! » Le gnou, en panique derrière son ordinateur : « Quel merdier, ce Hurd… À ce train-là, la v1 sera toujours pas sortie dans 25 ans*… » Tux, timide : « Euuuuh, moi j'suis dispo, sinon. »

Le gnou ignorait alors tout ce que cette déclaration avait de prophétique : aux dernières nouvelles, la version 0.9 de GNU Hurd est sortie en 2019.

C’est donc Linux qui tire son épingle du jeu, et naissent très vite les fameuses « distributions » Linux, qui associent le noyau Linux avec les utilitaires GNU, le système d’affichage X Window et bientôt des environnements de bureau comme Gnome ou KDE, des suites bureautiques, etc.

Le gnou, vexé : « Ouais ouais ouais, alors on va dire “distribution GNU/Linux”, hein ! » Tux, vexé aussi : « Si on va par là, on pourrait aussi dire GNU/Linux/X11/Gnome/etc. » Le gnou : « Peu importe : Linux, c'est qu'un noyau. » Tux : « Ouais, alors que Hurd, c'est que des pépins…  Et pan dans le museau. » Le smiley, excité : « BASTOOOOON ! »

30 ans après l’annonce de son lancement, Linux a-t-il réussi ? Demandons donc l’avis au verre à moitié plein / à moitié vide.

Le verre à moitié vide, blasé : « On estime la part des ordinateurs personnels tournant sous GNU/Linux à 3 %, autant dire que face à Microsoft et Apple, on n'fait pas le poids… » Le verre à moitié plein, heureux : « Linux fait tourner un tiers des serveurs mondiaux – BSD, libre aussi, en fait tourner un autre tiers – ainsi que la quasi-totalité des supercalculateurs, il est embarqué sur un paquet de box Internet, lecteurs blu-ray, liseuses, etc. Et il sert de base à Android, système qui équipe la grande majorité des smartphones. »

Tout dépend donc de notre façon de mesurer la « réussite ». D’un côté, Linux équipe aujourd’hui de nombreux équipements informatiques…

La Geekette : « Steve Ballmer, alors PDG de Microsoft, déclarait en 2001 que Linux était un cancer… » Le logo Windows, en panique : « Bah il avait pas tort, Linux a même fini par me contaminer moi, Windows, avec WSL ! »

… d’un autre, force est de constater que cette popularité s’est construite parfois bien loin des idéaux du projet GNU.

Gee, pensif : « Les fans de “l'open source” ont tourné le dos au “logiciel libre”, en ne voyant dans les licences libres qu'un moyen plus efficace de développer, et non un moyen d'assurer la liberté des utilisateurs et utilisatrices…  Donc okay, on peut se réjouir que Linux serve de base à Android, et en même temps il sert donc de base à un des systèmes les plus verrouillés du moment… » La pomme, logo d'Apple, agacée par cette remarque : « Hééééé ! » Gee : « J'ai dit “un des” ! » La pomme : « Ah.  Quand même.  J'ai une réputation à tenir, moi. »

Souhaitons, malgré ces bémols, un joyeux anniversaire à Linux, sans qui le visage du numérique actuel serait sans nul doute fort différent…

Tux, heureux avec un chapeau de fête et un verre de champagne à la main : « J'angoissais un peu de voir les 30 ans se rapprocher… » Gee, avec un chapeau de fête aussi, et trinquant avec son verre de champagne : « T'inquiète, c'est pire quand ils s'éloignent.  Allez, santé ! » Note : BD sous licence CC BY SA (grisebouille.net), dessinée le 2 septembre 2021 par Gee.

Crédit : Gee (Creative Commons By-Sa)




Aujourd’hui, les licences suffisent-elles ?

Frank Karlitschek est un développeur de logiciel libre, un entrepreneur et un militant pour le respect de la vie privée. Il a fondé les projets Nextcloud et ownCloud et il est également impliqué dans plusieurs autres projets de logiciels libres.

Il a publié le Manifeste des données utilisateurs dont nous avons tout récemment publié une traduction et il présente régulièrement des conférences. Il a pris la peine de résumer l’une d’elles qui porte sur les limites des licences libres et open source dans l’environnement numérique d’aujourd’hui.

Source : Open source is more than licenses

Traduction Framalang : swifter, goofy, Julien / Sphinx, Damien , Tykayn, Fabrice, Côme

L’open source, c’est plus que des licences

par Frank Karlitschek

Photo par Nextcloud (CC BY 3.0 via Wikimedia Commons)

Il y a quelques semaines, j’ai eu l’honneur de prononcer une conférence introductive aux Open Source Awards d’Édimbourg. J’ai décidé d’aborder un sujet dont je voulais parler depuis un bon bout de temps sans en avoir eu l’occasion jusqu’alors. Ma conférence n’a pas été filmée mais plusieurs personnes m’ont demandé d’en faire une synthèse. J’ai donc décidé de prendre un peu de mon temps libre dans un avion pour en faire un résumé dans le billet qui suit.

J’ai commencé à utiliser des ordinateurs et à écrire des logiciels au début des années 80 quand j’avais 10 ans. C’est à la même l’époque que Richard Stallman a écrit les 4 libertés, lancé le projet GNU, fondé la FSF et créé la GPL. Son idée était que les utilisateurs et les développeurs devraient avoir le contrôle de leur propre ordinateur, ce qui nécessite des logiciels libres. À l’époque, l’expérience informatique se résumait à un ordinateur personnel devant vous et, avec un peu de chance, les logiciels libres et open source qui s’y trouvaient.

L’équation était :

(matériel personnel) + (logiciel libre)

= (liberté numérique)

Depuis, le monde de l’informatique a changé et beaucoup évolué. Nous avons à présent accès à Internet partout, nous avons des ordinateurs dans les voitures, les télévisions, les montres et tous les autres appareils de l’Internet des Objets. Nous sommes en pleine révolution du tout mobile. Nous avons le Cloud computing (le fameux « nuage ») où le stockage des données et la puissance informatique sont partagés entre plusieurs Data centers (centre de données) possédés et contrôlés par plusieurs groupes et organisations à travers le monde. Nous avons un système de brevets très fort, les DRM, la signature de code et autres outils de cryptographie, les logiciels devenus des services, du matériel propriétaire, des réseaux sociaux et la puissance de l’effet réseau.

Dans son ensemble, le monde a beaucoup changé depuis les années 80. La majorité de la communauté du logiciel libre et de l’open source continue de se concentrer sur les licences logicielles. Je me demande si nous ne perdons pas une vue d’ensemble en limitant le mouvement du logiciel libre et open source aux seules questions des licences.

Richard Stallman souhaitait contrôler son ordinateur. Voyons la situation sur quelques-unes des grandes questions actuelles sur le contrôle numérique :

Facebook

Ces derniers temps, Facebook est sous le feu de nombreuses critiques : que ce soit les innombrables atteintes à la vie privée des utilisateurs, l’implication dans le truquage d’élections, le déclenchement d’un génocide en Birmanie, l’affaiblissement de la démocratie et beaucoup d’autres faits. Voyons si le logiciel libre pourrait résoudre ce problème :

Si Facebook publiait demain son code comme un logiciel libre et open source, notre communauté serait aux anges. Nous avons gagné ! Mais cela résoudrait-il pour autant un seul de ces problèmes ? Je ne peux pas exécuter Facebook sur mon ordinateur car je n’ai pas une grappe de serveurs Facebook. Quand bien même j’y arriverais, je serais bien isolé en étant le seul utilisateur. Donc le logiciel libre est important et génial mais il ne fournit pas de liberté ni de contrôle aux utilisateurs dans le cas de Facebook. Il faut plus que des licences libres.

Microsoft

J’entends de nombreuses personnes de la communauté du logiciel libre et open source se faire les chantres d’un Microsoft qui serait désormais respectable. Microsoft a changé sous la direction de son dernier PDG et ce n’est plus l’Empire du Mal. Ils intègrent désormais un noyau Linux dans Windows 10 et fournissent de nombreux outils libres et open source dans leurs conteneurs Linux sur le cloud Azure. Je pense qu’il s’agit là d’un véritable pas dans la bonne direction mais leurs solutions cloud bénéficient toujours de l’emprise la plus importante pour un éditeur : Windows 10 n’est pas gratuit et ne vous laisse pas de liberté. En réalité, aucun modèle économique open source n’est présent chez eux. Ils ne font qu’utiliser Linux et l’open source. Donc le fait que davantage de logiciels de l’écosystème Microsoft soient disponibles sous des licences libres ne donne pas pour autant davantage de libertés aux utilisateurs.

L’apprentissage automatique

L’apprentissage automatique est une nouvelle technologie importante qui peut être utilisée pour beaucoup de choses, qui vont de la reconnaissance d’images à celle de la voix en passant par les voitures autonomes. Ce qui est intéressant, c’est que le matériel et le logiciel seuls sont inutiles. Pour que l’apprentissage fonctionne, il faut des données pour ajuster l’algorithme. Ces données sont souvent l’ingrédient secret et très précieux nécessaire à une utilisation efficace de l’apprentissage automatique. Plus concrètement, si demain Tesla décidait de publier tous ses logiciels en tant que logiciels libres et que vous achetiez une Tesla pour avoir accès au matériel, vous ne seriez toujours pas en mesure d’étudier, de construire et d’améliorer la fonctionnalité de la voiture autonome. Vous auriez besoin des millions d’heures d’enregistrement vidéo et de données de conducteur pour rendre efficace votre réseau de neurones. En somme, le logiciel libre seul ne suffit pas à donner le contrôle aux utilisateurs.

5G

Le monde occidental débat beaucoup de la confiance à accorder à l’infrastructure de la 5G. Que savons-nous de la présence de portes dérobées dans les antennes-relais si elles sont achetées à Huawei ou à d’autres entreprises chinoises ? La communauté du logiciel libre et open source répond qu’il faudrait que le logiciel soit distribué sous une licence libre. Mais pouvons-nous vraiment vérifier que le code qui s’exécute sur cette infrastructure est le même que le code source mis à disposition ? Il faudrait pour cela avoir des compilations reproductibles, accéder aux clés de signature et de chiffrement du code ; l’infrastructure devrait récupérer les mises à jour logicielles depuis notre serveur de mise à jour et pas depuis celui du fabricant. La licence logicielle est importante mais elle ne vous donne pas un contrôle total et la pleine liberté.

Android

Android est un système d’exploitation mobile très populaire au sein de la communauté du logiciel libre. En effet, ce système est distribué sous une licence libre. Je connais de nombreux militants libristes qui utilisent une version personnalisée d’Android sur leur téléphone et n’installent que des logiciels libres depuis des plateformes telles que F-Droid. Malheureusement, 99 % des utilisateurs lambda ne bénéficient pas de ces libertés car leur téléphone ne peut pas être déverrouillé, car ils n’ont pas les connaissances techniques pour le faire ou car ils utilisent des logiciels uniquement disponibles sur le PlayStore de Google. Les utilisateurs sont piégés dans le monopole du fournisseur. Ainsi, le fait que le cœur d’Android est un logiciel libre ne donne pas réellement de liberté à 99 % de ses utilisateurs.

Finalement, quelle conclusion ?

Je pense que la communauté du logiciel libre et open source concernée par les 4 libertés de Stallman, le contrôle de sa vie numérique et la liberté des utilisateurs, doit étendre son champ d’action. Les licences libres sont nécessaires mais elles sont loin d’être encore suffisantes pour préserver la liberté des utilisateurs et leur garantir un contrôle de leur vie numérique.

La recette (matériel personnel) + (logiciel libre) = (liberté numérique) n’est plus valide.

Il faut davantage d’ingrédients. J’espère que la communauté du logiciel libre peut se réformer et le fera, pour traiter davantage de problématiques que les seules licences. Plus que jamais, le monde a besoin de personnes qui se battent pour les droits numériques et les libertés des utilisateurs.

symboles reliés par des opérateurs comme une équation : ordinateur + nuage open source + nuage de data + point d’inetrrogation = digital freedom
Image d’illustration de l’auteur pour ses diapos de conférence

 

 




Les données que récolte Google – Ch.7 et conclusion

Voici déjà la traduction du septième chapitre et de la brève conclusion de Google Data Collection, l’étude élaborée par l’équipe du professeur Douglas C. Schmidt, spécialiste des systèmes logiciels, chercheur et enseignant à l’Université Vanderbilt. Si vous les avez manqués, retrouvez les chapitres précédents déjà publiés.


Il s’agit cette fois-ci de tous les récents produits de Google (ou plutôt Alphabet) qui investissent nos pratiques et nos habitudes : des pages AMP aux fournisseurs de services tiers en passant par les assistants numériques, tout est prétexte à collecte de données directement ou non.

Traduction Framalang : Côme, Fabrice, goofy, Khrys, Piup, Serici

VII. Des produits avec un haut potentiel futur d’agrégation de données

83. Google a d’autres produits qui pourraient être adoptés par le marché et pourraient bientôt servir à la collecte de données, tels que AMP, Photos, Chromebook Assistant et Google Pay. Il faut ajouter à cela que Google est capable d’utiliser les données provenant de partenaires pour collecter les informations de l’utilisateur. La section suivante les décrit plus en détail.

84. Il existe également d’autres applications Google qui peuvent ne pas être largement utilisées. Toutefois, par souci d’exhaustivité, la collecte de données par leur intermédiaire est présentée dans la section VIIII.B de l’annexe.

A. Pages optimisées pour les mobiles (AMP)

85. Les Pages optimisées pour les mobiles (AMP) sont une initiative open source menée par Google pour réduire le temps de chargement des sites Web et des publicités. AMP convertit le HTML standard et le code JavaScript en une version simplifiée développée par Google1 qui stocke les pages validées dans un cache des serveurs du réseau Google pour un accès plus rapide2. AMP fournit des liens vers les pages grâce aux résultats de la recherche Google mais également via des applications tierces telles que LinkedIn et Twitter. D’après AMP : « L’ecosystème AMP compte 25 millions de domaines, plus de 100 fournisseurs de technologie et plateformes de pointe qui couvrent les secteurs de la publication de contenu, les publicités, le commerce en ligne, les petits commerces, le commerce local etc. »3

86. L’illustration 17a décrit les étapes menant à la fourniture d’une page AMP accessible via la recherche Google. Merci de noter que le fournisseur de contenu à travers AMP n’a pas besoin de fournir ses propres caches serveur, car c’est quelque chose que Google fournit pour garantir un délai optimal de livraison aux utilisateurs. Dans la mesure où le cache AMP est hébergé sur les serveurs de Google, lors d’un clic sur un lien AMP produit par la recherche Google, le nom de domaine vient du domaine google.com et non pas du domaine du fournisseur. Ceci est montré grâce aux captures prises lors d’un exemple de recherche de mots clés dans l’illustration 17b.

 

Illustration 17 : une page web normale qui devient une page AMP.
Illustration 17 : une page web normale qui devient une page AMP.

 

87. Les utilisateurs peuvent accéder au contenu depuis de multiples fournisseurs dont les articles apparaissent dans les résultats de recherche pendant qu’ils naviguent dans le carrousel AMP, tout en restant dans le domaine de Google. En effet, le cache AMP opère comme un réseau de distribution de contenu (RDC, ou CDN en anglais) appartenant à Google et géré par Google.

88. En créant un outil open source, complété avec un CDN, Google a attiré une large base d’utilisateurs à qui diffuser les sites mobiles et la publicité et cela constitue une quantité d’information significative (p.ex. le contenu lui-même, les pages vues, les publicités, et les informations de celui à qui ce contenu est fourni). Toutes ces informations sont disponibles pour Google parce qu’elles sont collectées sur les serveurs CDN de Google, fournissant ainsi à Google beaucoup plus de données que par tout autre moyen d’accès.

89. L’AMP est très centré sur l’utilisateur, c’est-à-dire qu’il offre aux utilisateurs une expérience de navigation beaucoup plus rapide et améliorée sans l’encombrement des fenêtres pop-up et des barres latérales. Bien que l’AMP représente un changement majeur dans la façon dont le contenu est mis en cache et transmis aux utilisateurs, la politique de confidentialité de Google associée à l’AMP est assez générale4. En particulier, Google est en mesure de recueillir des informations sur l’utilisation des pages Web (par exemple, les journaux de serveur et l’adresse IP) à partir des requêtes envoyées aux serveurs de cache AMP. De plus, les pages standards sont converties en AMP via l’utilisation des API AMP5. Google peut donc accéder à des applications ou à des sites Web (« clients API ») et utiliser toute information soumise par le biais de l’API conformément à ses politiques générales6.

90. Comme les pages Web ordinaires, les pages Web AMP pistent les données d’utilisation via Google Analytics et DoubleClick. En particulier, elles recueillent des informations sur les données de page (par exemple : domaine, chemin et titre de page), les données d’utilisateur (par exemple : ID client, fuseau horaire), les données de navigation (par exemple : ID et référence de page uniques), l’information du navigateur et les données sur les interactions et les événements7. Bien que les modes de collecte de données de Google n’aient pas changé avec l’AMP, la quantité de données recueillies a augmenté puisque les visiteurs passent 35 % plus de temps sur le contenu Web qui se charge avec Google AMP que sur les pages mobiles standard.8

B. Google Assistant

91. Google Assistant est un assistant personnel virtuel auquel on accède par le biais de téléphones mobiles et d’appareils dits intelligents. C’est un assistant virtuel populaire, comme Siri d’Apple, Alexa d’Amazon et Cortana de Microsoft. 9 Google Assistant est accessible via le bouton d’accueil des appareils mobiles sous Android 6.0 ou versions ultérieures. Il est également accessible via une application dédiée sur les appareils iOS10, ainsi que par l’intermédiaire de haut-parleurs intelligents, tel Google Home, qui offre de nombreuses fonctions telles que l’envoi de textes, la recherche de courriels, le contrôle de la musique, la recherche de photos, les réponses aux questions sur la météo ou la circulation, et le contrôle des appareils domestiques intelligents10.

92. Google collecte toutes les requêtes de Google Assistant, qu’elles soient audio ou saisies au clavier. Il collecte également l’emplacement où la requête a été effectuée. L’illustration 18 montre le contenu d’une requête enregistrée par Google. Outre son utilisation via les haut-parleurs  de Google Home, Google Assistant est activé sur divers autres haut-parleurs produits par des tiers (par exemple, les casques sans fil de Bose). Au total, Google Assistant est disponible sur plus de 400 millions d’appareils11. Google peut collecter des données via l’ensemble de ces appareils puisque les requêtes de l’Assistant passent par les serveurs de Google.

 

Figure 18 : Exemple de détails collectés à partir de la requête Google Assistant.
Figure 18 : Exemple de détails collectés à partir de la requête Google Assistant.

 

 

C. Photos

93. Google Photos est utilisé par plus de 500 millions de personnes dans le monde et stocke plus de 1,2 milliard de photos et vidéos chaque jour12. Google enregistre l’heure et les coordonnées GPS de chaque photo prise.Google télécharge des images dans le Google cloud et effectue une analyse d’images pour identifier un large éventail d’objets, tels que les modes de transport, les animaux, les logos, les points de repère, le texte et les visages13. Les capacités de détection des visages de Google permettent même de détecter les états émotionnels associés aux visages dans les photos téléchargées et stockées dans leur cloud13.

94. Google Photos effectue cette analyse d’image par défaut lors de l’utilisation du produit, mais ne fera pas de distinction entre les personnes, sauf si l’utilisateur donne l’autorisation à l’application14. Si un utilisateur autorise Google à regrouper des visages similaires, Google identifie différentes personnes à l’aide de la technologie de reconnaissance faciale et permet aux utilisateurs de partager des photos grâce à sa technologie de « regroupement de visages »1215. Des exemples des capacités de classification d’images de Google avec et sans autorisation de regroupement des visages de l’utilisateur sont présentés dans l’illustration 19. Google utilise Photos pour assembler un vaste ensemble d’informations d’identifications faciales, qui a récemment fait l’objet de poursuites judiciaires16 de la part de certains États.

Illustration : Exemple de reconnaissance d’images dans Google Photos.
Illustration : Exemple de reconnaissance d’images dans Google Photos.

 

D. Chromebook

95. Chromebook est la tablette-ordinateur de Google qui fonctionne avec le système d’exploitation Chrome (Chrome OS) et permet aux utilisateurs d’accéder aux applications sur le cloud. Bien que Chromebook ne détienne qu’une très faible part du marché des PC, il connaît une croissance rapide, en particulier dans le domaine des appareils informatiques pour la catégorie K-12, où il détenait 59,8 % du marché au deuxième trimestre 201717. La collecte de données de Chromebook est similaire à celle du navigateur Google Chrome, qui est décrite dans la section II.A. Chromebooks permet également aux cookies de Google et de domaines tiers de pister l’activité de l’utilisateur, comme pour tout autre ordinateur portable ou PC.

96. De nombreuses écoles de la maternelle à la terminale utilisent des Chromebooks pour accéder aux produits Google via son service GSuite for Education. Google déclare que les données recueillies dans le cadre d’une telle utilisation ne sont pas utilisées à des fins de publicité ciblée18. Toutefois, les étudiants reçoivent des publicités s’ils utilisent des services supplémentaires (tels que YouTube ou Blogger) sur les Chromebooks fournis par leur établissement d’enseignement.

E. Google Pay

97. Google Pay est un service de paiement numérique qui permet aux utilisateurs de stocker des informations de carte de crédit, de compte bancaire et de PayPal pour effectuer des paiements en magasin, sur des sites Web ou dans des applications utilisant Google Chrome ou un appareil Android connecté19. Pay est le moyen par lequel Google collecte les adresses et numéros de téléphone vérifiés des utilisateurs, car ils sont associés aux comptes de facturation. En plus des renseignements personnels, Pay recueille également des renseignements sur la transaction, comme la date et le montant de la transaction, l’emplacement et la description du marchand, le type de paiement utilisé, la description des articles achetés, toute photo qu’un utilisateur choisit d’associer à la transaction, les noms et adresses électroniques du vendeur et de l’acheteur, la description du motif de la transaction par l’utilisateur et toute offre associée à la transaction20. Google traite ses informations comme des informations personnelles en fonction de sa politique générale de confidentialité. Par conséquent il peut utiliser ces informations sur tous ses produits et services pour fournir de la publicité très ciblée20. Les paramètres de confidentialité de Google l’autorisent par défaut à utiliser ces données collectées21.

F. Données d’utilisateurs collectées auprès de fournisseurs de données tiers

98. Google collecte des données de tiers en plus des informations collectées directement à partir de leurs services et applications. Par exemple, en 2014, Google a annoncé qu’il commencerait à suivre les ventes dans les vrais commerces réels en achetant des données sur les transactions par carte de crédit et de débit. Ces données couvraient 70 % de toutes les opérations de crédit et de débit aux États-Unis22. Elles contenaient le nom de l’individu, ainsi que l’heure, le lieu et le montant de son achat23.

99. Les données de tiers sont également utilisées pour aider Google Pay, y compris les services de vérification, les informations résultant des transactions Google Pay chez les commerçants, les méthodes de paiement, l’identité des émetteurs de cartes, les informations concernant l’accès aux soldes du compte de paiement Google, les informations de facturation des opérateurs et transporteurs et les rapports des consommateurs20. Pour les vendeurs, Google peut obtenir des informations des organismes de crédit aux particuliers ou aux entreprises.

100. Bien que l’information des utilisateurs tiers que Google reçoit actuellement soit de portée limitée, elle a déjà attiré l’attention des autorités gouvernementales. Par exemple, la FTC a annoncé une injonction contre Google en juillet 2017 concernant la façon dont la collecte par Google de données sur les achats des consommateurs porte atteinte à la vie privée électronique24. L’injonction conteste l’affirmation de Google selon laquelle il peut protéger la vie privée des consommateurs tout au long du processus en utilisant son algorithme. Bien que d’autres mesures n’aient pas encore été prises, l’injonction de la FTC est un exemple des préoccupations du public quant à la quantité de données que Google recueille sur les consommateurs.

VIII. CONCLUSION

101. Google compte un pourcentage important de la population mondiale parmi ses clients directs, avec de multiples produits en tête de leurs marchés mondiaux et de nombreux produits qui dépassent le milliard d’utilisateurs actifs par mois. Ces produits sont en mesure de recueillir des données sur les utilisateurs au moyen d’une variété de techniques qui peuvent être difficiles à comprendre pour un utilisateur moyen. Une grande partie de la collecte de données de Google a lieu lorsque l’utilisateur n’utilise aucun de ses produits directement. L’ampleur d’une telle collecte est considérable, en particulier sur les appareils mobiles Android. Et bien que ces informations soient généralement recueillies sans identifier un utilisateur unique, Google a la possibilité d’utiliser les données recueillies auprès d’autres sources pour désanonymiser une telle collecte.




Les données que récolte Google – Ch.5

Voici déjà la traduction du cinquième chapitre de Google Data Collection, l’étude élaborée par l’équipe du professeur Douglas C. Schmidt, spécialiste des systèmes logiciels, chercheur et enseignant à l’Université Vanderbilt. Si vous les avez manqués, retrouvez les chapitres précédents déjà publiés.
Il s’agit cette fois d’explorer la quantité de données que Google collecte lorsque l’on a désactivé tout ce qui pouvait l’être…

Traduction Framalang : Khrys, Mika, Piup, David_m, Côme, Serici, Fabrice, Bullcheat, Goofy

V. Quantité de données collectées lors d’une utilisation minimale des produits Google

58. Cette section montre les détails de la collecte de données par Google à travers ses services de publication et d’annonces. Afin de comprendre une telle collecte de données, une expérience est réalisée impliquant un utilisateur qui se sert de son téléphone dans sa vie de tous les jours mais qui évite délibérément d’utiliser les produits Google (Search, Gmail, YouTube, Maps, etc.), exception faite du navigateur Chrome.

59. Pour que l’expérience soit aussi réaliste que possible, plusieurs études sur les usages de consommateurs2526 ont été utilisées pour créer le profil d’usage journalier d’un utilisateur lambda. Ensuite, toutes les interactions directes avec les services Google ont été retirées du profil. La section IX.F dans les annexes liste les sites internet et applications utilisés pendant l’expérience.

60. L’expérience a été reproduite sur des appareils Android et iOS et les données HTTPS envoyées aux serveurs Google et Apple ont été tracées et analysées en utilisant une méthode similaire à celle expliquée dans la section précédente. Les résultats sont résumés dans la figure 12. Pendant la période de 24 h (qui inclut la période de repos nocturne), la majorité des appels depuis le téléphone Android ont été effectués vers les services Google de localisation et de publication de publicités (DoubleClick, Analytics). Google a enregistré la géolocalisation de l’utilisateur environ 450 fois, ce qui représente 1,4 fois le volume de l’expérience décrite dans la section III.C, qui se basait sur un téléphone immobile.

comparaison des requêtes Google entre iOS et Android avec téléphone en mouvement

Figure 12 : Requêtes du téléphone portable durant une journée typique d’utilisation

61. Les serveurs de Google communiquent significativement moins souvent avec un appareil iPhone qu’avec Android (45 % moins). En revanche, le nombre d’appels aux régies publicitaires de Google reste les mêmes pour les deux appareils — un résultat prévisible puisque l’utilisation de pages web et d’applications tierces était la même sur chacun des périphériques. À noter, une différence importante est que l’envoi de données de géolocalisation à Google depuis un appareil iOS est pratiquement inexistant. En absence des plateformes Android et Chrome — ou de l’usage d’un des autres produits de Google — Google perd significativement sa capacité à pister la position des utilisateurs.

62. Le nombre total d’appels aux serveurs Apple depuis un appareil iOS était bien moindre, seulement 19 % des appels aux serveurs de Google depuis l’appareil Android. De plus, il n’y a pas d’appels aux serveurs d’Apple liés à la publicité, ce qui pourrait provenir du fait que le modèle économique d’Apple ne dépend pas autant de la publicité que celui de Google. Même si Apple obtient bien certaines données de localisation des utilisateurs d’appareil iOS, le volume de données collectées est bien moindre (16 fois moins) que celui collecté par Google depuis Android.

63. Au total, les téléphones Android ont communiqué 11.6 Mo de données par jour (environ 350 Mo par mois) avec les serveurs de Google. En comparaison, l’iPhone n’a envoyé que la moitié de ce volume. La quantité de données spécifiques aux régies publicitaires de Google est restée pratiquement identique sur les deux appareils.

64. L’appareil iPhone a communiqué bien moins de données aux serveurs Apple que l’appareil Android n’a échangé avec les serveurs Google.

65. De manière générale, même en l’absence d’interaction utilisateur avec les applications Google les plus populaires, un utilisateur de téléphone Android muni du navigateur Chrome a tout de même tendance à envoyer une quantité non négligeable de données à Google, dont la majorité est liée à la localisation et aux appels aux serveurs de publicité. Bien que, dans le cadre limité de cette expérience, un utilisateur d’iPhone soit protégé de la collecte des données de localisation par Google, Google recueille tout de même une quantité comparable de données liées à la publicité.

66. La section suivante décrit les données collectées par les applications les plus populaires de Google, telles que Gmail, Youtube, Maps et la recherche.




Les données que récolte Google – Ch.4

Voici déjà la traduction du quatrième chapitre de Google Data Collection, l’étude élaborée par l’équipe du professeur Douglas C. Schmidt, spécialiste des systèmes logiciels, chercheur et enseignant à l’Université Vanderbilt. Si vous les avez manqués, retrouvez les chapitres précédents déjà publiés.
Il s’agit cette fois d’explorer les stratégies des régies publicitaires qui opèrent en arrière-plan : des opérations fort discrètes mais terriblement efficaces…

Traduction Framalang : Côme, goofy, Khrys,Obny, Penguin, Piup, serici.

IV. Collecte de données par les outils des annonceurs et des diffuseurs

29. Une source majeure de collecte des données d’activité des utilisateurs provient des outils destinés au annonceurs et aux éditeurs tels que Google Analytics, DoubleClick, AdSense, AdWords et AdMob. Ces outils ont une portée énorme ; par exemple, plus d’un million d’applications mobiles utilisent AdMob27, plus d’un million d’annonceurs utilisent AdWords28, plus de 15 millions de sites internet utilisent AdSense29 et plus de 30 millions de sites utilisent Google Analytics30.

30. Au moment de la rédaction du présent rapport, Google a rebaptisé AdWords « Google Ads » et DoubleClick « Google Ad Manager« , mais aucune modification n’a été apportée aux fonctionnalités principales des produits, y compris la collecte d’informations par ces produits31. Par conséquent, pour les besoins du présent rapport, les premiers noms ont été conservés afin d’éviter toute confusion avec des noms de domaine connexes (tels que doubleclick.net).

31. Voici deux principaux groupes d’utilisateurs des outils de Google axés sur l’édition — et les annonces publicitaires :

  • Les éditeurs de sites web et d’applications, qui sont des organisations qui possèdent des sites web et créent des applications mobiles. Ces entités utilisent les outils de Google pour (1) gagner de l’argent en permettant l’affichage d’annonces aux visiteurs sur leurs sites web ou applications, et (2) mieux suivre et comprendre qui visite leurs sites et utilise leurs applications. Les outils de Google placent des cookies et exécutent des scripts dans les navigateurs des visiteurs du site web pour aider à déterminer l’identité d’un utilisateur et suivre son intérêt pour le contenu et son comportement en ligne. Les bibliothèques d’applications mobiles de Google suivent l’utilisation des applications sur les téléphones mobiles.
  • Les annonceurs, qui sont des organisations qui paient pour que des bannières, des vidéos ou d’autres publicités soient diffusées aux utilisateurs lorsqu’ils naviguent sur Internet ou utilisent des applications. Ces entités utilisent les outils de Google pour cibler des profils spécifiques de personnes pour que les publicités augmentent le retour sur leurs investissements marketing (les publicités mieux ciblées génèrent généralement des taux de clics et de conversion plus élevés). De tels outils permettent également aux annonceurs d’analyser leurs audiences et de mesurer l’efficacité de leur publicité numérique en regardant sur quelles annonces les utilisateurs cliquent et à quelle fréquence, et en donnant un aperçu du profil des personnes qui ont cliqué sur les annonces.

32. Ensemble, ces outils recueillent des informations sur les activités des utilisateurs sur les sites web et dans les applications, comme le contenu visité et les annonces cliquées. Ils travaillent en arrière-plan — en général imperceptibles par des utilisateurs. La figure 7 montre certains de ces outils clés, avec des flèches indiquant les données recueillies auprès des utilisateurs et les publicités qui leur sont diffusées.

Figure 7 : Produits Google destinés aux éditeurs et annonceurs32

33. Les informations recueillies par ces outils comprennent un identifiant non personnel que Google peut utiliser pour envoyer des publicités ciblées sans identifier les informations personnelles de la personne concernée. Ces identificateurs peuvent être spécifiques à l’appareil ou à la session, ainsi que permanents ou semi-permanents. Le tableau 1 liste un ensemble de ces identificateurs. Afin d’offrir aux utilisateurs un plus grand anonymat lors de la collecte d’informations pour le ciblage publicitaire, Google s’est récemment tourné vers l’utilisation d’identifiants uniques semi-permanents (par exemple, les GAID)33. Des sections ultérieures décrivent en détail la façon dont ces outils recueillent les données des utilisateurs et l’utilisation de ces identificateurs au cours du processus de collecte des données.

Tableau 1: Identificateurs transmis à Google

Identificateur Type Description
GAID/IDFA Semi-permanent Chaine de caractères alphanumériques pour appareils Android et iOS, pour permettre les publicités ciblées sur mobile. Réinitialisable par l’utilisateur.
ID client Semi-permanent ID créé la première fois qu’un cookie est stocké sur le navigateur. Utilisé pour relier les sessions de navigations. Réinitialisé lorsque les cookies du navigateur sont effacés.
Adresse IP Semi-permanent Une unique suite de nombre qui identifie le réseau par lequel un appareil accède à internet.
ID appareil Android Semi-permanent Nombre généré aléatoirement au premier démarrage d’un appareil. Utilisé pour identifier l’appareil. En retrait progressif pour la publicité. Réinitialisé lors d’une remise à zéro de l’appareil.
Google Services Framework (GSF) Semi-permanent Nombre assigné aléatoirement lorsqu’un utilisateur s’enregistre pour la première fois dans les services Google sur un appareil. Utilisé pour identifier un appareil unique. Réinitialisé lors d’une remise à zéro de l’appareil.
IEMI / MEID Permanent Identificateur utilisé dans les standards de communication mobile. Unique pour chaque téléphone portable.
Adresse MAC Permanent Identificateur unique de 12 caractères pour un élément matériel (ex. : routeur).
Numéro de série Permanent Chaine de caractères alphanumériques utilisée pour identifier un appareil.

A. Google Analytics et DoubleClick

34. DoubleClick et Google Analytics (GA) sont les produits phares de Google en matière de suivi du comportement des utilisateurs et d’analyse du trafic des pages Web sur les périphériques de bureau et mobiles. GA est utilisé par environ 75 % des 100 000 sites Web les plus visités34. Les cookies DoubleClick sont associés à plus de 1,6 million de sites Web35.

35. GA utilise de petits segments de code de traçage (appelés « balises de page ») intégrés dans le code HTML d’un site Web36. Après le chargement d’une page Web à la demande d’un utilisateur, le code GA appelle un fichier analytics.js qui se trouve sur les serveurs de Google. Ce programme transfère un instantané « par défaut » des données de l’utilisateur à ce moment, qui comprend l’adresse de la page web visitée, le titre de la page, les informations du navigateur, l’emplacement actuel (déduit de l’adresse IP), et les paramètres de langue de l’utilisateur. Les scripts de GA utilisent des cookies pour suivre le comportement des utilisateurs.

36. Le script de GA, la première fois qu’il est exécuté, génère et stocke un cookie spécifique au navigateur sur l’ordinateur de l’utilisateur. Ce cookie a un identificateur de client unique (voir le tableau 1 pour plus de détails)37 Google utilise l’identificateur unique pour lier les cookies précédemment stockés, qui capturent l’activité d’un utilisateur sur un domaine particulier tant que le cookie n’expire pas ou que l’utilisateur n’efface pas les cookies mis en cache dans son navigateur37

37. Alors qu’un cookie GA est spécifique au domaine particulier du site Web que l’utilisateur visite (appelé « cookie de première partie »), un cookie DoubleClick est généralement associé à un domaine tiers commun (tel que doubleclick.net). Google utilise de tels cookies pour suivre l’interaction de l’utilisateur sur plusieurs sites web tiers38 Lorsqu’un utilisateur interagit avec une publicité sur un site web, les outils de suivi de conversion de DoubleClick (par exemple, Floodlight) placent des cookies sur l’ordinateur de l’utilisateur et génèrent un identifiant client unique39 Par la suite, si l’utilisateur visite le site web annoncé, le serveur DoubleClick accède aux informations stockées dans le cookie, enregistrant ainsi la visite comme une conversion valide.

B. AdSense, AdWords et AdMob

38. AdSense et AdWords sont des outils de Google qui diffusent des annonces sur les sites Web et dans les résultats de recherche Google, respectivement. Plus de 15 millions de sites Web ont installé AdSense pour afficher des annonces sponsorisées29 De même, plus de 2 millions de sites web et applications, qui constituent le réseau Google Display Network (GDN) et touchent plus de 90 % des internautes40 affichent des annonces AdWords.

39. AdSense collecte des informations indiquant si une annonce a été affichée ou non sur la page web de l’éditeur. Il recueille également la façon dont l’utilisateur a interagi avec l’annonce, par exemple en cliquant sur l’annonce ou en suivant le mouvement du curseur sur l’annonce41. AdWords permet aux annonceurs de diffuser des annonces de recherche sur Google Search, d’afficher des annonces sur les pages des éditeurs et de superposer des annonces sur des vidéos YouTube. Pour suivre les taux de clics et de conversion des utilisateurs, les publicités AdWords placent un cookie sur les navigateurs des utilisateurs pour identifier l’utilisateur s’il visite par la suite le site web de l’annonceur ou s’il effectue un achat42.

40. Bien qu’AdSense et AdWords recueillent également des données sur les appareils mobiles, leur capacité d’obtenir des renseignements sur les utilisateurs des appareils mobiles est limitée puisque les applications mobiles ne partagent pas de cookies entre elles, une technique d’isolement appelée « bac à sable »43 qui rend difficile pour les annonceurs de suivre le comportement des utilisateurs entre différentes applications mobiles.

41 Pour résoudre ce problème, Google et d’autres entreprises utilisent des « bibliothèques d’annonces » mobiles (comme AdMob) qui sont intégrées dans les applications par leurs développeurs pour diffuser des annonces dans les applications mobiles. Ces bibliothèques compilent et s’exécutent avec les applications et envoient à Google des données spécifiques à l’application à laquelle elles sont intégrées, y compris les emplacements GPS, la marque de l’appareil et le modèle de l’appareil lorsque les applications ont les autorisations appropriées. Comme on peut le voir dans les analyses de trafic de données (Figure 8), et comme on peut trouver confirmation sur les propres pages web des développeurs de Google44, de telles bibliothèques peuvent également envoyer des données personnelles de l’utilisateur, telles que l’âge et le genre, tout cela va vers Google à chaque fois que les développeurs d’applications envoient explicitement leurs valeurs numériques vers la bibliothèque.

Figure 8 : Aperçu des informations renvoyées à Google lorsqu’une application est lancée

C. Association de données recueillies passivement et d’informations à caractère personnel

42. Comme nous l’avons vu plus haut, Google recueille des données par l’intermédiaire de produits pour éditeurs et annonceurs, et associe ces données à une variété d’identificateurs semi-permanents et anonymes. Google a toutefois la possibilité d’associer ces identifiants aux informations personnelles d’un utilisateur. C’est ce qu’insinuent les déclarations faites dans la politique de confidentialité de Google, dont des extraits sont présentés à la figure 9. La zone de texte à gauche indique clairement que Google peut associer des données provenant de services publicitaires et d’outils d’analyse aux informations personnelles d’un utilisateur, en fonction des paramètres du compte de l’utilisateur. Cette disposition est activée par défaut, comme indiqué dans la zone de texte à droite.

Figure 9 : Page de confidentialité de Google pour la collecte de sites web tiers et l’association avec des informations personnelles4546.

43. De plus, une analyse du trafic de données échangé avec les serveurs de Google (résumée ci-dessous) a permis d’identifier deux exemples clés (l’un sur Android et l’autre sur Chrome) qui montrent la capacité de Google à corréler les données recueillies de façon anonyme avec les renseignements personnels des utilisateurs.

1) L’identificateur de publicité mobile peut être désanonymé grâce aux données envoyées à Google par Android.

44. Les analyses du trafic de données communiqué entre un téléphone Android et les domaines de serveur Google suggèrent un moyen possible par lequel des identifiants anonymes (GAID dans ce cas) peuvent être associés au compte Google d’un utilisateur. La figure 10 décrit ce processus en une série de trois étapes clés.

45. Dans l’étape 1, une donnée de check-in est envoyée à l’URL android.clients.google.com/checkin. Cette communication particulière fournit une synchronisation de données Android aux serveurs Google et contient des informations du journal Android (par exemple, du journal de récupération), des messages du noyau, des crash dumps, et d’autres identifiants liés au périphérique. Un instantané d’une demande d’enregistrement partiellement décodée envoyée au serveur de Google à partir d’Android est montré en figure 10.

Figure 10 : Les identifiants d’appareil sont envoyés avec les informations de compte dans les requêtes de vérification Android.

46. Comme l’indiquent les zones pointées, Android envoie à Google, au cours du processus d’enregistrement, une variété d’identifiants permanents importants liés à l’appareil, y compris l’adresse MAC de l’appareil, l’IMEI /MEID et le numéro de série du dispositif. En outre, ces demandes contiennent également l’identifiant Gmail de l’utilisateur Android, ce qui permet à Google de relier les informations personnelles d’un utilisateur aux identifiants permanents des appareils Android.

47. À l’étape 2, le serveur de Google répond à la demande d’enregistrement. Ce message contient un identifiant de cadre de services Google (GSF ID)47 qui est similaire à l’« Android ID »48 (voir le tableau 1 pour les descriptions).

48. L’étape 3 implique un autre cas de communication où le même identifiant GSF (de l’étape 2) est envoyé à Google en même temps que le GAID. La figure 10 montre l’une de ces transmissions de données à android.clients.google.com/fdfe/bulkDetails?au=1.

49. Grâce aux trois échanges de données susmentionnés, Google reçoit les informations nécessaires pour connecter un GAID avec des identifiants d’appareil permanents ainsi que les identifiants de compte Google des utilisateurs.

50. Ces échanges de données interceptés avec les serveurs de Google à partir d’un téléphone Android montrent comment Google peut connecter les informations anonymisées collectées sur un appareil mobile Android via les outils DoubleClick, Analytics ou AdMob avec l’identité personnelle de l’utilisateur. Au cours de la collecte de données sur 24 heures à partir d’un téléphone Android sans mouvement ni activité, deux cas de communications d’enregistrement avec des serveurs Google ont été observés. Une analyse supplémentaire est toutefois nécessaire pour déterminer si un tel échange d’informations a lieu avec une certaine périodicité ou s’il est déclenché par des activités spécifiques sur les téléphones.

2) L’ID du cookie DoubleClick est relié aux informations personnelles de l’utilisateur sur le compte Google.

51. La section précédente expliquait comment Google peut désanonymiser l’identité de l’utilisateur via les données passives et anonymisées qu’il collecte à partir d’un appareil mobile Android. Cette section montre comment une telle désanonymisation peut également se produire sur un ordinateur de bureau/ordinateur portable.

52. Les données anonymisées sur les ordinateurs de bureau et portables sont collectées par l’intermédiaire d’identifiants basés sur des cookies (par ex. Cookie ID), qui sont typiquement générés par les produits de publicité et d’édition de Google (par ex. DoubleClick) et stockés sur le disque dur local de l’utilisateur. L’expérience présentée ci-dessous a permis d’évaluer si Google peut établir un lien entre ces identificateurs (et donc les renseignements qui y sont associés) et les informations personnelles d’un utilisateur.
Cette expérience comportait les étapes ordonnées suivantes :

  1. Ouverture d’une nouvelle session de navigation (Chrome ou autre) (pas de cookies enregistrés, par exemple navigation privée ou incognito) ;
  2. Visite d’un site Web tiers qui utilisait le réseau publicitaire DoubleClick de Google ;
  3. Visite du site Web d’un service Google largement utilisé (Gmail dans ce cas) ;
  4. Connexion à Gmail.

53. Au terme des étapes 1 et 2, dans le cadre du processus de chargement des pages, le serveur DoubleClick a reçu une demande lorsque l’utilisateur a visité pour la première fois le site Web tiers. Cette demande faisait partie d’une série de reqêtes comprenant le processus d’initialisation DoubleClick lancé par le site Web de l’éditeur, qui a conduit le navigateur Chrome à installer un cookie pour le domaine DoubleClick. Ce cookie est resté sur l’ordinateur de l’utilisateur jusqu’à son expiration ou jusqu’à ce que l’utilisateur efface manuellement les cookies via les paramètres du navigateur.

54. Ensuite, à l’étape 3, lorsque l’utilisateur visite Gmail, il est invité à se connecter avec ses identifiants Google. Google gère l’identité à l’aide d’une architecture single sign on (SSO) [NdT : authentification unique], dans laquelle les identifiants sont fournis à un service de compte (ici accounts.google.com) en échange d’un « jeton d’authentification », qui peut ensuite être présenté à d’autres services Google pour identifier les utilisateurs. À l’étape 4, lorsqu’un utilisateur accède à son compte Gmail, il se connecte effectivement à son compte Google, qui fournit alors à Gmail un jeton d’autorisation pour vérifier l’identité de l’utilisateur.49 Ce processus est décrit à la figure 24 de la section IX.E de l’annexe.

55. Dans la dernière étape de ce processus de connexion, une requête est envoyée au domaine DoubleClick. Cette requête contient à la fois le jeton d’authentification fourni par Google et le cookie de suivi défini lorsque l’utilisateur a visité le site web tiers à l’étape 2 (cette communication est indiquée à la figure 11). Cela permet à Google de relier les informations d’identification Google de l’utilisateur à un cookie DoubleClick. Par conséquent, si les utilisateurs n’effacent pas régulièrement les cookies de leur navigateur, leurs informations de navigation sur les pages Web de tiers qui utilisent les services DoubleClick pourraient être associées à leurs informations personnelles sur Google Account.

Figure 11 : La requête à DoubleClick.net inclut le jeton d’authentification Google et les cookies passés.

56. Il est donc établi à présent que Google recueille une grande variété de données sur les utilisateurs par l’intermédiaire de ses outils d’éditeur et d’annonceur, sans que l’utilisateur en ait une connaissance directe. Bien que ces données soient collectées à l’aide d’identifiants anonymes, Google a la possibilité de relier ces informations collectées aux identifiants personnels de l’utilisateur stockés sur son compte Google.

57. Il convient de souligner que la collecte passive de données d’utilisateurs de Google à partir de pages web tierces ne peut être empêchée à l’aide d’outils populaires de blocage de publicité50, car ces outils sont conçus principalement pour empêcher la présence de publicités pendant que les utilisateurs naviguent sur des pages web tierces51. La section suivante examine de plus près l’ampleur de cette collecte de données.




Les données que récolte Google – Ch.3

Voici déjà la traduction du troisième chapitre de Google Data Collection, l’étude élaborée par l’équipe du professeur Douglas C. Schmidt, spécialiste des systèmes logiciels, chercheur et enseignant à l’Université Vanderbilt. Si vous les avez manqués, retrouvez les chapitres précédents déjà publiés.

Il s’agit aujourd’hui de mesurer ce que les plateformes les plus populaires recueillent de nos smartphones

Traduction Framalang : Côme, goofy, Khrys, Mika, Piup. Remerciements particuliers à badumtss qui a contribué à la traduction de l’infographie.

La collecte des données par les plateformes Android et Chrome

11. Android et Chrome sont les plateformes clés de Google qui facilitent la collecte massive de données des utilisateurs en raison de leur grande portée et fréquence d’utilisation. En janvier 2018, Android détenait 53 % du marché américain des systèmes d’exploitation mobiles (iOS d’Apple en détenait 45 %)52 et, en mai 2017, il y avait plus de 2 milliards d’appareils Android actifs par mois dans le monde.53

12. Le navigateur Chrome de Google représentait plus de 60 % de l’utilisation mondiale de navigateurs Internet avec plus d’un milliard d’utilisateurs actifs par mois, comme l’indiquait le rapport Q4 10K de 201754. Les deux plateformes facilitent l’usage de contenus de Google et de tiers (p.ex. applications et sites tiers) et fournissent donc à Google un accès à un large éventail d’informations personnelles, d’activité web, et de localisation.

A. Collecte d’informations personnelles et de données d’activité

13. Pour télécharger et utiliser des applications depuis le Google Play Store sur un appareil Android, un utilisateur doit posséder (ou créer) un compte Google, qui devient une passerelle clé par laquelle Google collecte ses informations personnelles, ce qui comporte son nom d’utilisateur, son adresse de messagerie et son numéro de téléphone. Si un utilisateur s’inscrit à des services comme Google Pay55, Android collecte également les données de la carte bancaire, le code postal et la date de naissance de l’utilisateur. Toutes ces données font alors partie des informations personnelles de l’utilisateur associées à son compte Google.

14. Alors que Chrome n’oblige pas le partage d’informations personnelles supplémentaires recueillies auprès des utilisateurs, il a la possibilité de récupérer de telles informations. Par exemple, Chrome collecte toute une gamme d’informations personnelles avec la fonctionnalité de remplissage automatique des formulaires, qui incluent typiquement le nom d’utilisateur, l’adresse, le numéro de téléphone, l’identifiant de connexion et les mots de passe.56 Chrome stocke les informations saisies dans les formulaires sur le disque dur de l’utilisateur. Cependant, si l’utilisateur se connecte à Chrome avec un compte Google et active la fonctionnalité de synchronisation, ces informations sont envoyées et stockées sur les serveurs de Google. Chrome pourrait également apprendre la ou les langues que parle la personne avec sa fonctionnalité de traduction, activée par défaut.57

15. En plus des données personnelles, Chrome et Android envoient tous deux à Google des informations concernant les activités de navigation et l’emploi d’applications mobiles, respectivement. Chaque visite de page internet est automatiquement traquée et collectée par Google si l’utilisateur a un compte Chrome. Chrome collecte également son historique de navigation, ses mots de passe, les permissions particulières selon les sites web, les cookies, l’historique de téléchargement et les données relatives aux extensions.58

16. Android envoie des mises à jour régulières aux serveurs de Google, ce qui comprend le type d’appareil, le nom de l’opérateur, les rapports de bug et des informations sur les applications installées59. Il avertit également Google chaque fois qu’une application est ouverte sur le téléphone (ex. Google sait quand un utilisateur d’Android ouvre son application Uber).

B. Collecte des données de localisation de l’utilisateur

17. Android et Chrome collectent méticuleusement la localisation et les mouvements de l’utilisateur en utilisant une variété de sources, représentées sur la figure 3. Par exemple, un accès à la « localisation approximative » peut être réalisé en utilisant les coordonnées GPS sur un téléphone Android ou avec l’adresse IP sur un ordinateur. La précision de la localisation peut être améliorée (« localisation précise ») avec l’usage des identifiants des antennes cellulaires environnantes ou en scannant les BSSID (’’Basic Service Set IDentifiers’’), identifiants assignés de manière unique aux puces radio des points d’accès Wi-Fi présents aux alentours60. Les téléphones Android peuvent aussi utiliser les informations des balises Bluetooth enregistrées dans l’API Proximity Beacon de Google61. Ces balises non seulement fournissent les coordonnées de géolocalisation de l’utilisateur, mais pourraient aussi indiquer à quel étage exact il se trouve dans un immeuble.62

schéma représentatt les différents moyens (wifi, bluetooth) de localiser les données d’un utilisateur de smartphone
Figure 3 : Android et Chrome utilisent diverses manières de localiser l’utilisateur d’un téléphone.

 

18. Il est difficile pour un utilisateur de téléphone Android de refuser le traçage de sa localisation. Par exemple, sur un appareil Android, même si un utilisateur désactive le Wi-Fi, la localisation est toujours suivie par son signal Wi-Fi. Pour éviter un tel traçage, le scan Wi-Fi doit être explicitement désactivé par une autre action de l’utilisateur, comme montré sur la figure 4.

2 copies d’écran de paramètres d’android pour montrer que le wifi est toujours sacnné même s’il est désactivé
Figure 4 : Android collecte des données même si le Wi-Fi est éteint par l’utilisateur

 

19. L’omniprésence de points d’accès Wi-Fi a rendu le traçage de localisation assez fréquent. Par exemple, durant une courte promenade de 15 minutes autour d’une résidence, un appareil Android a envoyé neuf requêtes de localisation à Google. Les requêtes contenaient au total environ 100 BSSID de points d’accès Wi-Fi publics et privés.

20. Google peut vérifier avec un haut degré de confiance si un utilisateur est immobile, s’il marche, court, fait du vélo, ou voyage en train ou en car. Il y parvient grâce au traçage à intervalles de temps réguliers de la localisation d’un utilisateur Android, combiné avec les données des capteurs embarqués (comme l’accéléromètre) sur les téléphones mobiles. La figure 5 montre un exemple de telles données communiquées aux serveurs de Google pendant que l’utilisateur marchait.

code renvoyé aux serveurs : la localisation d’un utilisateur
Figure 5 : capture d’écran d’un envoi de localisation d’utilisateur à Google.

 

C. Une évaluation de la collecte passive de données par Google via Android et Chrome

21. Les données actives que les plateformes Android ou Chrome collectent et envoient à Google à la suite des activités des utilisateurs sur ces plateformes peuvent être évaluées à l’aide des outils MyActivity et Takeout. Les données passives recueillies par ces plateformes, qui vont au-delà des données de localisation et qui restent relativement méconnues des utilisateurs, présentent cependant un intérêt potentiellement plus grand. Afin d’évaluer plus en détail le type et la fréquence de cette collecte, une expérience a été menée pour surveiller les données relatives au trafic envoyées à Google par les téléphones mobiles (Android et iPhone) en utilisant la méthode décrite dans la section IX.D de l’annexe. À titre de comparaison, cette expérience comprenait également l’analyse des données envoyées à Apple via un appareil iPhone.

22. Pour des raisons de simplicité, les téléphones sont restés stationnaires, sans aucune interaction avec l’utilisateur. Sur le téléphone Android, une seule session de navigateur Chrome restait active en arrière-plan, tandis que sur l’iPhone, le navigateur Safari était utilisé. Cette configuration a permis une analyse systématique de la collecte de fond que Google effectue uniquement via Android et Chrome, ainsi que de la collecte qui se produit en l’absence de ceux-ci (c’est-à-dire à partir d’un appareil iPhone), sans aucune demande de collecte supplémentaire générée par d’autres produits et applications (par exemple YouTube, Gmail ou utilisation d’applications).

23. La figure 6 présente un résumé des résultats obtenus dans le cadre de cette expérience. L’axe des abscisses indique le nombre de fois où les téléphones ont communiqué avec les serveurs Google (ou Apple), tandis que l’axe des ordonnées indique le type de téléphone (Android ou iPhone) et le type de domaine de serveur (Google ou Apple) avec lequel les paquets de données ont été échangés par les téléphones. La légende en couleur décrit la catégorisation générale du type de demandes de données identifiées par l’adresse de domaine du serveur. Une liste complète des adresses de domaine appartenant à chaque catégorie figure dans le tableau 5 de la section IX.D de l’annexe.

24. Au cours d’une période de 24 heures, l’appareil Android a communiqué environ 900 échantillons de données à une série de terminaux de serveur Google. Parmi ceux-ci, environ 35 % (soit environ 14 par heure) étaient liés à la localisation. Les domaines publicitaires de Google n’ont reçu que 3 % du trafic, ce qui est principalement dû au fait que le navigateur mobile n’a pas été utilisé activement pendant la période de collecte. Le reste (62 %) des communications avec les domaines de serveurs Google se répartissaient grosso modo entre les demandes adressées au magasin d’applications Google Play, les téléchargements par Android de données relatives aux périphériques (tels que les rapports de crash et les autorisations de périphériques), et d’autres données — principalement de la catégorie des appels et actualisations de fond des services Google.

infographie exposant les proportions de trafic envoyé par les appareils divers vers les serveurs de Google
Figure 6 : Données sur le trafic envoyées par les appareils Andoid et les iPhones en veille.

 

25. La figure 6 montre que l’appareil iPhone communiquait avec les domaines Google à une fréquence inférieure de plus d’un ordre de grandeur (50 fois) à celle de l’appareil Android, et que Google n’a recueilli aucun donnée de localisation utilisateur pendant la période d’expérience de 24 heures via iPhone. Ce résultat souligne le fait que les plateformes Android et Chrome jouent un rôle important dans la collecte de données de Google.

26. De plus, les communications de l’appareil iPhone avec les serveurs d’Apple étaient 10 fois moins fréquentes que les communications de l’appareil Android avec Google. Les données de localisation ne représentaient qu’une très faible fraction (1 %) des données nettes envoyées aux serveurs Apple à partir de l’iPhone, Apple recevant en moyenne une fois par jour des communications liées à la localisation.

27. En termes d’amplitude, les téléphones Android communiquaient 4,4 Mo de données par jour (130 Mo par mois) avec les serveurs Google, soit 6 fois plus que ce que les serveurs Google communiquaient à travers l’appareil iPhone.

28. Pour rappel, cette expérience a été réalisée à l’aide d’un téléphone stationnaire, sans interaction avec l’utilisateur. Lorsqu’un utilisateur commence à bouger et à interagir avec son téléphone, la fréquence des communications avec les serveurs de Google augmente considérablement. La section V du présent rapport résume les résultats d’une telle expérience.

 




Ce que récolte Google : revue de détail

Le temps n’est plus où il était nécessaire d’alerter sur la prédation opérée par Google et ses nombreux services sur nos données personnelles. Il est fréquent aujourd’hui d’entendre dire sur un ton fataliste : « de toute façon, ils espionnent tout »

Si beaucoup encore proclament à l’occasion « je n’ai rien à cacher » c’est moins par conviction réelle que parce que chacun en a fait l’expérience : « on ne peut rien cacher » dans le monde numérique. Depuis quelques années, les mises en garde, listes de précautions à prendre et solutions alternatives ont été largement exposées, et Framasoft parmi d’autres y a contribué.

Il manquait toutefois un travail de fond pour explorer et comprendre, une véritable étude menée suivant la démarche universitaire et qui, au-delà du jugement global approximatif, établisse les faits avec précision.

C’est à quoi s’est attelée l’équipe du professeur Douglas C. Schmidt, spécialiste depuis longtemps des systèmes logiciels, chercheur et enseignant à l’Université Vanderbilt, qui livre au public une étude d’une cinquantaine de pages intitulée Google Data Collection. Cette étude, qui nous semble pouvoir servir de référence, a retenu l’attention du groupe Framalang qui vous en livre ci-dessous l’executive summary, c’est-à-dire une sorte de résumé initial, qui en donne un aperçu programmatique.

Si vous trouvez un intérêt à cette traduction et souhaitez que Framalang vous propose la suite nous ferons de notre mieux…

Traduction Framalang : Alain, fab, FranBAG, Goofy, jums, Khrys, Mika, Piup, serici

La collecte de données de Google

Un premier aperçu

1.
Google est la plus grosse agence de publicité numérique du monde 63. Elle fournit aussi le leader des navigateurs web 64, la première plateforme mobile 65 ainsi que le moteur de recherche le plus utilisé au monde 66. La plateforme vidéo de Google, ses services de mail et de cartographie comptent 1 milliard d’utilisateurs mensuels actifs chacun 67. Google utilise l’immense popularité de ses produits pour collecter des données détaillées sur le comportement des utilisateurs en ligne comme dans la vie réelle, données qu’il utilisera ensuite pour cibler ses utilisateurs avec de la publicité payante. Les revenus de Google augmentent significativement en fonction de la finesse des technologies de ciblage des données.

2.
Google collecte les données utilisateurs de diverses manières. Les plus évidentes sont « actives », celles dans lesquelles l’utilisateur donne
directement et consciemment des informations à Google, par exemple en s’inscrivant à des applications très populaires telles que YouTube, Gmail, ou le moteur de recherche. Les voies dites « passives » utilisées par Google pour collecter des données sont plus discrètes, quand une application devient pendant son utilisation l’instrument de la collecte des données, sans que l’utilisateur en soit conscient. On trouve ces méthodes de collecte dans les plateformes (Android, Chrome), les applications (le moteur de recherche, YouTube, Maps), des outils de publication (Google Analytics, AdSense) et de publicité (AdMob, AdWords). L’étendue et l’ampleur de la collecte passive de données de Google ont été en grande partie négligées par les études antérieures sur le sujet 68.

3.
Pour comprendre les données que Google collecte, cette étude s’appuie sur quatre sources clefs :
a. Les outils Google « Mon activité » (My Activity) 69 et « Téléchargez vos données » (Takeout) 70, qui décrivent aux utilisateurs l’information collectée lors de l’usage des outils Google.
b. Les données interceptées lors de l’envoi aux serveurs de Google pendant l’utilisation des produits Google ou d’autres sociétés associées.
c. Les règles concernant la vie privée (des produits Google spécifiquement ou en général).
d. Des recherches tierces qui ont analysé les collectes de données opérées par Google.

Histoire naturelle, générale et particulière, des mollusques, animaux sans vertèbres et à sang blanc. T.2. Paris,L’Imprimerie de F. Dufart,An X-XIII [1802-1805]. biodiversitylibrary.org/page/35755415

4.
Au travers de la combinaison des sources ci-dessus, cette étude montre une vue globale et exhaustive de l’approche de Google concernant la collecte des données et aborde en profondeur certains types d’informations collectées auprès des utilisateurs et utilisatrices.
Cette étude met en avant les éléments clés suivants :

a. Dans une journée d’utilisation typique, Google en apprend énormément sur les intérêts personnels de ses utilisateurs. Dans ce scénario d’une journée « classique », où un utilisateur réel avec un compte Google et un téléphone Android (avec une nouvelle carte SIM) suit sa routine quotidienne, Google collecte des données tout au long des différentes activités, comme la localisation, les trajets empruntés, les articles achetés et la musique écoutée. De manière assez surprenante, Google collecte ou infère plus de deux tiers des informations via des techniques passives. Au bout du compte, Google a identifié les intérêts des utilisateurs avec une précision remarquable.

b. Android joue un rôle majeur dans la collecte des données pour Google, avec plus de 2 milliards d’utilisateurs actifs mensuels dans le monde 71. Alors que le système d’exploitation Android est utilisé par des fabricants d’équipement d’origine (FEO) partout dans le monde, il est étroitement connecté à l’écosystème Google via le service Google Play. Android aide Google à récolter des informations personnelles sur les utilisateurs (nom, numéro de téléphone, date de naissance, code postal et dans beaucoup de cas le numéro de carte bancaire), les activités réalisées sur le téléphone (applications utilisées, sites web consultés) et les coordonnées de géolocalisation. En coulisses, Android envoie fréquemment la localisation de l’utilisateur ainsi que des informations sur l’appareil lui-même, comme sur l’utilisation des applications, les rapports de bugs, la configuration de l’appareil, les sauvegardes et différents identifiants relatifs à l’appareil.

c. Le navigateur Chrome aide Google à collecter des données utilisateurs depuis à la fois le téléphone et l’ordinateur de bureau, grâce à quelque 2 milliards d’installations dans le monde 72. Le navigateur Chrome collecte des informations personnelles (comme lorsqu’un utilisateur remplit un formulaire en ligne) et les envoie à Google via le processus de synchronisation. Il liste aussi les pages visitées et envoie les données de géolocalisation à Google.

d. Android comme Chrome envoient des données à Google même en l’absence de toute interaction de l’utilisateur. Nos expériences montrent qu’un téléphone Android dormant et stationnaire (avec Chrome actif en arrière-plan) a communiqué des informations de localisation à Google 340 fois pendant une période de 24 heures, soit en moyenne 14 communications de données par heure. En fait, les informations de localisation représentent 35 % de l’échantillon complet de données envoyés à Google. À l’opposé, une expérience similaire a montré que sur un appareil iOS d’Apple avec Safari (où ni Android ni Chrome n’étaient utilisés), Google ne pouvait pas collecter de données notables (localisation ou autres) en absence d’interaction de l’utilisateur avec l’appareil.

e. Une fois qu’un utilisateur ou une utilisatrice commence à interagir avec un téléphone Android (par exemple, se déplace, visite des pages web, utilise des applications), les communications passives vers les domaines de serveurs Google augmentent considérablement, même dans les cas où l’on n’a pas utilisé d’applications Google majeures (c.-à-d. ni recherche Google, ni YouTube, pas de Gmail ni Google Maps). Cette augmentation s’explique en grande partie par l’activité sur les données de l’éditeur et de l’annonceur de Google (Google Analytics, DoubleClick, AdWords) 73. Ces données représentaient 46 % de l’ensemble des requêtes aux serveurs Google depuis le téléphone Android. Google a collecté la localisation à un taux 1,4 fois supérieur par rapport à l’expérience du téléphone fixe sans interaction avec l’utilisateur. En termes d’amplitude, les serveurs de Google ont communiqué 11,6 Mo de données par jour (ou 0,35 Go / mois) avec l’appareil Android. Cette expérience suggère que même si un utilisateur n’interagit avec aucune application phare de Google, Google est toujours en mesure de recueillir beaucoup d’informations par l’entremise de ses produits d’annonce et d’éditeur.

f. Si un utilisateur d’appareil sous iOS décide de renoncer à l’usage de tout produit Google (c’est-à-dire sans Android, ni Chrome, ni applications Google) et visite exclusivement des pages web non-Google, le nombre de fois où les données sont communiquées aux serveurs de Google demeure encore étonnamment élevé. Cette communication est menée exclusivement par des services de l’annonceur/éditeur. Le nombre d’appels de ces services Google à partir d’un appareil iOS est similaire à ceux passés par un appareil Android. Dans notre expérience, la quantité totale de données communiquées aux serveurs Google à partir d’un appareil iOS est environ la moitié de ce qui est envoyé à partir d’un appareil Android.

g. Les identificateurs publicitaires (qui sont censés être « anonymisés » et collectent des données sur l’activité des applications et les visites des pages web tierces) peuvent être associés à l’identité d’un utilisateur ou utilisatrice de Google. Cela se produit par le transfert des informations d’identification depuis l’appareil Android vers les serveurs de Google. De même, le cookie ID DoubleClick (qui piste les activités des utilisateurs et utilisatrices sur les pages web d’un tiers) constitue un autre identificateur censé être anonymisé que Google peut associer à celui d’un compte personnel Google, si l’utilisateur accède à une application Google avec le navigateur déjà utilisé pour aller sur la page web externe. En définitive, nos conclusions sont que Google a la possibilité de connecter les données anonymes collectées par des moyens passifs avec les données personnelles de l’utilisateur.




Il a choisi Linux et s’en félicite

Dan Gillmor, qui avait l’an dernier expliqué pourquoi il disait au revoir à google, Microsoft et Apple dans un article que nous avons publié, fait aujourd’hui le point sur ses choix et constate qu’il ne regrette rien. D’autres bonnes raisons de migrer sont apparues, comme l’accélération de la re-centralisation du Web, l’hégémonie croissante des grands acteurs et bien sûr la surveillance généralisée.

Dan Gillmor évoque avec précision les matériels et logiciels qu’il a adoptés progressivement, fait état également sans à priori des avancées et des faiblesses des produits open source. Il reconnaît la difficulté relative du passage au Libre intégral (il peine encore à se dégoogliser 😉 ) mais les valeurs qu’il défend sont celles de l’indépendance, du choix libre pour l’utilisateur de ses usages et de ses produits…

Je suis passé à Linux et c’est encore mieux que ce que j’espérais

Dire adieu à Microsoft et Apple n’a jamais été aussi facile, ni aussi satisfaisant

par Dan Gillmor

Article original sur Medium : I Moved to Linux and It’s Even Better Than I Expected
Traduction Framalang : line, goofy, Sphinx, r0u, david_m, Manegiste, sebastien, teromene, galadas, roptat, Omegax, didimo

danGillmorUn beau jour du printemps 2012, j’ai refermé mon MacBookAir pour la dernière fois. À partir de ce moment, mon environnement informatique (en tout cas, en ce qui concerne mon portable) était GNU/Linux. J’ai abandonné, autant que possible, les environnements propriétaires et obsédés du contrôle qu’Apple et Microsoft ont de plus en plus imposés aux utilisateurs d’ordinateurs personnels.

Presque quatre ans plus tard, me voici, et j’écris cet article sur un portable qui tourne sous le système d’exploitation Linux, avec LibreOffice Writer, et non sur une machine Mac ou Windows avec Microsoft Word. Tout va bien.

Non, c’est même mieux que ça, tout est sensationnel.

Je recommanderais ce changement à beaucoup de personnes (pas à tout le monde, ni à n’importe quel prix, mais à quiconque n’est pas effrayé à l’idée de poser une question à l’occasion, et plus particulièrement quiconque réfléchit à la trajectoire prise par la technologie et la communication au 21ème siècle). Plus que tout, aux gens qui se soucient de leur liberté.

Ils nous ont donné plus de confort, et nous avons dit collectivement : « Génial ! »

L’informatique personnelle remonte à la fin des années 1970. Elle a défini une ère de la technologie où les utilisateurs pouvaient adapter ce qu’ils achetaient de toutes sortes de manières. Lorsque l’informatique mobile est arrivée sous la forme de smartphones, la tendance s’est inversée. Les constructeurs, en particulier Apple, ont gardé bien plus de contrôle. Ils nous ont donné plus de confort, et nous avons dit collectivement : « Génial ! ».

Il y a quelques mois, lorsque Apple a annoncé son iPad Pro, une grande tablette avec un clavier, son président Tim Cook l’a appelée « la plus claire expression de notre vision pour le futur de l’informatique personnelle ». « Ouh là, ça craint » me suis-je dit à ce moment-là. Entre autres, dans l’écosystème iOS, les utilisateurs ne peuvent obtenir leurs logiciels que sur l’Apple store, et les développeurs sont obligés de les vendre au même endroit seulement. C’est peut-être la définition de l’informatique personnelle pour Apple, mais pas pour moi.

Pendant ce temps-là, Windows 10 de Microsoft (sur presque tous les points, une grande avancée en termes de facilité d’utilisation par rapport à Windows 8) ressemble de plus en plus à un logiciel espion déguisé en système d’exploitation (une appellation qui pourrait être injuste, mais pas de beaucoup). Oui, la mise à jour depuis les versions précédentes, extrêmement répandues, est gratuite, mais elle prend des libertés extraordinaires avec les données des utilisateurs et le contrôle de ceux-ci, d’après ceux qui en ont analysé le fonctionnement interne.

Ce n’est pas exactement un duopole commercial. Le système d’exploitation Chrome OS de Google fait tourner un nouvel arrivant : le Chromebook, vendu par différents constructeurs. Mais il comporte plus de limites et oblige ses utilisateurs à être totalement à l’aise (je ne le suis pas) sous l’emprise d’une entreprise qui repose sur la surveillance pour soutenir son modèle économique basé sur la publicité.

Ainsi, pour ceux qui ont le moindre intérêt à garder une indépendance substantielle dans l’informatique mobile ou de bureau, Linux semble être le dernier refuge. Sur toute une gamme de machines, des super-ordinateurs aux serveurs, en passant par les téléphones portables et les systèmes embarqués, Linux est déjà incontournable. Je suis content d’avoir franchi le pas.

Avant d’expliquer le comment, il est vital de comprendre le contexte de ma petite rébellion. La re-centralisation est la nouvelle norme dans les technologies et les communications, une tendance qui m’a préoccupé il y a quelque temps sur ce site, quand je décrivais de manière plus générale mes efforts pour me sevrer des produits et services d’entreprises fournis par Apple (c’est fait), Microsoft (fait en grande partie) et Google (encore difficile). Le gain en confort, comme je le disais à l’époque, ne vaut pas les compromis que nous concédons.

Un duopole mobile ?

Comme j’en discuterai plus bas, je dois me demander à quel point il est pertinent de déclarer son indépendance sur son ordinateur personnel, puisque l’informatique évolue de plus en plus vers les appareils mobiles. Qu’on le veuille ou non, Apple et Google en ont plus ou moins pris le contrôle avec iOS et Android. Apple, comme je l’ai dit, est un maniaque obsédé du contrôle. Même si Google distribue gratuitement une version ouverte d’Android, de plus en plus de pièces essentielles de ce système d’exploitation sont intégrées en un amas logiciel terriblement verrouillé qui emprisonne les utilisateurs dans le monde de Google contrôlé par la publicité. Peut-on parler de « duopole » mobile ?

La re-centralisation est particulièrement terrifiante au vu du pouvoir croissant de l’industrie des télécommunications, qui se bat bec et ongles pour contrôler ce que vous et moi faisons des connexions que nous payons, malgré le jugement bienvenu de la FCC (commission fédérale des communications aux États-Unis) en faveur de la « neutralité du net » en 2015. Comcast détient le monopole du véritable haut débit sur la vaste majorité de son territoire, même si l’on distingue quelques concurrents ici et là. Les fournisseurs d’accès par câble avancent rapidement pour imposer des limites d’utilisation qui n’ont rien à voir avec la capacité disponible et tout à voir avec l’extension de leur pouvoir et de leurs profits, comme l’expliquait en détail Susan Crawford. Et les fournisseurs de téléphonie mobile piétinent allègrement la neutralité du net avec leurs services « zero-rated » (où l’accès à certains services spécifiques n’est pas décompté du volume de données du forfait), que la FCC considère de manière incompréhensible comme innovants.

Pendant ce temps, pour la simple et bonne raison que les utilisateurs préfèrent souvent le confort et la simplicité apparente d’un outil à la garantie de leurs libertés, des acteurs centralisés comme Facebook se constituent des monopoles sans précédents. Comme pour Google et son outil de recherche, ils recueillent les bénéfices grandissants des effets du réseau, que des concurrents vont trouver difficile sinon impossible à défier.

Goulets d’étranglement

N’oublions pas le gouvernement, qui a horreur de la décentralisation. Les services centralisés créent des goulots d’étranglement et rendent le travail facile aux services de police, espions, contrôleurs et service des impôts. L’état de surveillance raffole de la collecte de données sur ces goulots d’étranglement, ce qui met finalement en danger les communications et libertés de tous.

Les goulots d’étranglement permettent aussi de soutenir des modèles économiques qui génèrent beaucoup d’argent pour les campagnes politiques. Hollywood en est un excellent exemple ; la quasi prise de contrôle du Congrès par les lobbies du copyright a conduit à l’adoption de lois profondément restrictives comme dans le système du copyright en vigueur.

Les droits d’auteur sont la clé de ce que mon ami Cory Doctorow appelle « la prochaine guerre civile dans l’informatique générique », une campagne, parfois agressive, pour empêcher les gens qui achètent du matériel (vous et moi, de manière individuelle et dans nos écoles, entreprises et autres organisations) de réellement en être propriétaires. Les lois sur le droit d’auteur sont l’arme des maniaques du contrôle, puisqu’elles les autorisent à nous empêcher par des moyens légaux de bricoler (ils diraient trafiquer) les produits qu’ils vendent.

Les perspectives ne sont pas toutes aussi sombres. Le mouvement des makers ces dernières années est l’un des antidotes à cette maladie du contrôle total. Il en est de même avec les composantes-clés de la plupart des projets de makers : les projets de logiciel libre et open source dont les utilisateurs sont explicitement encouragés à modifier et copier le code.

linuxpenguinFighter

Image par Ian Burt via Flickr | CC BY 2.0

C’est là que Linux entre en scène. Même si nous nous servons davantage de nos appareils mobiles, des centaines de millions d’entre nous travaillent encore beaucoup avec leurs ordinateurs mobiles et de bureau. Linux et les autres logiciels développés par la communauté ne représentent peut-être qu’une solution partielle, mais clairement utile. Il vaut mieux commencer avec quelque chose et l’améliorer, que d’abandonner directement.

J’ai installé Linux un bon nombre de fois au cours des dernières années, depuis qu’il est devenu un véritable système d’exploitation. Mais je suis toujours retourné sous Windows ou Mac, en fonction de mon système principal de l’époque. Pourquoi ? Il restait encore trop d’aspérités et, pendant longtemps, Linux n’avait pas assez d’applications pour réaliser ce dont j’avais besoin. Les inconvénients étaient trop importants pour ma patience limitée, en utilisation quotidienne.

Mais cela s’est progressivement amélioré et, en 2012, j’ai décidé qu’il était temps. J’ai demandé à Cory Doctorow quelle version de Linux il utilisait. C’était une question fondamentale, car Linux se décline en de nombreuses variantes. Les développeurs ont pris le noyau essentiel du code et ont créé différentes versions, adaptées aux divers besoins, goûts et genres d’informatique. Bien que tous utilisent les composants essentiels, sur le modèle du logiciel libre, certains ajoutent du code propriétaire, comme Flash, pour mieux s’adapter aux pratiques informatiques des utilisateurs. Le matériel représentait également une question cruciale, car les ordinateurs ne sont pas tous gérés de manière fiable par Linux, à cause des incompatibilités matérielles.

Cory m’a dit qu’il utilisait Ubuntu sur un Lenovo ThinkPad. J’étais déjà convaincu par les ThinkPads, grâce à la fiabilité du matériel et le bon service après-vente du constructeur, sans oublier la possibilité de mettre à jour les composants matériels internes. Comme j’ai tendance à acheter des modèles récents, je rencontre parfois des problèmes de compatibilité avec le matériel Lenovo le plus récent. J’ai bricolé mon modèle actuel, un T450s, par tous les moyens, en remplaçant le disque dur mécanique par un disque SSD rapide et en ajoutant autant de mémoire vive (RAM) que j’ai pu.

Je penchais également pour Ubuntu, une version de Linux créée par une entreprise appelée Canonical, avec à sa tête un ancien entrepreneur informatique du nom de Mark Shuttleworth, que je connais aussi depuis longtemps. Ubuntu est connu pour son excellente gestion des ThinkPads, surtout s’ils ne sont pas flambants neufs. J’ai utilisé Ubuntu sur quatre ThinkPads différents depuis ma conversion. On apprécie Ubuntu à l’usage parce que Canonical a une vision bien définie de la façon dont les choses doivent fonctionner.

Libre à vous de tester une autre « distribution » Linux, comme on appelle les différentes versions. Il y en a trop pour les nommer toutes, ce qui est à la fois le meilleur et le pire atout de l’écosystème Linux. Les nouveaux utilisateurs devraient presque toujours essayer une des distributions les plus populaires, qui aura été testée de manière plus poussée et offrira la meilleure assistance de la part de la communauté ou de l’entreprise qui l’a créée.

linuxMint

L’une de ces distributions est Linux Mint. Elle est basée sur Ubuntu (qui est elle-même basée sur Debian, une version encore plus proche de la version de base de Linux). Mint m’est apparue comme à beaucoup d’autres personnes comme probablement la meilleure distribution Linux pour ceux qui ont utilisé des systèmes propriétaires et souhaitent la transition la plus simple possible. Je suis parfois tenté de changer moi-même, mais je vais garder Ubuntu, à moins que Canonical ne le foire complètement, ce que je n’espère pas.

Avant de faire le grand saut, j’ai demandé à bon nombre de personnes des conseils sur la façon migrer au mieux mes usages informatiques depuis des programmes propriétaires vers des programmes open source. Plusieurs m’ont suggéré ce qui s’est avéré être un bon conseil : j’ai cessé d’utiliser l’application Mail d’Apple et j’ai installé Thunderbird de Mozilla sur mon Mac, et après un mois, je me suis tellement habitué à cette manière différente (pas si différente non plus) de gérer mon courrier électronique (non, je n’utilise pas Gmail, sauf pour un compte de secours). J’ai aussi installé LibreOffice, une sorte de clone open source de Microsoft Office, qui est moins courant mais adéquat pour arriver à ses fins dans la plupart des cas.

Comme la plupart des gens qui utilisent un ordinateur personnel, je passe mon temps presque exclusivement sur tout petit nombre d’applications : navigateur internet, client courriel, traitement de texte. Sous Linux, j’ai installé Firefox et Chromium, une variante open source du Chrome de Google. Comme déjà mentionné, Thunderbird faisait bien son job pour gérer mes courriels, et LibreOffice était satisfaisant en tant que logiciel de traitement de texte.

Mais j’avais encore besoin d’utiliser Windows pour certaines choses. En particulier, le logiciel de cours en ligne que j’utilisais à mon université refusait de fonctionner sous Linux, quel que soit le navigateur utilisé. J’ai donc installé Windows dans une machine virtuelle, afin de faire tourner Windows et ses programmes à l’intérieur de Linux. J’ai aussi installé Windows sur une partition séparée de mon disque dur pour les occasions encore plus rares où j’aurais besoin d’utiliser un Windows natif, contrairement à un Windows virtuel ce qui réduit les performances.

Aujourd’hui je n’ai presque plus jamais besoin de Windows. LibreOffice s’est énormément amélioré. Pour l’édition collaborative, Google Docs (hum… j’ai déjà dit que se passer de Google est difficile, hein ?) est difficile à battre, mais LibreOffice progresse. Le logiciel utilisé dans mon université pour les cours en ligne fonctionne maintenant avec Linux. Le seul programme pour lequel j’ai encore besoin de Windows est Camtasia, pour le « screencasting » – enregistrer (et diffuser) ce qu’affiche l’écran, ainsi que le son. Plusieurs programmes de screencasting existent sous Linux, mais ils sont limités. Et parfois, je suis obligé d’utiliser MS PowerPoint pour lire les rares diaporamas qui hoquètent avec le logiciel de présentations de LibreOffice (Impress).

Étrangement, le plus compliqué, dans cette transition, fut de m’adapter aux différentes conventions utilisées pour les claviers : désapprendre le style Apple et réapprendre les combinaisons Windows, équivalentes pour la plupart à celles utilisées par Linux. Au bout de quelques mois, tout était rentré dans l’ordre.

La fréquence de mise à jour des logiciels est un des aspects que je préfère avec Linux. Ubuntu et de nombreuses autres versions proposent régulièrement des mises à jour même si je préfère choisir les versions qui disposent d’un support étendu (aussi appelées versions « LTS » soit Long Term Support en anglais). Ils corrigent rapidement les failles de sécurité qui sont trouvées et il se passe souvent moins d’une semaine entre deux mises à jour, un rythme beaucoup plus élevé que celui auquel j’étais habitué avec Apple.

migrationSimple

Ce que j’aime le moins avec Linux, c’est qu’il faut parfois faire quelque chose qui pourrait paraître intimidant pour un nouvel utilisateur. Personne ne devrait avoir à ouvrir une interface en ligne de commande pour saisir sudo apt-get update ou autre. Personne ne devrait avoir à faire face à un avertissement indiquant que l’espace disque est insuffisant pour que la mise à jour du système puisse être appliquée (ce qui nécessitera alors de retirer les composants obsolètes du système d’exploitation, une opération qui n’est pas à la portée de tout le monde). Personne ne devrait découvrir, après une mise à jour, qu’un composant matériel a cessé de fonctionner, ce qui m’est arrivé avec mon trackpad, inutilisable jusqu’à ce que je trouve une solution grâce à un forum (oui, cela peut arriver avec Windows mais les fabricants testent beaucoup plus le fonctionnement de leur matériel avec les logiciels Microsoft. Quant à Apple, ça arrive également, mais il a l’avantage de produire du matériel et des logiciels qui sont associés de façon harmonieuse).

gillmordesktop

Le bureau de Dan Gillmor sous Ubuntu

Lorsqu’il y a un problème, les communautés apparues autour du logiciel libre et open source s’avèrent incroyablement utiles. Poussant toujours un peu les limites pour adopter ce système, je demande souvent de l’aide. Je reçois toujours des réponses. Certains experts super pointus de ces forums peuvent être condescendants voire irrespectueux si on ose poser une question qui leur semblera simplissime ou qui a déjà reçu une réponse par ailleurs. On trouve également cette aide précieuse (et cette éventuelle intempérance) pour Windows, Mac et les autres systèmes mobiles (certains fanatiques d’Apple sont parfois étonnamment violents avec les hérétiques) mais il existe une atmosphère unique lorsqu’il s’agit de personnes œuvrant sur des technologies ouvertes, pour tous.

Si vous souhaitez essayer Linux sur votre ordinateur, c’est plutôt simple. Ubuntu, ainsi que d’autres distributions, vous permettent de créer un DVD ou une clé USB contenant le système d’exploitation et de nombreuses applications et vous pouvez démarrer votre ordinateur en utilisant ce support de test. C’est une bonne technique pour savoir si le matériel que vous avez à votre disposition fonctionnera avec. Ce sera vraisemblablement le cas si vous n’utilisez pas un ordinateur flambant neuf. Linux brille particulièrement par son support des ordinateurs déjà anciens.

Pour éviter les soucis d’installation de Linux, on peut acheter un ordinateur avec le système d’exploitation pré-installé et obtenir des mises à jour régulières, adaptées au matériel. J’ai réfléchi à différents modèles fabriqués par des entreprises comme Dell, System76, ZaReason entre autres. Je viens de visiter une entreprise appelée Purism, qui vend des ordinateurs portables construits uniquement avec du matériel et du logiciel non-propriétaire, du moins autant qu’il est possible à l’heure actuelle. Le modèle Librem 13 est impressionnant, Purism a adapté Linux pour ce matériel ergonomique et j’ai hâte de l’essayer.

Je voyage beaucoup et penche plutôt en faveur d’une entreprise qui dispose de point de dépôt dans différents pays et qui (avec le coût que ça implique) pourra dépêcher un technicien chez moi, à mon bureau ou à mon hôtel si ma machine tombe en panne. Si je dois abandonner Lenovo (et les dernières affaires à leur sujet me font douter), je me dirigerai probablement vers les machines Dell fournies avec Linux.

Vous avez pu remarquer que je n’ai presque pas abordé la question du coût. Pour le système d’exploitation, ce n’est plus nécessaire car Microsoft et Apple ont fait fondre le prix apparent de leur système d’exploitation et il apparaît comme nul. Bien entendu, vous le payez toujours quand vous achetez un ordinateur. Cela dit, même les mises à jour importantes sont devenues gratuites, un changement fondamental si on regarde en arrière. Cependant, en ce qui concerne Microsoft, la « gratuité » semble exister au détriment de la collecte intrusive des données.

En revanche, pour les applications, c’est une autre histoire. Vous pouvez économiser beaucoup d’argent en utilisant des logiciels libres et open source. Comparé à LibreOffice, Microsoft Office reste cher même si les versions de base « Famille et Étudiant » sont abordables et que beaucoup de personnes utilisent MS Office grâce à la version fournie par leur école ou leur entreprise.

Mais voilà, j’apprécie de payer pour certains logiciels, car je veux être sûr, autant que possible, que j’aurai de l’aide si besoin et que les développeurs auront une source de motivation pour continuer à corriger et à améliorer le logiciel. Je serais heureux de pouvoir payer pour des versions de Camtasia et Scrivener sur Linux (ce dernier possède une version communautaire pour Linux). En attendant, je fais des dons à différents projets dont j’utilise les logiciels régulièrement, qu’ils soient créés par des entreprises ou intégralement développés par des bénévoles. Ubuntu a beau être une entreprise qui gagne de l’argent en fournissant des services (une approche populaire et éprouvée dans le monde du logiciel libre et open source), je continue d’y donner. Avec moi, LibreOffice a gagné un utilisateur, mais aussi un donateur. Il en va de même pour d’autres projets.

Linux reste en arrière, enfin « officiellement », quand il s’agit de lire des DVD. Il faut installer certains logiciels jugés illégaux par le cartel du divertissement afin de pouvoir lire les disques que vous avez achetés (Apple a l’air d’un parangon de liberté par rapport à Hollywood). L’utilisation de services de streaming comme Netflix ou Amazon peut également être source d’ennuis. Enfin ça devient plus simple grâce à… humpf l’ajout de verrous numériques (NdT : DRM ou Digital Rights Management) dans certains navigateurs.

Est-ce que tous ces ajustements en valent la peine ? Je dirais que oui. Tout ce qui améliore ou préserve notre capacité à utiliser les technologies comme nous l’entendons en vaut la chandelle par rapport aux voies imposées par des pouvoirs centralisés. Et si nous ne sommes pas plus nombreux à essayer, ces monstres du contrôle verront leur victoire assurée.

Il est probablement presque trop tard pour que Linux devienne un système d’exploitation extrêmement populaire, dans les pays développés tout au moins. Mais il n’est pas trop tard pour que suffisamment d’entre nous l’utilisent afin de garantir des libertés informatiques pour ceux qui les veulent.

Que pouvons-nous faire à propos des écosystèmes mobiles, si nous ne voulons pas leur laisser l’hégémonie sur toute l’informatique personnelle, voilà bien le problème. Des versions tierces d’Android ont émergé au travers de communautés dynamiques telles que XDA Developers, qui veulent plus de liberté. Ubuntu travaille sur un système d’exploitation mobile parmi d’autres nombreux acteurs de la communauté open source ; des années ont été dédiées à tendre vers un système d’exploitation qui puisse fonctionner sur tous les appareils. Mais la domination d’Apple et Google sur le monde mobile en intimide plus d’un.

nous avons vraiment le choix

J’essaie en ce moment beaucoup d’options parmi les appareils possibles dans l’espoir que j’en trouverai un qui soit suffisamment bon pour une utilisation au quotidien, même s’il devait ne pas être aussi pratique que les propriétés privées bien gardées des géants de l’internet (un de mes téléphones est actuellement sous un système d’exploitation appelé Cyanogenmod). Bientôt, je vous en dirai plus sur la façon dont ça se passe.

En attendant, souvenez-vous : nous avons vraiment le choix – nous pouvons faire des choix qui repoussent les limites des libertés technologiques. Récemment, mon choix a consisté à me détacher libérer de l’emprise de ceux qui veulent tout contrôler. J’espère vous donner à réfléchir pour faire de même. En fonction de ce que nous choisissons, nous avons beaucoup à gagner, et à perdre.

(1) Même si cela va vexer certaines personnes, j’ai fait référence à GNU/Linux par son nom de loin le plus couramment utilisé – Linux, tout simplement – après la première occurrence. Pour en savoir plus à ce propos, les Wikipédiens ont rassemblé tout un tas de sources pertinentes.

Merci à Evan Hansen et Steven Levy.

Biographie et plus d’informations : http://dangillmor.com/about (Photo par Joi Ito)