Les données que récolte Google – Ch.4

Voici déjà la traduction du quatrième chapitre de Google Data Collection, l’étude élaborée par l’équipe du professeur Douglas C. Schmidt, spécialiste des systèmes logiciels, chercheur et enseignant à l’Université Vanderbilt. Si vous les avez manqués, retrouvez les chapitres précédents déjà publiés.
Il s’agit cette fois d’explorer les stratégies des régies publicitaires qui opèrent en arrière-plan : des opérations fort discrètes mais terriblement efficaces…

Traduction Framalang : Côme, goofy, Khrys,Obny, Penguin, Piup, serici.

IV. Collecte de données par les outils des annonceurs et des diffuseurs

29. Une source majeure de collecte des données d’activité des utilisateurs provient des outils destinés au annonceurs et aux éditeurs tels que Google Analytics, DoubleClick, AdSense, AdWords et AdMob. Ces outils ont une portée énorme ; par exemple, plus d’un million d’applications mobiles utilisent AdMob1, plus d’un million d’annonceurs utilisent AdWords2, plus de 15 millions de sites internet utilisent AdSense3 et plus de 30 millions de sites utilisent Google Analytics4.

30. Au moment de la rédaction du présent rapport, Google a rebaptisé AdWords « Google Ads » et DoubleClick « Google Ad Manager« , mais aucune modification n’a été apportée aux fonctionnalités principales des produits, y compris la collecte d’informations par ces produits5. Par conséquent, pour les besoins du présent rapport, les premiers noms ont été conservés afin d’éviter toute confusion avec des noms de domaine connexes (tels que doubleclick.net).

31. Voici deux principaux groupes d’utilisateurs des outils de Google axés sur l’édition — et les annonces publicitaires :

  • Les éditeurs de sites web et d’applications, qui sont des organisations qui possèdent des sites web et créent des applications mobiles. Ces entités utilisent les outils de Google pour (1) gagner de l’argent en permettant l’affichage d’annonces aux visiteurs sur leurs sites web ou applications, et (2) mieux suivre et comprendre qui visite leurs sites et utilise leurs applications. Les outils de Google placent des cookies et exécutent des scripts dans les navigateurs des visiteurs du site web pour aider à déterminer l’identité d’un utilisateur et suivre son intérêt pour le contenu et son comportement en ligne. Les bibliothèques d’applications mobiles de Google suivent l’utilisation des applications sur les téléphones mobiles.
  • Les annonceurs, qui sont des organisations qui paient pour que des bannières, des vidéos ou d’autres publicités soient diffusées aux utilisateurs lorsqu’ils naviguent sur Internet ou utilisent des applications. Ces entités utilisent les outils de Google pour cibler des profils spécifiques de personnes pour que les publicités augmentent le retour sur leurs investissements marketing (les publicités mieux ciblées génèrent généralement des taux de clics et de conversion plus élevés). De tels outils permettent également aux annonceurs d’analyser leurs audiences et de mesurer l’efficacité de leur publicité numérique en regardant sur quelles annonces les utilisateurs cliquent et à quelle fréquence, et en donnant un aperçu du profil des personnes qui ont cliqué sur les annonces.

32. Ensemble, ces outils recueillent des informations sur les activités des utilisateurs sur les sites web et dans les applications, comme le contenu visité et les annonces cliquées. Ils travaillent en arrière-plan — en général imperceptibles par des utilisateurs. La figure 7 montre certains de ces outils clés, avec des flèches indiquant les données recueillies auprès des utilisateurs et les publicités qui leur sont diffusées.

Figure 7 : Produits Google destinés aux éditeurs et annonceurs6

33. Les informations recueillies par ces outils comprennent un identifiant non personnel que Google peut utiliser pour envoyer des publicités ciblées sans identifier les informations personnelles de la personne concernée. Ces identificateurs peuvent être spécifiques à l’appareil ou à la session, ainsi que permanents ou semi-permanents. Le tableau 1 liste un ensemble de ces identificateurs. Afin d’offrir aux utilisateurs un plus grand anonymat lors de la collecte d’informations pour le ciblage publicitaire, Google s’est récemment tourné vers l’utilisation d’identifiants uniques semi-permanents (par exemple, les GAID)7. Des sections ultérieures décrivent en détail la façon dont ces outils recueillent les données des utilisateurs et l’utilisation de ces identificateurs au cours du processus de collecte des données.

Tableau 1: Identificateurs transmis à Google

Identificateur Type Description
GAID/IDFA Semi-permanent Chaine de caractères alphanumériques pour appareils Android et iOS, pour permettre les publicités ciblées sur mobile. Réinitialisable par l’utilisateur.
ID client Semi-permanent ID créé la première fois qu’un cookie est stocké sur le navigateur. Utilisé pour relier les sessions de navigations. Réinitialisé lorsque les cookies du navigateur sont effacés.
Adresse IP Semi-permanent Une unique suite de nombre qui identifie le réseau par lequel un appareil accède à internet.
ID appareil Android Semi-permanent Nombre généré aléatoirement au premier démarrage d’un appareil. Utilisé pour identifier l’appareil. En retrait progressif pour la publicité. Réinitialisé lors d’une remise à zéro de l’appareil.
Google Services Framework (GSF) Semi-permanent Nombre assigné aléatoirement lorsqu’un utilisateur s’enregistre pour la première fois dans les services Google sur un appareil. Utilisé pour identifier un appareil unique. Réinitialisé lors d’une remise à zéro de l’appareil.
IEMI / MEID Permanent Identificateur utilisé dans les standards de communication mobile. Unique pour chaque téléphone portable.
Adresse MAC Permanent Identificateur unique de 12 caractères pour un élément matériel (ex. : routeur).
Numéro de série Permanent Chaine de caractères alphanumériques utilisée pour identifier un appareil.

A. Google Analytics et DoubleClick

34. DoubleClick et Google Analytics (GA) sont les produits phares de Google en matière de suivi du comportement des utilisateurs et d’analyse du trafic des pages Web sur les périphériques de bureau et mobiles. GA est utilisé par environ 75 % des 100 000 sites Web les plus visités8. Les cookies DoubleClick sont associés à plus de 1,6 million de sites Web9.

35. GA utilise de petits segments de code de traçage (appelés « balises de page ») intégrés dans le code HTML d’un site Web10. Après le chargement d’une page Web à la demande d’un utilisateur, le code GA appelle un fichier analytics.js qui se trouve sur les serveurs de Google. Ce programme transfère un instantané « par défaut » des données de l’utilisateur à ce moment, qui comprend l’adresse de la page web visitée, le titre de la page, les informations du navigateur, l’emplacement actuel (déduit de l’adresse IP), et les paramètres de langue de l’utilisateur. Les scripts de GA utilisent des cookies pour suivre le comportement des utilisateurs.

36. Le script de GA, la première fois qu’il est exécuté, génère et stocke un cookie spécifique au navigateur sur l’ordinateur de l’utilisateur. Ce cookie a un identificateur de client unique (voir le tableau 1 pour plus de détails)11 Google utilise l’identificateur unique pour lier les cookies précédemment stockés, qui capturent l’activité d’un utilisateur sur un domaine particulier tant que le cookie n’expire pas ou que l’utilisateur n’efface pas les cookies mis en cache dans son navigateur12

37. Alors qu’un cookie GA est spécifique au domaine particulier du site Web que l’utilisateur visite (appelé « cookie de première partie »), un cookie DoubleClick est généralement associé à un domaine tiers commun (tel que doubleclick.net). Google utilise de tels cookies pour suivre l’interaction de l’utilisateur sur plusieurs sites web tiers13 Lorsqu’un utilisateur interagit avec une publicité sur un site web, les outils de suivi de conversion de DoubleClick (par exemple, Floodlight) placent des cookies sur l’ordinateur de l’utilisateur et génèrent un identifiant client unique14 Par la suite, si l’utilisateur visite le site web annoncé, le serveur DoubleClick accède aux informations stockées dans le cookie, enregistrant ainsi la visite comme une conversion valide.

B. AdSense, AdWords et AdMob

38. AdSense et AdWords sont des outils de Google qui diffusent des annonces sur les sites Web et dans les résultats de recherche Google, respectivement. Plus de 15 millions de sites Web ont installé AdSense pour afficher des annonces sponsorisées15 De même, plus de 2 millions de sites web et applications, qui constituent le réseau Google Display Network (GDN) et touchent plus de 90 % des internautes16 affichent des annonces AdWords.

39. AdSense collecte des informations indiquant si une annonce a été affichée ou non sur la page web de l’éditeur. Il recueille également la façon dont l’utilisateur a interagi avec l’annonce, par exemple en cliquant sur l’annonce ou en suivant le mouvement du curseur sur l’annonce17. AdWords permet aux annonceurs de diffuser des annonces de recherche sur Google Search, d’afficher des annonces sur les pages des éditeurs et de superposer des annonces sur des vidéos YouTube. Pour suivre les taux de clics et de conversion des utilisateurs, les publicités AdWords placent un cookie sur les navigateurs des utilisateurs pour identifier l’utilisateur s’il visite par la suite le site web de l’annonceur ou s’il effectue un achat18.

40. Bien qu’AdSense et AdWords recueillent également des données sur les appareils mobiles, leur capacité d’obtenir des renseignements sur les utilisateurs des appareils mobiles est limitée puisque les applications mobiles ne partagent pas de cookies entre elles, une technique d’isolement appelée « bac à sable »19 qui rend difficile pour les annonceurs de suivre le comportement des utilisateurs entre différentes applications mobiles.

41 Pour résoudre ce problème, Google et d’autres entreprises utilisent des « bibliothèques d’annonces » mobiles (comme AdMob) qui sont intégrées dans les applications par leurs développeurs pour diffuser des annonces dans les applications mobiles. Ces bibliothèques compilent et s’exécutent avec les applications et envoient à Google des données spécifiques à l’application à laquelle elles sont intégrées, y compris les emplacements GPS, la marque de l’appareil et le modèle de l’appareil lorsque les applications ont les autorisations appropriées. Comme on peut le voir dans les analyses de trafic de données (Figure 8), et comme on peut trouver confirmation sur les propres pages web des développeurs de Google20, de telles bibliothèques peuvent également envoyer des données personnelles de l’utilisateur, telles que l’âge et le genre, tout cela va vers Google à chaque fois que les développeurs d’applications envoient explicitement leurs valeurs numériques vers la bibliothèque.

Figure 8 : Aperçu des informations renvoyées à Google lorsqu’une application est lancée

C. Association de données recueillies passivement et d’informations à caractère personnel

42. Comme nous l’avons vu plus haut, Google recueille des données par l’intermédiaire de produits pour éditeurs et annonceurs, et associe ces données à une variété d’identificateurs semi-permanents et anonymes. Google a toutefois la possibilité d’associer ces identifiants aux informations personnelles d’un utilisateur. C’est ce qu’insinuent les déclarations faites dans la politique de confidentialité de Google, dont des extraits sont présentés à la figure 9. La zone de texte à gauche indique clairement que Google peut associer des données provenant de services publicitaires et d’outils d’analyse aux informations personnelles d’un utilisateur, en fonction des paramètres du compte de l’utilisateur. Cette disposition est activée par défaut, comme indiqué dans la zone de texte à droite.

Figure 9 : Page de confidentialité de Google pour la collecte de sites web tiers et l’association avec des informations personnelles2122.

43. De plus, une analyse du trafic de données échangé avec les serveurs de Google (résumée ci-dessous) a permis d’identifier deux exemples clés (l’un sur Android et l’autre sur Chrome) qui montrent la capacité de Google à corréler les données recueillies de façon anonyme avec les renseignements personnels des utilisateurs.

1) L’identificateur de publicité mobile peut être désanonymé grâce aux données envoyées à Google par Android.

44. Les analyses du trafic de données communiqué entre un téléphone Android et les domaines de serveur Google suggèrent un moyen possible par lequel des identifiants anonymes (GAID dans ce cas) peuvent être associés au compte Google d’un utilisateur. La figure 10 décrit ce processus en une série de trois étapes clés.

45. Dans l’étape 1, une donnée de check-in est envoyée à l’URL android.clients.google.com/checkin. Cette communication particulière fournit une synchronisation de données Android aux serveurs Google et contient des informations du journal Android (par exemple, du journal de récupération), des messages du noyau, des crash dumps, et d’autres identifiants liés au périphérique. Un instantané d’une demande d’enregistrement partiellement décodée envoyée au serveur de Google à partir d’Android est montré en figure 10.

Figure 10 : Les identifiants d’appareil sont envoyés avec les informations de compte dans les requêtes de vérification Android.

46. Comme l’indiquent les zones pointées, Android envoie à Google, au cours du processus d’enregistrement, une variété d’identifiants permanents importants liés à l’appareil, y compris l’adresse MAC de l’appareil, l’IMEI /MEID et le numéro de série du dispositif. En outre, ces demandes contiennent également l’identifiant Gmail de l’utilisateur Android, ce qui permet à Google de relier les informations personnelles d’un utilisateur aux identifiants permanents des appareils Android.

47. À l’étape 2, le serveur de Google répond à la demande d’enregistrement. Ce message contient un identifiant de cadre de services Google (GSF ID)23 qui est similaire à l’« Android ID »24 (voir le tableau 1 pour les descriptions).

48. L’étape 3 implique un autre cas de communication où le même identifiant GSF (de l’étape 2) est envoyé à Google en même temps que le GAID. La figure 10 montre l’une de ces transmissions de données à android.clients.google.com/fdfe/bulkDetails?au=1.

49. Grâce aux trois échanges de données susmentionnés, Google reçoit les informations nécessaires pour connecter un GAID avec des identifiants d’appareil permanents ainsi que les identifiants de compte Google des utilisateurs.

50. Ces échanges de données interceptés avec les serveurs de Google à partir d’un téléphone Android montrent comment Google peut connecter les informations anonymisées collectées sur un appareil mobile Android via les outils DoubleClick, Analytics ou AdMob avec l’identité personnelle de l’utilisateur. Au cours de la collecte de données sur 24 heures à partir d’un téléphone Android sans mouvement ni activité, deux cas de communications d’enregistrement avec des serveurs Google ont été observés. Une analyse supplémentaire est toutefois nécessaire pour déterminer si un tel échange d’informations a lieu avec une certaine périodicité ou s’il est déclenché par des activités spécifiques sur les téléphones.

2) L’ID du cookie DoubleClick est relié aux informations personnelles de l’utilisateur sur le compte Google.

51. La section précédente expliquait comment Google peut désanonymiser l’identité de l’utilisateur via les données passives et anonymisées qu’il collecte à partir d’un appareil mobile Android. Cette section montre comment une telle désanonymisation peut également se produire sur un ordinateur de bureau/ordinateur portable.

52. Les données anonymisées sur les ordinateurs de bureau et portables sont collectées par l’intermédiaire d’identifiants basés sur des cookies (par ex. Cookie ID), qui sont typiquement générés par les produits de publicité et d’édition de Google (par ex. DoubleClick) et stockés sur le disque dur local de l’utilisateur. L’expérience présentée ci-dessous a permis d’évaluer si Google peut établir un lien entre ces identificateurs (et donc les renseignements qui y sont associés) et les informations personnelles d’un utilisateur.
Cette expérience comportait les étapes ordonnées suivantes :

  1. Ouverture d’une nouvelle session de navigation (Chrome ou autre) (pas de cookies enregistrés, par exemple navigation privée ou incognito) ;
  2. Visite d’un site Web tiers qui utilisait le réseau publicitaire DoubleClick de Google ;
  3. Visite du site Web d’un service Google largement utilisé (Gmail dans ce cas) ;
  4. Connexion à Gmail.

53. Au terme des étapes 1 et 2, dans le cadre du processus de chargement des pages, le serveur DoubleClick a reçu une demande lorsque l’utilisateur a visité pour la première fois le site Web tiers. Cette demande faisait partie d’une série de reqêtes comprenant le processus d’initialisation DoubleClick lancé par le site Web de l’éditeur, qui a conduit le navigateur Chrome à installer un cookie pour le domaine DoubleClick. Ce cookie est resté sur l’ordinateur de l’utilisateur jusqu’à son expiration ou jusqu’à ce que l’utilisateur efface manuellement les cookies via les paramètres du navigateur.

54. Ensuite, à l’étape 3, lorsque l’utilisateur visite Gmail, il est invité à se connecter avec ses identifiants Google. Google gère l’identité à l’aide d’une architecture single sign on (SSO) [NdT : authentification unique], dans laquelle les identifiants sont fournis à un service de compte (ici accounts.google.com) en échange d’un « jeton d’authentification », qui peut ensuite être présenté à d’autres services Google pour identifier les utilisateurs. À l’étape 4, lorsqu’un utilisateur accède à son compte Gmail, il se connecte effectivement à son compte Google, qui fournit alors à Gmail un jeton d’autorisation pour vérifier l’identité de l’utilisateur.25 Ce processus est décrit à la figure 24 de la section IX.E de l’annexe.

55. Dans la dernière étape de ce processus de connexion, une requête est envoyée au domaine DoubleClick. Cette requête contient à la fois le jeton d’authentification fourni par Google et le cookie de suivi défini lorsque l’utilisateur a visité le site web tiers à l’étape 2 (cette communication est indiquée à la figure 11). Cela permet à Google de relier les informations d’identification Google de l’utilisateur à un cookie DoubleClick. Par conséquent, si les utilisateurs n’effacent pas régulièrement les cookies de leur navigateur, leurs informations de navigation sur les pages Web de tiers qui utilisent les services DoubleClick pourraient être associées à leurs informations personnelles sur Google Account.

Figure 11 : La requête à DoubleClick.net inclut le jeton d’authentification Google et les cookies passés.

56. Il est donc établi à présent que Google recueille une grande variété de données sur les utilisateurs par l’intermédiaire de ses outils d’éditeur et d’annonceur, sans que l’utilisateur en ait une connaissance directe. Bien que ces données soient collectées à l’aide d’identifiants anonymes, Google a la possibilité de relier ces informations collectées aux identifiants personnels de l’utilisateur stockés sur son compte Google.

57. Il convient de souligner que la collecte passive de données d’utilisateurs de Google à partir de pages web tierces ne peut être empêchée à l’aide d’outils populaires de blocage de publicité26, car ces outils sont conçus principalement pour empêcher la présence de publicités pendant que les utilisateurs naviguent sur des pages web tierces27. La section suivante examine de plus près l’ampleur de cette collecte de données.




Les données que récolte Google – Ch.3

Voici déjà la traduction du troisième chapitre de Google Data Collection, l’étude élaborée par l’équipe du professeur Douglas C. Schmidt, spécialiste des systèmes logiciels, chercheur et enseignant à l’Université Vanderbilt. Si vous les avez manqués, retrouvez les chapitres précédents déjà publiés.

Il s’agit aujourd’hui de mesurer ce que les plateformes les plus populaires recueillent de nos smartphones

Traduction Framalang : Côme, goofy, Khrys, Mika, Piup. Remerciements particuliers à badumtss qui a contribué à la traduction de l’infographie.

La collecte des données par les plateformes Android et Chrome

11. Android et Chrome sont les plateformes clés de Google qui facilitent la collecte massive de données des utilisateurs en raison de leur grande portée et fréquence d’utilisation. En janvier 2018, Android détenait 53 % du marché américain des systèmes d’exploitation mobiles (iOS d’Apple en détenait 45 %)28 et, en mai 2017, il y avait plus de 2 milliards d’appareils Android actifs par mois dans le monde.29

12. Le navigateur Chrome de Google représentait plus de 60 % de l’utilisation mondiale de navigateurs Internet avec plus d’un milliard d’utilisateurs actifs par mois, comme l’indiquait le rapport Q4 10K de 201730. Les deux plateformes facilitent l’usage de contenus de Google et de tiers (p.ex. applications et sites tiers) et fournissent donc à Google un accès à un large éventail d’informations personnelles, d’activité web, et de localisation.

A. Collecte d’informations personnelles et de données d’activité

13. Pour télécharger et utiliser des applications depuis le Google Play Store sur un appareil Android, un utilisateur doit posséder (ou créer) un compte Google, qui devient une passerelle clé par laquelle Google collecte ses informations personnelles, ce qui comporte son nom d’utilisateur, son adresse de messagerie et son numéro de téléphone. Si un utilisateur s’inscrit à des services comme Google Pay31, Android collecte également les données de la carte bancaire, le code postal et la date de naissance de l’utilisateur. Toutes ces données font alors partie des informations personnelles de l’utilisateur associées à son compte Google.

14. Alors que Chrome n’oblige pas le partage d’informations personnelles supplémentaires recueillies auprès des utilisateurs, il a la possibilité de récupérer de telles informations. Par exemple, Chrome collecte toute une gamme d’informations personnelles avec la fonctionnalité de remplissage automatique des formulaires, qui incluent typiquement le nom d’utilisateur, l’adresse, le numéro de téléphone, l’identifiant de connexion et les mots de passe.32 Chrome stocke les informations saisies dans les formulaires sur le disque dur de l’utilisateur. Cependant, si l’utilisateur se connecte à Chrome avec un compte Google et active la fonctionnalité de synchronisation, ces informations sont envoyées et stockées sur les serveurs de Google. Chrome pourrait également apprendre la ou les langues que parle la personne avec sa fonctionnalité de traduction, activée par défaut.33

15. En plus des données personnelles, Chrome et Android envoient tous deux à Google des informations concernant les activités de navigation et l’emploi d’applications mobiles, respectivement. Chaque visite de page internet est automatiquement traquée et collectée par Google si l’utilisateur a un compte Chrome. Chrome collecte également son historique de navigation, ses mots de passe, les permissions particulières selon les sites web, les cookies, l’historique de téléchargement et les données relatives aux extensions.34

16. Android envoie des mises à jour régulières aux serveurs de Google, ce qui comprend le type d’appareil, le nom de l’opérateur, les rapports de bug et des informations sur les applications installées35. Il avertit également Google chaque fois qu’une application est ouverte sur le téléphone (ex. Google sait quand un utilisateur d’Android ouvre son application Uber).

B. Collecte des données de localisation de l’utilisateur

17. Android et Chrome collectent méticuleusement la localisation et les mouvements de l’utilisateur en utilisant une variété de sources, représentées sur la figure 3. Par exemple, un accès à la « localisation approximative » peut être réalisé en utilisant les coordonnées GPS sur un téléphone Android ou avec l’adresse IP sur un ordinateur. La précision de la localisation peut être améliorée (« localisation précise ») avec l’usage des identifiants des antennes cellulaires environnantes ou en scannant les BSSID (’’Basic Service Set IDentifiers’’), identifiants assignés de manière unique aux puces radio des points d’accès Wi-Fi présents aux alentours36. Les téléphones Android peuvent aussi utiliser les informations des balises Bluetooth enregistrées dans l’API Proximity Beacon de Google37. Ces balises non seulement fournissent les coordonnées de géolocalisation de l’utilisateur, mais pourraient aussi indiquer à quel étage exact il se trouve dans un immeuble.38

schéma représentatt les différents moyens (wifi, bluetooth) de localiser les données d’un utilisateur de smartphone
Figure 3 : Android et Chrome utilisent diverses manières de localiser l’utilisateur d’un téléphone.

 

18. Il est difficile pour un utilisateur de téléphone Android de refuser le traçage de sa localisation. Par exemple, sur un appareil Android, même si un utilisateur désactive le Wi-Fi, la localisation est toujours suivie par son signal Wi-Fi. Pour éviter un tel traçage, le scan Wi-Fi doit être explicitement désactivé par une autre action de l’utilisateur, comme montré sur la figure 4.

2 copies d’écran de paramètres d’android pour montrer que le wifi est toujours sacnné même s’il est désactivé
Figure 4 : Android collecte des données même si le Wi-Fi est éteint par l’utilisateur

 

19. L’omniprésence de points d’accès Wi-Fi a rendu le traçage de localisation assez fréquent. Par exemple, durant une courte promenade de 15 minutes autour d’une résidence, un appareil Android a envoyé neuf requêtes de localisation à Google. Les requêtes contenaient au total environ 100 BSSID de points d’accès Wi-Fi publics et privés.

20. Google peut vérifier avec un haut degré de confiance si un utilisateur est immobile, s’il marche, court, fait du vélo, ou voyage en train ou en car. Il y parvient grâce au traçage à intervalles de temps réguliers de la localisation d’un utilisateur Android, combiné avec les données des capteurs embarqués (comme l’accéléromètre) sur les téléphones mobiles. La figure 5 montre un exemple de telles données communiquées aux serveurs de Google pendant que l’utilisateur marchait.

code renvoyé aux serveurs : la localisation d’un utilisateur
Figure 5 : capture d’écran d’un envoi de localisation d’utilisateur à Google.

 

C. Une évaluation de la collecte passive de données par Google via Android et Chrome

21. Les données actives que les plateformes Android ou Chrome collectent et envoient à Google à la suite des activités des utilisateurs sur ces plateformes peuvent être évaluées à l’aide des outils MyActivity et Takeout. Les données passives recueillies par ces plateformes, qui vont au-delà des données de localisation et qui restent relativement méconnues des utilisateurs, présentent cependant un intérêt potentiellement plus grand. Afin d’évaluer plus en détail le type et la fréquence de cette collecte, une expérience a été menée pour surveiller les données relatives au trafic envoyées à Google par les téléphones mobiles (Android et iPhone) en utilisant la méthode décrite dans la section IX.D de l’annexe. À titre de comparaison, cette expérience comprenait également l’analyse des données envoyées à Apple via un appareil iPhone.

22. Pour des raisons de simplicité, les téléphones sont restés stationnaires, sans aucune interaction avec l’utilisateur. Sur le téléphone Android, une seule session de navigateur Chrome restait active en arrière-plan, tandis que sur l’iPhone, le navigateur Safari était utilisé. Cette configuration a permis une analyse systématique de la collecte de fond que Google effectue uniquement via Android et Chrome, ainsi que de la collecte qui se produit en l’absence de ceux-ci (c’est-à-dire à partir d’un appareil iPhone), sans aucune demande de collecte supplémentaire générée par d’autres produits et applications (par exemple YouTube, Gmail ou utilisation d’applications).

23. La figure 6 présente un résumé des résultats obtenus dans le cadre de cette expérience. L’axe des abscisses indique le nombre de fois où les téléphones ont communiqué avec les serveurs Google (ou Apple), tandis que l’axe des ordonnées indique le type de téléphone (Android ou iPhone) et le type de domaine de serveur (Google ou Apple) avec lequel les paquets de données ont été échangés par les téléphones. La légende en couleur décrit la catégorisation générale du type de demandes de données identifiées par l’adresse de domaine du serveur. Une liste complète des adresses de domaine appartenant à chaque catégorie figure dans le tableau 5 de la section IX.D de l’annexe.

24. Au cours d’une période de 24 heures, l’appareil Android a communiqué environ 900 échantillons de données à une série de terminaux de serveur Google. Parmi ceux-ci, environ 35 % (soit environ 14 par heure) étaient liés à la localisation. Les domaines publicitaires de Google n’ont reçu que 3 % du trafic, ce qui est principalement dû au fait que le navigateur mobile n’a pas été utilisé activement pendant la période de collecte. Le reste (62 %) des communications avec les domaines de serveurs Google se répartissaient grosso modo entre les demandes adressées au magasin d’applications Google Play, les téléchargements par Android de données relatives aux périphériques (tels que les rapports de crash et les autorisations de périphériques), et d’autres données — principalement de la catégorie des appels et actualisations de fond des services Google.

infographie exposant les proportions de trafic envoyé par les appareils divers vers les serveurs de Google
Figure 6 : Données sur le trafic envoyées par les appareils Andoid et les iPhones en veille.

 

25. La figure 6 montre que l’appareil iPhone communiquait avec les domaines Google à une fréquence inférieure de plus d’un ordre de grandeur (50 fois) à celle de l’appareil Android, et que Google n’a recueilli aucun donnée de localisation utilisateur pendant la période d’expérience de 24 heures via iPhone. Ce résultat souligne le fait que les plateformes Android et Chrome jouent un rôle important dans la collecte de données de Google.

26. De plus, les communications de l’appareil iPhone avec les serveurs d’Apple étaient 10 fois moins fréquentes que les communications de l’appareil Android avec Google. Les données de localisation ne représentaient qu’une très faible fraction (1 %) des données nettes envoyées aux serveurs Apple à partir de l’iPhone, Apple recevant en moyenne une fois par jour des communications liées à la localisation.

27. En termes d’amplitude, les téléphones Android communiquaient 4,4 Mo de données par jour (130 Mo par mois) avec les serveurs Google, soit 6 fois plus que ce que les serveurs Google communiquaient à travers l’appareil iPhone.

28. Pour rappel, cette expérience a été réalisée à l’aide d’un téléphone stationnaire, sans interaction avec l’utilisateur. Lorsqu’un utilisateur commence à bouger et à interagir avec son téléphone, la fréquence des communications avec les serveurs de Google augmente considérablement. La section V du présent rapport résume les résultats d’une telle expérience.

 




Les données que récolte Google – Ch. 2

Voici déjà la traduction du deuxième chapitre de Google Data Collection, l’étude élaborée par l’équipe du professeur Douglas C. Schmidt, spécialiste des systèmes logiciels, chercheur et enseignant à l’Université Vanderbilt. Si vous les avez manqués, retrouvez les chapitres précédents déjà publiés.

Il s’agit aujourd’hui d’une expérience d’usage quotidien ordinaire du numérique en milieu urbain et connecté, expérience qu’il n’est pas trop difficile de transposer de ce côté-ci de l’Atlantique, et qui permet de repérer les différentes sortes de collecte opérées par Google, directement ou non.

Traduction Framalang : goofy, Khrys, serici. Remerciements particuliers à badumtss qui a contribué à la traduction de l’infographie.

II. Une journée dans la vie d’une utilisatrice de Google

passagers dans le métro, ils ont presque tous des écouteurs aux oreilles et leur smartphone en main
« Earbuds », photo de susanjanegolding (CC BY 2.0)

5.
Afin d’illustrer la multitude des interactions entre Google et un individu, ainsi que l’étendue des informations collectées lors de ces interactions, nous avons réalisé une expérience dans laquelle un chercheur utilise un périphérique Android39 pendant les activités d’une journée.
Afin d’éviter que des informations d’un utilisateur précédent ne soient associées au téléphone mobile, celui-ci a été réinitialisé aux valeurs d’usine40 et configuré comme un téléphone neuf 41. Un nouveau compte Google a été créé (nom d’utilisatrice : « Jane »), afin que Google n’ait pas de connaissances antérieures sur cette utilisatrice et qu’il n’ait pas associé de centres d’intérêts publicitaires à son compte. Le chercheur a passé une journée normale en utilisant son téléphone avec son nouveau compte Google.

6.
Les données collectées par Google ont été relevées par deux outils fournis par Google : « Mon activité » 42 et « Télécharger vos données » 43. L’outil « Mon activité » montre les données collectées par Google grâce à toute activité liée aux recherches, lors de l’utilisation des applications Google (i.e Youtube, Google Maps, Google assistant), par les visites sur des pages web tierces (lorsqu’on est connecté à Chrome), et les clics sur les publicités. L’outil « Télécharger vos données » fournit une information structurée concernant l’historique de toutes les données collectées par les applications Google (i.e cela contient tous les anciens courriels sur Gmail, toutes les recherches, l’ensemble des localisations et les vidéos YouTube consultées). Nous avons synthétisé les données collectées et nous les avons utilisées pour représenter les informations sur les événements clés dans l’infographie ci-dessous : « Un jour dans la vie » de l’utilisateur “Jane”.

infographie représentant les actes quotidiens dune utilisatrice-test et son usage des services Google, depuis l ematin où elle écoute de la musique qavec google Play jusqu’au soir où elle regarde des vidéos de YouTube
Figure 1 : une journée dans la vie d’une utilisatrice de Google

 

7.
Pour l’activité détaillée dans la figure 1, mais également dans le reste du document, les données collectées sont classées en deux grands groupes : actives et passives. Les données actives sont des données échangées directement entre l’utilisateur et un produit Google, là où les données passives sont définies comme une information transmise en arrière-plan sans notification évidente pour l’utilisateur. Par exemple, une collecte active de données est déclenchée lorsque Jane saisit un mot-clé dans l’outil de recherche et que cette requête est enregistrée par Google. Un exemple de collecte de données passives est l’envoi de la localisation de Jane à Google suite à l’enregistrement d’une requête.

8.
L’analyse des points de contact clés durant une journée normale dans la vie de Jane suggère que le nombre de données passives transmises est deux fois plus grand que le nombre de données actives (une décomposition détaillée des caractéristiques des données actives et passives est fournie dans le tableau qui figure en appendice, page 37 du document original).

9.
Google analyse les données collectées pour déterminer les centres d’intérêt des utilisateurs et utilisatrices, qu’il utilise ensuite pour les cibler avec des publicités adaptées. Par exemple, Google fournit une liste d’intérêts qu’il a déduits de l’activité d’un utilisateur, que l’on peut consulter sur la page « Les sujets qui vous intéressent » de la page de « Personnalisation des annonces » de Google 44. La figure 2 ci-dessous montre la liste que Google a associée avec le compte de Jane après une journée d’activité. Au total, Google a attribué 18 centres d’intérêts à Jane, dont 8 (entourés par une bordure rouge) qui correspondent précisément aux utilisations et activités de Jane45

Figure 2 : les centres d’intérêt de Jane tels que les a déduits Google après une journée typique : réseaux sociaux, musique, parentalité, TV et vidéos, entreprise et industrie, éducation, nouvelles, comédies TV

 

10.
Bien que les outils « mon activité » et « Télécharger mes données » soient utiles pour estimer la quantité de données actives collectées lors des interactions d’un utilisateur avec les produits Google, ils ne dessinent pas une image complète de l’ampleur et de l’échelle de la collecte de données de Google. Comprendre cela requiert un passage en revue détaillé des clauses d’utilisation des produits en ce qui concerne la vie privée mais également l’analyse du trafic de données envoyé aux serveurs de Google pendant une session d’utilisation par un utilisateur de ces services. Les résultats de cette analyse sont présentés plus loin dans ce rapport.




Ce que récolte Google : revue de détail

Le temps n’est plus où il était nécessaire d’alerter sur la prédation opérée par Google et ses nombreux services sur nos données personnelles. Il est fréquent aujourd’hui d’entendre dire sur un ton fataliste : « de toute façon, ils espionnent tout »

Si beaucoup encore proclament à l’occasion « je n’ai rien à cacher » c’est moins par conviction réelle que parce que chacun en a fait l’expérience : « on ne peut rien cacher » dans le monde numérique. Depuis quelques années, les mises en garde, listes de précautions à prendre et solutions alternatives ont été largement exposées, et Framasoft parmi d’autres y a contribué.

Il manquait toutefois un travail de fond pour explorer et comprendre, une véritable étude menée suivant la démarche universitaire et qui, au-delà du jugement global approximatif, établisse les faits avec précision.

C’est à quoi s’est attelée l’équipe du professeur Douglas C. Schmidt, spécialiste depuis longtemps des systèmes logiciels, chercheur et enseignant à l’Université Vanderbilt, qui livre au public une étude d’une cinquantaine de pages intitulée Google Data Collection. Cette étude, qui nous semble pouvoir servir de référence, a retenu l’attention du groupe Framalang qui vous en livre ci-dessous l’executive summary, c’est-à-dire une sorte de résumé initial, qui en donne un aperçu programmatique.

Si vous trouvez un intérêt à cette traduction et souhaitez que Framalang vous propose la suite nous ferons de notre mieux…

Traduction Framalang : Alain, fab, FranBAG, Goofy, jums, Khrys, Mika, Piup, serici

La collecte de données de Google

Un premier aperçu

1.
Google est la plus grosse agence de publicité numérique du monde 46. Elle fournit aussi le leader des navigateurs web 47, la première plateforme mobile 48 ainsi que le moteur de recherche le plus utilisé au monde 49. La plateforme vidéo de Google, ses services de mail et de cartographie comptent 1 milliard d’utilisateurs mensuels actifs chacun 50. Google utilise l’immense popularité de ses produits pour collecter des données détaillées sur le comportement des utilisateurs en ligne comme dans la vie réelle, données qu’il utilisera ensuite pour cibler ses utilisateurs avec de la publicité payante. Les revenus de Google augmentent significativement en fonction de la finesse des technologies de ciblage des données.

2.
Google collecte les données utilisateurs de diverses manières. Les plus évidentes sont « actives », celles dans lesquelles l’utilisateur donne
directement et consciemment des informations à Google, par exemple en s’inscrivant à des applications très populaires telles que YouTube, Gmail, ou le moteur de recherche. Les voies dites « passives » utilisées par Google pour collecter des données sont plus discrètes, quand une application devient pendant son utilisation l’instrument de la collecte des données, sans que l’utilisateur en soit conscient. On trouve ces méthodes de collecte dans les plateformes (Android, Chrome), les applications (le moteur de recherche, YouTube, Maps), des outils de publication (Google Analytics, AdSense) et de publicité (AdMob, AdWords). L’étendue et l’ampleur de la collecte passive de données de Google ont été en grande partie négligées par les études antérieures sur le sujet 51.

3.
Pour comprendre les données que Google collecte, cette étude s’appuie sur quatre sources clefs :
a. Les outils Google « Mon activité » (My Activity) 52 et « Téléchargez vos données » (Takeout) 53, qui décrivent aux utilisateurs l’information collectée lors de l’usage des outils Google.
b. Les données interceptées lors de l’envoi aux serveurs de Google pendant l’utilisation des produits Google ou d’autres sociétés associées.
c. Les règles concernant la vie privée (des produits Google spécifiquement ou en général).
d. Des recherches tierces qui ont analysé les collectes de données opérées par Google.

Histoire naturelle, générale et particulière, des mollusques, animaux sans vertèbres et à sang blanc. T.2. Paris,L’Imprimerie de F. Dufart,An X-XIII [1802-1805]. biodiversitylibrary.org/page/35755415

4.
Au travers de la combinaison des sources ci-dessus, cette étude montre une vue globale et exhaustive de l’approche de Google concernant la collecte des données et aborde en profondeur certains types d’informations collectées auprès des utilisateurs et utilisatrices.
Cette étude met en avant les éléments clés suivants :

a. Dans une journée d’utilisation typique, Google en apprend énormément sur les intérêts personnels de ses utilisateurs. Dans ce scénario d’une journée « classique », où un utilisateur réel avec un compte Google et un téléphone Android (avec une nouvelle carte SIM) suit sa routine quotidienne, Google collecte des données tout au long des différentes activités, comme la localisation, les trajets empruntés, les articles achetés et la musique écoutée. De manière assez surprenante, Google collecte ou infère plus de deux tiers des informations via des techniques passives. Au bout du compte, Google a identifié les intérêts des utilisateurs avec une précision remarquable.

b. Android joue un rôle majeur dans la collecte des données pour Google, avec plus de 2 milliards d’utilisateurs actifs mensuels dans le monde 54. Alors que le système d’exploitation Android est utilisé par des fabricants d’équipement d’origine (FEO) partout dans le monde, il est étroitement connecté à l’écosystème Google via le service Google Play. Android aide Google à récolter des informations personnelles sur les utilisateurs (nom, numéro de téléphone, date de naissance, code postal et dans beaucoup de cas le numéro de carte bancaire), les activités réalisées sur le téléphone (applications utilisées, sites web consultés) et les coordonnées de géolocalisation. En coulisses, Android envoie fréquemment la localisation de l’utilisateur ainsi que des informations sur l’appareil lui-même, comme sur l’utilisation des applications, les rapports de bugs, la configuration de l’appareil, les sauvegardes et différents identifiants relatifs à l’appareil.

c. Le navigateur Chrome aide Google à collecter des données utilisateurs depuis à la fois le téléphone et l’ordinateur de bureau, grâce à quelque 2 milliards d’installations dans le monde 55. Le navigateur Chrome collecte des informations personnelles (comme lorsqu’un utilisateur remplit un formulaire en ligne) et les envoie à Google via le processus de synchronisation. Il liste aussi les pages visitées et envoie les données de géolocalisation à Google.

d. Android comme Chrome envoient des données à Google même en l’absence de toute interaction de l’utilisateur. Nos expériences montrent qu’un téléphone Android dormant et stationnaire (avec Chrome actif en arrière-plan) a communiqué des informations de localisation à Google 340 fois pendant une période de 24 heures, soit en moyenne 14 communications de données par heure. En fait, les informations de localisation représentent 35 % de l’échantillon complet de données envoyés à Google. À l’opposé, une expérience similaire a montré que sur un appareil iOS d’Apple avec Safari (où ni Android ni Chrome n’étaient utilisés), Google ne pouvait pas collecter de données notables (localisation ou autres) en absence d’interaction de l’utilisateur avec l’appareil.

e. Une fois qu’un utilisateur ou une utilisatrice commence à interagir avec un téléphone Android (par exemple, se déplace, visite des pages web, utilise des applications), les communications passives vers les domaines de serveurs Google augmentent considérablement, même dans les cas où l’on n’a pas utilisé d’applications Google majeures (c.-à-d. ni recherche Google, ni YouTube, pas de Gmail ni Google Maps). Cette augmentation s’explique en grande partie par l’activité sur les données de l’éditeur et de l’annonceur de Google (Google Analytics, DoubleClick, AdWords) 56. Ces données représentaient 46 % de l’ensemble des requêtes aux serveurs Google depuis le téléphone Android. Google a collecté la localisation à un taux 1,4 fois supérieur par rapport à l’expérience du téléphone fixe sans interaction avec l’utilisateur. En termes d’amplitude, les serveurs de Google ont communiqué 11,6 Mo de données par jour (ou 0,35 Go / mois) avec l’appareil Android. Cette expérience suggère que même si un utilisateur n’interagit avec aucune application phare de Google, Google est toujours en mesure de recueillir beaucoup d’informations par l’entremise de ses produits d’annonce et d’éditeur.

f. Si un utilisateur d’appareil sous iOS décide de renoncer à l’usage de tout produit Google (c’est-à-dire sans Android, ni Chrome, ni applications Google) et visite exclusivement des pages web non-Google, le nombre de fois où les données sont communiquées aux serveurs de Google demeure encore étonnamment élevé. Cette communication est menée exclusivement par des services de l’annonceur/éditeur. Le nombre d’appels de ces services Google à partir d’un appareil iOS est similaire à ceux passés par un appareil Android. Dans notre expérience, la quantité totale de données communiquées aux serveurs Google à partir d’un appareil iOS est environ la moitié de ce qui est envoyé à partir d’un appareil Android.

g. Les identificateurs publicitaires (qui sont censés être « anonymisés » et collectent des données sur l’activité des applications et les visites des pages web tierces) peuvent être associés à l’identité d’un utilisateur ou utilisatrice de Google. Cela se produit par le transfert des informations d’identification depuis l’appareil Android vers les serveurs de Google. De même, le cookie ID DoubleClick (qui piste les activités des utilisateurs et utilisatrices sur les pages web d’un tiers) constitue un autre identificateur censé être anonymisé que Google peut associer à celui d’un compte personnel Google, si l’utilisateur accède à une application Google avec le navigateur déjà utilisé pour aller sur la page web externe. En définitive, nos conclusions sont que Google a la possibilité de connecter les données anonymes collectées par des moyens passifs avec les données personnelles de l’utilisateur.




21 degrés de liberté – 18

Nos conversations dans la bulle privée de l’intimité familiale ne semblent plus vraiment à l’abri de l’espionnage par les objets dont nous acceptons de nous entourer.

Voici déjà le 18e article de la série écrite par Rick Falkvinge. Le fondateur du Parti Pirate suédois aborde ici l’espionnage à domicile auquel nous consentons.

Le fil directeur de la série de ces 21 articles, comme on peut le voir clairement dans les épisodes précédents que nous vous avons déjà livrés, c’est la perte de certaines libertés dont nous disposions encore assez récemment, avant que le passage au tout-numérique ne nous en prive.

Avant l’arrivée du numérique, nos parents avaient des conversations privées

Source : Rick Falkvinge sur privateinternetaccess.com

Traduction Framalang : dodosan, draenog, aubry, goofy + 1 anonyme

Nos parents, au moins dans le monde occidental, avaient le droit d’avoir des conversations privées en personne, que ce soit dans la bulle privée de leur maison ou en public. Cette liberté a disparu pour nos enfants.

homme chauve de dos, muni d'écouteurs noirs

Il n’y a pas si longtemps, c’est dans les livres et les films d’horreur que la surveillance généralisée de vos paroles dans votre propre maison apparaissait. Pour nos parents, il s’agissait d’histoires terrifiantes dignes d’Halloween, qui provoquaient des réactions où se mêlaient l’horreur et la plus grande incrédulité.

« Il n’existait bien sûr aucun moyen de savoir si on était surveillé à un moment donné. On pouvait uniquement deviner à quelle fréquence et sur quel système la Police de la pensée espionnait tout individu. Il était même plausible qu’elle écoutait tout le monde, tout le temps. De toutes façons, elle pouvait vous écouter lorsqu’elle le voulait. On devait vivre – on vivait, l’habitude étant devenue un instinct – en partant du principe que chaque son que l’on émettait était entendu. » George Orwell, 1984

Dans le monde occidental, nous nous vantions de ne pas être comme l’Est communiste qui considérait ses propres citoyens comme des suspects, des suspects qui devaient être purifiés des mauvaises pensées et conversations, au point que les conversations banales dans les maisons ordinaires étaient sur écoute.

Des microphones étaient placés sous chaque table de café et dans chaque maison. Et même s’il n’y en avait pas vraiment partout, mais juste quelques-uns par-ci, par-là, ils étaient potentiellement partout et on devait donc vivre avec (on vivait avec, l’habitude étant devenue un instinct) en partant du principe que chaque son que l’on émettait était entendu.

« Veuillez parler fort et clairement face au pot de fleurs. » disait une blague pas drôle courante dans les sociétés communistes pendant le guerre froide.

Tirons un trait sur les appels téléphoniques et les autres moyens de conversation à distance pour le moment, puisque nous savons déjà que la plupart des principales plateformes sont mises sur écoute. Intéressons-nous aux conversations à la maison.

Nous avons maintenant des Google Echo et Alexa d’Amazon. Bien que ces objets aient pu être conçus pour garder nos conversations secrètes et hors de portée des autorités, il s’avère qu’Amazon a déjà livré aux autorités des enregistrements effectués dans des salles à manger. Dans le cas en question, la permission est devenue une question controversée puisque le suspect l’avait déjà donnée. La prochaine fois, peut-être que les choses se feront même si l’intéressé ne donne pas sa permission…

Les téléphones mobiles nous écoutent d’ores et déjà en permanence. Nous le savons car lorsque nous disons « OK Google » à un téléphone Android, il sort de veille et se met à écouter plus attentivement. Cela signifie qu’au minimum, le téléphone reste toujours à l’écoute des mots « OK Google« . Les iPhone ont un mécanisme similaire avec « Hey Siri« . Même s’il est théoriquement possible de désactiver ces options, c’est une de ces choses dont n’est jamais vraiment sûr. Et nous transportons ces appareils de surveillance gouvernementale dans nos poches partout où nous allons.

Si les documents révélés par Snowden nous ont appris quelque chose, c’est que si une forme de surveillance est techniquement possible, elle est déjà mise en application quelque part.

Et même si Google et Apple ne nous mettent pas eux-mêmes sur écoute, c’est la police allemande qui s’autorise à pénétrer dans les téléphones et y installer Bundestrojaner, l’équivalent du pot de fleurs pour cacher un micro. On pourrait penser que l’Allemagne en particulier se souvient de son histoire récente et se rend compte qu’il s’agit là d’une mauvaise idée. Mais elle le fait sans doute, en toute logique, parce que les forces de police d’autres pays utilisent déjà ce type d’outils.

Pour nos parents, le concept de conversation privée était aussi naturel que l’oxygène dans l’air. Nos enfants, à l’ère du numérique, pourraient ne jamais connaître ce sentiment.

Et c’est ainsi que nous vivons aujourd’hui, ce qui était au début une habitude est devenue instinctif au fil du temps, et nous acceptons l’idée que chaque son que nous émettons est entendu par les autorités.

La vie privée demeure de votre responsabilité.




Mon CV ? Il est hébergé par Framasoft !

Les Pages Framasite évoluent encore. Robin, l’infatigable développeur de Pretty Noémie CMS, a ajouté des fonctionnalités pendant qu’on ne regardait pas. C’est le moment de refaire votre CV.

Depuis que nous avons annoncé les pages Framasite, l’outil a été adopté, et a évolué au fil de vos retours.

Une petite liste à la Prévert ?

Des modules supplémentaires !

  • Module agenda avec une insertion de votre Framagenda ou Google agenda (oui, si vous n’avez pas encore dégooglisé votre vie, c’est pas grave, on vous accepte)
  • Module réseaux sociaux (et même ceux qu’on n’aime pas)
  • Module lecteur audio (SoundCloud) si vous souhaitez faire le site de votre groupe de musique

  • Module avec lecteur vidéo et vidéo d’arrière plan

  • Un formulaire d’initialisation pour installer votre site sur un serveur personnel
  • Module de code avec coloration syntaxique, comme les pros

 

Du zouli design !

  • Redimensionnement d’images
  • Bouton « haut de page »
  • La page d’accueil est encore plus cool
  • Le menu réapparaît lorsqu’on scrolle vers le haut
  • Une version mobile pour le menu
  • Les fenêtres sont plus sympas (il y a eu un coup de main d’un designer)

On va glisser sur les nombreuses corrections de bugs.

Un tuto vidéo pour faire son CV

Et comme il restait du temps, hop, Robin a concocté une petite vidéo pour fabriquer son CV sur Framasite.

 

Vous pouvez le mettre sur un média social propriétaire appartenant à un GAFAM, hein. No problemo. C’est cool.

Mais bon, votre CV hébergé par Framasoft, ça fait toujours son petit effet :p !

 

Pour aller plus loin & contribuer :

 




PeerTube : Y’a déjà plein de vidéos !

Hier, nous avons publié un long article présentant la bêta de PeerTube. C’est bien. Mais si ce logiciel sert à créer et fédérer plein de petits « YouTube maison », autant parler des vidéos aussi, non… ?

Premières instances et liens utiles

Beaucoup de personnes nous ont fait confiance (merci <3 !), tant et si bien qu’il sera impossible, dans cet article, de lister toutes les instances (les hébergements PeerTube) disponibles. Qu’à cela ne tienne, on a fait des pages web pour ça ! (attention : la peinture est fraîche, la traduction est en cours, et on va les améliorer…)

Cliquez sur l’image pour aller voir les vidéos diffusées sur notre instance Framatube

Des vidéos très variées !

Rien que pour le plaisir des yeux, voici quelques vidéos qui vous montreront la diversité des collectifs et personnes qui ont installé leur instance PeerTube… Attention, la sélection que nous avons faite est purement subjective !

Des conférences qui font pétiller l’esprit

Le réseau des Conférences gesticulées a monté son instance, où l’on retrouve la conférence de Lunar « Informatique ou libertés » :


Sur l’instance du Mind Palace, on trouve, entre autres, de nombreuses conférences qui ont été données aux Geek Faeries, un festival auquel Framasoft participe depuis trois ans, avec plein d’ami·e·s libristes.

S’informer pour réfléchir

La fine équipe de data-journalisme Datagueule a ouvert son instance, où est publié l’ensemble de leur chaîne YouTube.


De même, le groupe indépendant Thinkerview a monté son instance PeerTube pour publier l’ensemble des interviews de leur chaîne YouTube.

Plaisirs informatiques…

LeCygneNoir a ouvert une instance dédiée au gaming et jeux vidéos, où l’on trouve déjà de nombreux let’s play.


C’est sur l’instance PeerTube de la NSA (promis, c’est bien le nom ^^) que l’on peut voir un Hacker en train de hacker.

Changer le monde, une vidéo à la fois

Le mouvement Colibris a aussi sa propre instance PeerTube, avec, entre autres, la bande annonce de leur MOOC « concevoir une oasis ».


Quand aux z’ami·e·s de La Quadrature du Net, si leur instance PeerTube est montée, on n’y trouve (pour l’instant) qu’une seule vidéo en local… preuve qu’ils et elles croulent encore sous de nombreux dossiers ! Du coup, histoire de leur laisser le temps, on vous met un petit clip de Nina Paley trouvé sur l’instance Coste Vidéo.

Ce n’est qu’un début !

On va pas vous gâcher la surprise, mais nous savons déjà que d’autres collectifs, vidéastes, et créateur·trice·s de contenus sont en train de monter leur instance ou de rejoindre celles qui existent… Sans parler des CHATONS (collectif d’hébergeurs alternatifs et éthiques ), dont certains sont déjà de la partie !

Bref, ce ne sont là que quelques exemples, prometteurs, parmi les milliers de vidéos que vous pouvez déjà voir sur PeerTube et toutes celles qui seront mises en ligne très prochainement.

À vous de nous faire découvrir les vidéos qui vous intéressent le plus en les partageant dans les commentaires ou sur vos médias sociaux !

 

 




PeerTube bêta : une graine d’alternative à YouTube vient d’éclore

Le 21 novembre dernier, nous annoncions notre volonté de développer PeerTube, un logiciel libre qui pose les bases d’une alternative aux YouTubes et autres plateformes centralisant les vidéos.

Parmi toutes les actions de notre feuille de route Contributopia, celle-ci a reçu une attention et un soutien tout particulier. Il est temps de vous montrer les premiers résultats, de faire un premier point d’étape à l’occasion de la sortie publique de la version bêta de PeerTube.

« Bêta », cela signifie que ceci n’est qu’un début ! Nous espérons que vous verrez combien il est prometteur.

 

 

PeerTube…? C’est quoi ce « PeerTube », là…?

Tout le monde ne suit pas assidûment les nombreux projets de Framasoft, alors on s’explique !

Nous allons parler ici des principes au cœur de PeerTube : un logiciel libre qui allie fédération d’hébergements et diffusion en pair à pair pour publier des vidéos en ligne de manière décentralisée.

Vous n’avez pas compris cette phrase…? Tout va bien : on l’explique juste en dessous 😉 (sinon, cliquez ici pour passer à la partie suivante, et le sommaire est là.)

Pour qui sait administrer un serveur, PeerTube c’est…

C’est un logiciel que vous installez sur votre serveur pour créer votre site web d’hébergement et de diffusion de vidéos… En gros : vous vous créez votre propre « YouTube maison » !

Il existe déjà des logiciels libres qui vous permettent de faire cela. L’avantage ici, c’est que vous pouvez choisir de relier votre instance PeerTube (votre site web de vidéos), à l’instance PeerTube de Zaïd (où se trouvent les vidéos des conférences de son université populaire), à celle de Catherine (qui héberge les vidéos de son Webmédia), ou encore à l’instance PeerTube de Solar (qui gère le serveur de son collectif de vidéastes).

Du coup, sur votre site web PeerTube, le public pourra voir vos vidéos, mais aussi celles hébergées par Zaïd, Catherine ou Solar… sans que votre site web n’ait à héberger les vidéos des autres ! Cette diversité dans le catalogue de vidéos devient très attractive. C’est ce qui a fait le succès des plateformes centralisatrices à la YouTube : le choix et la variété des vidéos.

Mais PeerTube ne centralise pas : il fédère. Grâce au protocole ActivityPub (utilisé aussi par la fédération Mastodon, une alternative libre à Twitter) PeerTube fédère plein de petits hébergeurs pour ne pas les obliger à acheter des milliers de disques durs afin d’héberger les vidéos du monde entier.

Un autre avantage de cette fédération, c’est que chacun·e est indépendant·e. Zaïd, Catherine, Solar et vous-même pouvez avoir vos propres règles du jeu, et créer vos propres Conditions Générales d’Utilisation (on peut, par exemple, imaginer un MiaouTube où les vidéos de chiens seraient strictement interdites 🙂 ).

Pour qui veut diffuser ses vidéos en ligne PeerTube permet…

Il vous permet de choisir un hébergement qui vous correspond. On l’a vu avec les dérives de YouTube : son hébergeur, Google-Alphabet, peut imposer son système ContentID (le fameux « Robocopyright ») ou ses outils de mise en valeur des vidéos, qui semblent aussi obscurs qu’injustes. Quoi qu’il arrive, il vous impose déjà de lui céder -gracieusement- des droits sur vos vidéos.

Avec PeerTube, vous choisissez l’hébergeur de vos vidéos selon ses conditions d’utilisation, sa politique de modération, ses choix de fédération… Comme vous n’avez pas un géant du web en face de vous, vous pourrez probablement discuter ensemble si vous avez un souci, un besoin, une envie…

L’autre gros avantage de PeerTube, c’est que votre hébergeur n’a pas à craindre le succès soudain d’une de vos vidéos. En effet, PeerTube diffuse les vidéos avec le protocole WebTorrent. Si des centaines de personnes regardent votre vidéo au même moment, leur navigateur envoie automatiquement des bouts de votre vidéo aux autres spectateurs.

Mine de rien, avant cette diffusion en pair-à-pair, les vidéastes à succès (ou les vidéos qui font le buzz) étaient condamnés à s’héberger chez un géant du web dont l’infrastructure peut encaisser des millions de vues simultanées… Ou à payer très cher un hébergement de vidéo indépendant afin qu’il tienne la charge.

Illustration : CC-By-SA Emma Lidbury

Pour qui veut voir des vidéos, PeerTube a pour avantage…

Un des avantages, c’est que vous devenez partie prenante de la diffusion des vidéos que vous êtes en train de regarder. Si d’autres personnes regardent une vidéo PeerTube en même temps que vous, tant que votre onglet reste ouvert, votre navigateur partage des bouts de cette vidéo et vous participez ainsi à une utilisation plus saine d’Internet.

Bien sûr, le lecteur vidéo de PeerTube s’adapte à votre situation : si votre installation ne permet pas la diffusion en pair-à-pair (réseau d’entreprise, navigateur récalcitrant, etc…) la lecture de la vidéo se fera de manière classique.

Mais surtout, PeerTube vous considère comme une personne, et non pas comme un produit qu’il faut pister, profiler, et enfermer dans des boucles vidéos pour mieux vendre votre temps de cerveau disponible. Ainsi, le code source (la recette de cuisine) du logiciel PeerTube est ouvert, ce qui fait que son fonctionnement est transparent.

PeerTube n’est pas juste open-source : il est libre. Sa licence libre garantit nos libertés fondamentales d’utilisateurs ou d’utilisatrices. C’est ce respect de nos libertés qui permet à Framasoft de vous inviter à contribuer à ce logiciel, et de nombreuses évolutions (système de commentaires innovant, etc.) nous ont déjà été soufflées par certain·e·s d’entre vous.

PeerTube, expliqué par MrBidouille, sur PeerTube.

Et sinon, Framatube, ça avance…?

En novembre dernier, la campagne « Framatube » avait pour objectif de permettre à Framasoft d’embaucher Chocobozzz, le développeur de PeerTube, pour qu’il puisse enfin consacrer son temps professionnel à ce projet personnel.

On va pas se mentir : nous avons mis du « Frama » dedans pour mieux faire connaître le projet et susciter les contributions, financières et humaines. Si nous avons voulu mettre notre réputation (et nos savoir-faire) au service de PeerTube, ce n’est clairement pas Framasoft qui importe ici.

Ce qui compte, ce que l’on va raconter ci-dessous, c’est l’évolution qu’a pu connaître le projet PeerTube. Une évolution technique comme pratique, qui a été rendue possible grâce aux personnes qui se sont impliquées dans le projet (et si vous avez déjà tout suivi, passez à la suite en cliquant ici et le sommaire est là).

Sous le capot, le code

Une des plus grosses évolutions du code de PeerTube a été de le rendre plus visuel, et plus agréable. En effet, le logiciel que Chocobozzz a écrit sur son temps libre permettait déjà de nombreuses choses : créer une instance, des comptes pour les vidéastes, etc. Mais une partie de tout cela se faisait en ligne de commande, dans un terminal. Aujourd’hui, l’interface web permet (presque) tout.

On dit « presque », car la nouvelle fonctionnalité d’import de vidéos en masse depuis d’autres plateformes (YouTube, mais aussi Viméo, Dailymotion, et plein plein d’autres) se fait encore en ligne de commande… Si son utilisation reste réservée aux initié·e·s, l’outil reste bien pratique pour qui veut copier sa chaîne YouTube sur son instance PeerTube ;).

Suite à de nombreux échanges sur notre forum des contributions, le système de fédération a été entièrement revu pour adopter le protocole ActivityPub, qui est utilisé, par exemple, par Mastodon (l’alternative à Twitter libre et fédérée). Concrètement, cela permet à PeerTube de communiquer de manière standardisée avec d’autres logiciels fédérés… qui ne font pas forcément de la vidéo (comme Mastodon !). Pour l’instant, les échanges sont expérimentaux, mais ces tests sont prometteurs.

Enfin, nous avons accompagné Chocobozzz afin qu’il puisse mieux définir des cas d’utilisation, ce qui lui a permis de coder divers rôles d’utilisateurs d’une instance PeerTube. Désormais, l’hébergeur d’une instance peut désigner des admins, des modos, et ainsi créer une communauté autour de son instance et des règles qui ont été adoptées.

Illustration : CC-By-SA Emma Lidbury

Des outils pour faciliter les échanges

Cette fonctionnalité de rôles va de pair avec de meilleurs outils pour gérer les utilisateur·ice·s. Par exemple, un hébergeur peut définir un quota d’espace disque par vidéaste, afin de ne pas avoir une personne prenant tout les gigas disponibles sur son serveur. Les hébergeurs ont aussi la possibilité de définir le nombre de comptes disponibles sur leur instance (une fois dépassé, les inscriptions sont fermées).

Tout cela, bien entendu, dépend des règles que chaque instance aura définies. C’est là qu’intervient un nouvel outil qui permettra de décrire le but de son instance (généraliste, réservée à tel types de vidéos, ou de communauté, etc.) et surtout les règles qui régissent cet hébergement dans les conditions générales d’utilisation. Une fédération d’instances diverses ouvre la porte à une diversité de gouvernances et d’identités : mieux vaut avoir un outil pour afficher tout cela en toute transparence !

Les échanges se font aussi en dessous des vidéos. Pour cela, un outil de commentaires a été créé. Grâce au protocole de fédération ActivityPub, les commentaires de votre compte PeerTube sont automatiquement « pouettés » (un Pouet, c’est comme un Tweet qui se serait libéré de Twitter). Si les commentaires sont fonctionnels, ils sont voués à évoluer, car de nombreuses améliorations sont déjà discutées sur notre forum des contributions (merci à Rigelk et Thoumou au passage !).

Enfin, PeerTube a connu une grosse évolution graphique. On peut évoquer l’outil pour envoyer une miniature personnalisée sur sa vidéo, ou de celui qui permet de définir le contenu comme « Not Safe For Work » (« réservé à un public averti »)… Mais c’est surtout la contribution d’Olivier Massain qu’il faut souligner. Ce dernier a repensé le design de PeerTube et a créé les maquettes visuelles que Chocobozzz a intégré dans cette version bêta du logiciel. Désormais, PeerTube est plus évident à utiliser tout en gagnant une identité visuelle claire.

La dimension humaine de PeerTube

On l’oublie souvent mais un projet logiciel, surtout lorsqu’il est contributif, c’est avant tout des personnes qui y mettent de leur temps, de leurs envies, et de leur talent dedans. Suite à sa proposition initiale de design, Olivier Massain a poursuivi son travail avec Chocobozzz, lorsqu’il fallait créer de nouvelles visualisations, et on ne peut que l’en remercier chaleureusement.

De même, la catégorie « PeerTube » de notre forum des contributions s’est enrichie d’un contributeur de qualité en la personne de Rigelk. Sa présence, sa bienveillance et sa pertinence ont alimenté de nombreuses discussions avec pour résultat des propositions collaboratives vraiment intéressantes. De telles contributions permettent à Chocobozzz de gagner du temps qu’il peut consacrer au développement de PeerTube.

Ce ne sont là que deux exemples de personnes qui ont grandement contribué à PeerTube (sans forcément apporter du code, d’ailleurs ^^). Il nous serait impossible de citer toutes les personnes ayant participé par leurs échanges, apports, questionnements, etc. Sachez simplement que PeerTube ne serait pas le même si nous l’avions fait juste « dans notre coin », alors merci à vous.

D’ailleurs, vos contributions financières à notre campagne de dons 2017 nous ont permis de renouveler le contrat de Chocobozzz, initialement embauché pour quatre mois. L’avoir avec nous jusqu’à fin 2018 nous permet d’envisager la poursuite du projet PeerTube jusqu’à une version 1, même si cela reste un pari financier pour Framasoft. Mais sa joyeuse présence, son professionnalisme (et ses connaissances en NodeJS) sont un apport indéniable à notre équipe salariée.

Et pis Chocobozzz, il montre même sur PeerTube comment marchent les commentaires PeerTube.

PeerTube : aujourd’hui et demain

Alors non : ce n’est pas aujourd’hui que vous allez brûler vos comptes YouTube ni libérer vos vidéos des chaînes de Google (quoique… sentez-vous libres ^^). Si la sortie de cette bêta n’est pas une révolution, elle marque une étape importante, une première marche essentielle vers une alternative crédible aux plateformes centralisatrices.

Ici, on va parler ensemble de la base commune que nous avons, expliquer pourquoi PeerTube ne répond pas encore à toutes les attentes (nombreuses et pressantes), et nos envies pour cheminer vers la version 1 de ce logiciel (pour aller direct à la conclusion, c’est ici et le sommaire est là).

De beaux débuts communautaires

C’est un bonheur de l’annoncer : le pari est réussi. PeerTube est un logiciel qui marche, et permet de fédérer des sites hébergeant des vidéos diffusées de pairs à pairs. Vous pouvez regarder, commenter, approuver (ou désapprouver) des vidéos, et même découvrir comment soutenir la personne qui les a mises en ligne (si elle a rempli le texte qui se cache derrière le bouton soutenir ou «support»).

Vous pouvez aussi, si vous en avez les capacités techniques, installer cette solution sur votre serveur et rejoindre la communauté naissante des hébergeurs PeerTube. À ce jour, nous comptons près d’une vingtaine d’instances d’hébergement avec qui nous avons travaillé pour mettre en place une proto-fédération. Une mailing-list et un wiki ont d’ailleurs vu le jour pour partager les expériences et mettre en commun les savoirs de chacun·e, tout est sur le site joinpeertube.org

Les vidéos disponibles sont extrêmement variées : du hacking (matériel comme social) à l’éducation populaire, des conférences gesticulées au let’s play, du data-journalisme au librisme… Il y en a tellement pour tous les goûts que nous allons vous détailler cela dans un autre article !

Par contre, peu d’instances d’hébergement vont ouvrir leurs portes à vos vidéos… Car c’est un travail titanesque que d’héberger, modérer, et prendre la responsabilité de mettre sur son serveur le contenu d’autrui. Si votre envie est de publier vos vidéos sur une instance PeerTube, il va falloir que vous dénichiez une instance d’hébergement qui vous va… ou que vous vous organisiez pour le faire vous-même.

Illustration : CC-By-SA Emma Lidbury

Et il est où le Framatube de mes rêves ?

Alors Framatube est là : https://framatube.org , mais le Framatube de vos rêves risque fort d’être… dans vos rêves. Nous l’avions annoncé : Framasoft n’ouvrira pas son hébergement aux vidéos du public. Non seulement par crainte de devenir un point de centralisation dans une solution qui prône la décentralisation, mais aussi parce que nous n’en avons pas les épaules. Entre passer notre énergie à modérer et diffuser vos contenus, et s’investir pour que vous puissiez le faire en toute indépendance, nous avons choisi : nous voulons améliorer l’outil.

Car PeerTube est loin d’être parfait. Déjà, son interface n’existe qu’en anglais. Oui, cela fait râler les amoureuxses du Français que nous sommes (hihi ^^), mais si nous voulons une solution ouverte sur le monde, l’anglais est une base indispensable (et PeerTube dépasse déjà la simple francophonie). Or, le travail d’internationalisation (préparer un logiciel pour pouvoir traduire son interface en plusieurs langues) n’est pas encore fait… (mais on a des idées pour ça aussi, vous verrez !)

De même, nous avons bien compris que la monétisation des vidéos est un sujet qui vous titille. C’est d’ailleurs étrange de noter combien Google a formaté nos façons de voir la diffusion de vidéos en ligne, à ce sujet… Pour l’instant, la seule solution proposée aux personnes qui mettent en ligne des vidéos est de mettre un texte et un lien qui apparaîtront dans le bouton soutenir («Support») sous la vidéo.

Nous ne sommes pas allé·e·s plus loin car favoriser une solution technique serait imposer une vision des partages culturels et de leurs financements. Or nous avons ici une version bêta : de nombreuses améliorations sont à prévoir… Dont celles qui vous permettraient de créer (et choisir) vous-même les outils de monétisation qui vous intéressent !

En route pour la version 1 !

On aimerait bien pouvoir dire à Chocobozzz « Bon, maintenant, va faire une petite sieste jusqu’à la prochaine ère glacière », mais… Il reste tellement de choses à faire ! Déjà, parce qu’avec la sortie d’une version bêta viennent les retours des bêta-tests. Ensuite parce que nous comptons avancer pour proposer une version 1 d’ici la fin de l’année

Or ce ne sont pas les envies qui manquent pour améliorer PeerTube vers sa V1 : stabiliser le code, bien sûr, mais aussi travailler sa capacité à passer à l’échelle (comment se comporte PeerTube sur un petit RaspberryPi ou sur des grrrrrrrrros serveurs). Nous souhaitons aussi avoir un système d’internationalisation pour pouvoir traduire l’interface du logiciel, un outil pour mettre en ligne des sous-titres sur les vidéos, travailler le module de commentaires innovant imaginé sur le forum des contributions…

Dans nos rêves les plus fous, il y a aussi des outils statistiques plus poussés, un système de hooks ou de plugin qui permettent de personnaliser son instance PeerTube (changer l’apparence, ajouter un bouton ici ou là, etc.), une application mobile… Mais tout cela dépendra des énergies qui nous rejoindront comme de notre capacité à les accueillir et à collaborer ensemble.

Car tout cela a un coût : humain, associatif et financier. Si nous avons pu prolonger le contrat de Chocobozzz, c’est grâce à des dons qui ont été faits pour l’ensemble des actions de Framasoft. Ainsi, son temps de développement ne sera plus exclusivement consacré à PeerTube, car d’autres logiciels libres ont aussi besoin de ses talents (rassurez-vous, hein : il va quand même continuer à travailler sur son beau bébé ^^).

Longue vie à PeerTube !

Le fait est que nous allons devoir trouver comment pérenniser le poste de Chocobozzz et le projet PeerTube, qui nous semble avoir toutes les qualités pour proposer, à terme, une alternative éthique et astucieuse aux géants de la vidéo sur le web. Si nous cherchons encore comment faire, nous savons que nous ne voulons pas uniquement nous reposer sur la générosité de la communauté francophone.

En attendant, c’est aujourd’hui le jour où nous pouvons rendre publics les efforts qui ont été menés jusqu’à présent, en espérant que cela titille au moins votre curiosité… et au mieux vos envies de contribuer à cette belle aventure (ça se passe sur notre forum !).

Car oui, la route vers une alternative à YouTube est longue… Mais on vient d’en défricher la voie, et on vous assure qu’elle est Libre !

L’équipe Framasoft, qui lève son chapeau à Chocobozzz.

Pour aller plus loin