Les données que récolte Google – Ch.6

Voici déjà la traduction du sixième chapitre de Google Data Collection, l’étude élaborée par l’équipe du professeur Douglas C. Schmidt, spécialiste des systèmes logiciels, chercheur et enseignant à l’Université Vanderbilt. Si vous les avez manqués, retrouvez les chapitres précédents déjà publiés.


Il s’agit cette fois de comprendre comment Google complète les données collectées avec les données provenant des applications et des comptes connectés des utilisateurs.

Traduction Framalang : Auteurs: Khrys, Piup, Goofy, David_m, Côme, Fabrice, Serici

 

VI. Données collectées par les applications clés de Google destinées aux particuliers

67. Google a des dizaines de produits et services qui évoluent en permanence (une liste est disponible dans le tableau 4, section IX.B de l’annexe). On accède souvent à ces produits grâce à un compte Google (ou on l’y associe), ce qui permet à Google de relier directement les détails des activités de l’utilisateur de ses produits et services à un profil utilisateur. En plus des données d’usage de ses produits, Google collecte également des identificateurs et des données de localisation liés aux appareils lorsqu’on accède aux services Google. 1

68. Certaines applications de Google (p.ex. YouTube, Search, Gmail et Maps) occupent une place centrale dans les tâches de base qu’une multitude d’utilisateurs effectuent quotidiennement sur leurs appareils fixes ou mobiles. Le tableau 2 décrit la portée de ces produits clés. Cette section explique comment chacune de ces applications majeures collecte les informations des utilisateurs.

Tableau 2 : Portée mondiale des principales applications Google

Produits  Utilisateurs actifs
Search  Plus d’un milliard d’utilisateurs actifs par mois, 90.6 % de part de marché des moteurs de recherche 2
Youtube  Plus de 1,8 milliard d’utilisateurs inscrits et actifs par mois 3
Maps  Plus d’un milliard d’utilisateurs actifs par mois 4
Gmail  1,2 milliard d’utilisateurs enregistrés 5

A. Recherche

69. Google Search est le moteur de recherche sur internet le plus populaire au monde 6, avec plus de 11 milliards de requêtes par mois aux États-Unis 7. En plus de renvoyer un classement de pages web en réponse aux requêtes globales des utilisateurs, Google exploite d’autres outils basés sur la recherche, tels que Google Finance, Flights (vols), News (actualités), Scholar (recherche universitaire), Patents (brevets), Books (livres), Images, Videos et Hotels. Google utilise ses applications de recherche afin de collecter des données liées aux recherches, à l’historique de navigation ainsi qu’aux activités d’achats et de clics sur publicités. Par exemple, Google Finance collecte des informations sur le type d’actions que les utilisateurs peuvent suivre, tandis que Google Flight piste leurs réservations et recherches de voyage.

70. Dès lors que Search est utilisé, Google collecte les données de localisation par différents biais, sur ordinateur ou sur mobile, comme décrit dans les sections précédentes. Google enregistre toute l’activité de recherche d’un utilisateur ou utilisatrice et la relie à son compte Google si cette personne est connectée. L’illustration 13 montre un exemple d’informations collectées par Google sur une recherche utilisateur par mot-clé et la navigation associée.

Un exemple de collecte de données de recherche extrait de la page My Activity (Mon Activité) d'un utilisateur
Illustration 13 : Un exemple de collecte de données de recherche extrait de la page My Activity (Mon Activité) d’un utilisateur

 

71. Non seulement c’est le moteur de recherche par défaut sur Chrome et les appareils Google, mais Google Search est aussi l’option par défaut sur d’autres navigateurs internet et applications grâce à des arrangements de distribution. Ainsi, Google est récemment devenu le moteur de recherche par défaut sur le navigateur internet Mozilla Firefox 8 dans des régions clés (dont les USA et le Canada), une position occupée auparavant par Yahoo. De même, Apple est passé de Microsoft Bing à Google pour les résultats de recherche via Siri sur les appareils iOS et Mac 9. Google a des accords similaires en place avec des OEM (fabricants d’équipement informatique ou électronique) 10, ce qui lui permet d’atteindre les consommateurs mobiles.

B. YouTube

72. YouTube met à disposition des utilisateurs et utilisatrices une plateforme pour la mise en ligne et la visualisation de contenu vidéo. Il attire plus de 180 millions de personnes rien qu’aux États-Unis et a la particularité d’être le deuxième site le plus visité des États-Unis 11, juste derrière Google Search. Au sein des entreprises de streaming multimédia, YouTube possède près de 80 % de parts de marché en termes de visites mensuelles (comme décrit dans l’illustration 14). La quantité de contenu mis en ligne et visualisé sur YouTube est conséquente : 400 heures de vidéo sont mises en ligne chaque minute 12 et 1 milliard d’heures de vidéo sont visualisées quotidiennement sur la plateforme YouTube.13

Illustration 14 : Comparaison d'audiences mensuelles des principaux sites multimédia aux États-Unis

 

Illustration 14 : Comparaison d’audiences mensuelles des principaux sites multimédia aux États-Unis 14

73. Les utilisateurs peuvent accéder à YouTube sur l’ordinateur (navigateur internet), sur leurs appareils mobiles (application et/ou navigateur internet) et sur Google Home (via un abonnement payant appelé YouTube Red). Google collecte et sauvegarde l’historique de recherche, l’historique de visualisation, les listes de lecture, les abonnements et les commentaires aux vidéos. La date et l’horaire de chaque activité sont ajoutés à ces informations.

74. Si un utilisateur se connecte à son compte Google pour accéder à n’importe quelle application Google via un navigateur internet (par ex. Chrome, Firefox, Safari), Google reconnaît l’identité de l’utilisateur, même si l’accès à la vidéo est réalisé par un site hors Google (ex. : vidéos YouTube lues sur cnn.com). Cette fonctionnalité permet à Google de pister l’utilisation YouTube d’un utilisateur à travers différentes plateformes tierces. L’illustration 15 montre un exemple de données YouTube collectées.

 

Illustration 15 : Exemple de collecte de données YouTube dans My Activity (Mon Activité)
Illustration 15 : Exemple de collecte de données YouTube dans My Activity (Mon Activité)

 

75. Google propose également un produit YouTube différencié pour les enfants, appelé YouTube Kids, dans l’intention d’offrir une version « familiale » de YouTube avec des fonctionnalités de contrôle parental et de filtres vidéos. Google collecte des informations de YouTube Kids, notamment le type d’appareil, le système d’exploitation, l’identifiant unique de l’appareil, les informations de journalisation et les détails d’utilisation du service. Google utilise ensuite ces informations pour fournir des annonces publicitaires limitées, qui ne sont pas cliquables et dont le format, la durée et le site sont limités.15.

C. Maps

76. Maps est l’application phare de navigation routière de Google. Google Maps peut déterminer les trajets et la vitesse d’un utilisateur et ses lieux de fréquentation régulière (ex. : domicile, travail, restaurants et magasins). Cette information donne à Google une idée des intérêts (ex. : préférences d’alimentation et d’achats), des déplacements et du comportement de l’utilisateur.

77. Maps utilise l’adresse IP, le GPS, le signal cellulaire et les points d’accès au Wi-Fi pour calculer la localisation d’un appareil. Les deux dernières informations sont collectées par le biais de l’appareil où Maps est utilisé, puis envoyées à Google pour évaluer la localisation via son interface de localisation (Location API). Cette interface fournit de nombreux détails sur un utilisateur, dont les coordonnées géographiques, son état stationnaire ou en mouvement, sa vitesse et la détermination probabiliste de son mode de transport (ex. : en vélo, voiture, train, etc.).

78. Maps sauvegarde un historique des lieux qu’un utilisateur connecté à Maps par son compte Googe a visités. L’illustration 16. montre un exemple d’un tel historique 16. Les points rouges indiquent les coordonnées géographiques recueillies par Maps lorsque l’utilisateur se déplace ; les lignes bleues représentent les projections de Maps sur le trajet réel de l’utilisateur.

Illustration 16 : Exemple d'un historique Google Maps (« Timeline ») d'un utilisateur réel
Illustration 16 : Exemple d’un historique Google Maps (« Timeline ») d’un utilisateur réel

79. La précision des informations de localisation recueillies par les applications de navigation routière permet à Google de non seulement cibler des audiences publicitaires, mais l’aide aussi à fournir des annonces publicitaires aux utilisateurs lorsqu’ils s’approchent d’un magasin 17. Google Maps utilise de plus ces informations pour générer des données de trafic routier en temps réel.18

D. Gmail

80. Gmail sauvegarde tous les messages (envoyés et reçus), le nom de l’expéditeur, son adresse email et la date et l’heure des messages envoyés ou reçus. Puisque Gmail représente pour beaucoup un répertoire central pour la messagerie électronique, il peut déterminer leurs intérêts en scannant le contenu de leurs courriels, identifier les adresses de commerçants grâce à leurs courriels publicitaires ou les factures envoyées par message électronique, et connaître l’agenda d’un utilisateur (ex. : réservations à dîner, rendez-vous médicaux…). Étant donné que les utilisateurs utilisent leur identifiant Gmail pour des plateformes tierces (Facebook, LinkedIn…), Google peut analyser tout contenu qui leur parvient sous forme de courriel (ex. : notifications, messages).

81. Depuis son lancement en 2004 jusqu’à la fin de l’année 2017 (au moins), Google peut avoir analysé le contenu des courriels Gmail pour améliorer le ciblage publicitaire et les résultats de recherche ainsi que ses filtres de pourriel. Lors de l’été 2016, Google a franchi une nouvelle étape et a modifié sa politique de confidentialité pour s’autoriser à fusionner les données de navigation, autrefois anonymes, de sa filiale DoubleClick (qui fournit des publicités personnalisées sur internet) avec les données d’identification personnelles qu’il amasse à travers ses autres produits, dont Gmail 19. Le résultat : « les annonces publicitaires DoubleClick qui pistent les gens sur Internet peuvent maintenant leur être adaptées sur mesure, en se fondant sur les mots-clés qu’ils ont utilisés dans leur messagerie Gmail. Cela signifie également que Google peut à présent reconstruire le portrait complet d’une utilisatrice ou utilisateur par son nom, en fonction de tout ce qui est écrit dans ses courriels, sur tous les sites visités et sur toutes les recherches menées. » 20

82. Vers la fin de l’année 2017, Google a annoncé qu’il arrêterait la personnalisation des publicités basées sur les messages Gmail 21. Cependant, Google a annoncé récemment qu’il continue à analyser les messages Gmail pour certaines raisons 22.




Les données que récolte Google – Ch.4

Voici déjà la traduction du quatrième chapitre de Google Data Collection, l’étude élaborée par l’équipe du professeur Douglas C. Schmidt, spécialiste des systèmes logiciels, chercheur et enseignant à l’Université Vanderbilt. Si vous les avez manqués, retrouvez les chapitres précédents déjà publiés.
Il s’agit cette fois d’explorer les stratégies des régies publicitaires qui opèrent en arrière-plan : des opérations fort discrètes mais terriblement efficaces…

Traduction Framalang : Côme, goofy, Khrys,Obny, Penguin, Piup, serici.

IV. Collecte de données par les outils des annonceurs et des diffuseurs

29. Une source majeure de collecte des données d’activité des utilisateurs provient des outils destinés au annonceurs et aux éditeurs tels que Google Analytics, DoubleClick, AdSense, AdWords et AdMob. Ces outils ont une portée énorme ; par exemple, plus d’un million d’applications mobiles utilisent AdMob23, plus d’un million d’annonceurs utilisent AdWords24, plus de 15 millions de sites internet utilisent AdSense25 et plus de 30 millions de sites utilisent Google Analytics26.

30. Au moment de la rédaction du présent rapport, Google a rebaptisé AdWords « Google Ads » et DoubleClick « Google Ad Manager« , mais aucune modification n’a été apportée aux fonctionnalités principales des produits, y compris la collecte d’informations par ces produits27. Par conséquent, pour les besoins du présent rapport, les premiers noms ont été conservés afin d’éviter toute confusion avec des noms de domaine connexes (tels que doubleclick.net).

31. Voici deux principaux groupes d’utilisateurs des outils de Google axés sur l’édition — et les annonces publicitaires :

  • Les éditeurs de sites web et d’applications, qui sont des organisations qui possèdent des sites web et créent des applications mobiles. Ces entités utilisent les outils de Google pour (1) gagner de l’argent en permettant l’affichage d’annonces aux visiteurs sur leurs sites web ou applications, et (2) mieux suivre et comprendre qui visite leurs sites et utilise leurs applications. Les outils de Google placent des cookies et exécutent des scripts dans les navigateurs des visiteurs du site web pour aider à déterminer l’identité d’un utilisateur et suivre son intérêt pour le contenu et son comportement en ligne. Les bibliothèques d’applications mobiles de Google suivent l’utilisation des applications sur les téléphones mobiles.
  • Les annonceurs, qui sont des organisations qui paient pour que des bannières, des vidéos ou d’autres publicités soient diffusées aux utilisateurs lorsqu’ils naviguent sur Internet ou utilisent des applications. Ces entités utilisent les outils de Google pour cibler des profils spécifiques de personnes pour que les publicités augmentent le retour sur leurs investissements marketing (les publicités mieux ciblées génèrent généralement des taux de clics et de conversion plus élevés). De tels outils permettent également aux annonceurs d’analyser leurs audiences et de mesurer l’efficacité de leur publicité numérique en regardant sur quelles annonces les utilisateurs cliquent et à quelle fréquence, et en donnant un aperçu du profil des personnes qui ont cliqué sur les annonces.

32. Ensemble, ces outils recueillent des informations sur les activités des utilisateurs sur les sites web et dans les applications, comme le contenu visité et les annonces cliquées. Ils travaillent en arrière-plan — en général imperceptibles par des utilisateurs. La figure 7 montre certains de ces outils clés, avec des flèches indiquant les données recueillies auprès des utilisateurs et les publicités qui leur sont diffusées.

Figure 7 : Produits Google destinés aux éditeurs et annonceurs28

33. Les informations recueillies par ces outils comprennent un identifiant non personnel que Google peut utiliser pour envoyer des publicités ciblées sans identifier les informations personnelles de la personne concernée. Ces identificateurs peuvent être spécifiques à l’appareil ou à la session, ainsi que permanents ou semi-permanents. Le tableau 1 liste un ensemble de ces identificateurs. Afin d’offrir aux utilisateurs un plus grand anonymat lors de la collecte d’informations pour le ciblage publicitaire, Google s’est récemment tourné vers l’utilisation d’identifiants uniques semi-permanents (par exemple, les GAID)29. Des sections ultérieures décrivent en détail la façon dont ces outils recueillent les données des utilisateurs et l’utilisation de ces identificateurs au cours du processus de collecte des données.

Tableau 1: Identificateurs transmis à Google

Identificateur Type Description
GAID/IDFA Semi-permanent Chaine de caractères alphanumériques pour appareils Android et iOS, pour permettre les publicités ciblées sur mobile. Réinitialisable par l’utilisateur.
ID client Semi-permanent ID créé la première fois qu’un cookie est stocké sur le navigateur. Utilisé pour relier les sessions de navigations. Réinitialisé lorsque les cookies du navigateur sont effacés.
Adresse IP Semi-permanent Une unique suite de nombre qui identifie le réseau par lequel un appareil accède à internet.
ID appareil Android Semi-permanent Nombre généré aléatoirement au premier démarrage d’un appareil. Utilisé pour identifier l’appareil. En retrait progressif pour la publicité. Réinitialisé lors d’une remise à zéro de l’appareil.
Google Services Framework (GSF) Semi-permanent Nombre assigné aléatoirement lorsqu’un utilisateur s’enregistre pour la première fois dans les services Google sur un appareil. Utilisé pour identifier un appareil unique. Réinitialisé lors d’une remise à zéro de l’appareil.
IEMI / MEID Permanent Identificateur utilisé dans les standards de communication mobile. Unique pour chaque téléphone portable.
Adresse MAC Permanent Identificateur unique de 12 caractères pour un élément matériel (ex. : routeur).
Numéro de série Permanent Chaine de caractères alphanumériques utilisée pour identifier un appareil.

A. Google Analytics et DoubleClick

34. DoubleClick et Google Analytics (GA) sont les produits phares de Google en matière de suivi du comportement des utilisateurs et d’analyse du trafic des pages Web sur les périphériques de bureau et mobiles. GA est utilisé par environ 75 % des 100 000 sites Web les plus visités30. Les cookies DoubleClick sont associés à plus de 1,6 million de sites Web31.

35. GA utilise de petits segments de code de traçage (appelés « balises de page ») intégrés dans le code HTML d’un site Web32. Après le chargement d’une page Web à la demande d’un utilisateur, le code GA appelle un fichier analytics.js qui se trouve sur les serveurs de Google. Ce programme transfère un instantané « par défaut » des données de l’utilisateur à ce moment, qui comprend l’adresse de la page web visitée, le titre de la page, les informations du navigateur, l’emplacement actuel (déduit de l’adresse IP), et les paramètres de langue de l’utilisateur. Les scripts de GA utilisent des cookies pour suivre le comportement des utilisateurs.

36. Le script de GA, la première fois qu’il est exécuté, génère et stocke un cookie spécifique au navigateur sur l’ordinateur de l’utilisateur. Ce cookie a un identificateur de client unique (voir le tableau 1 pour plus de détails)33 Google utilise l’identificateur unique pour lier les cookies précédemment stockés, qui capturent l’activité d’un utilisateur sur un domaine particulier tant que le cookie n’expire pas ou que l’utilisateur n’efface pas les cookies mis en cache dans son navigateur34

37. Alors qu’un cookie GA est spécifique au domaine particulier du site Web que l’utilisateur visite (appelé « cookie de première partie »), un cookie DoubleClick est généralement associé à un domaine tiers commun (tel que doubleclick.net). Google utilise de tels cookies pour suivre l’interaction de l’utilisateur sur plusieurs sites web tiers35 Lorsqu’un utilisateur interagit avec une publicité sur un site web, les outils de suivi de conversion de DoubleClick (par exemple, Floodlight) placent des cookies sur l’ordinateur de l’utilisateur et génèrent un identifiant client unique36 Par la suite, si l’utilisateur visite le site web annoncé, le serveur DoubleClick accède aux informations stockées dans le cookie, enregistrant ainsi la visite comme une conversion valide.

B. AdSense, AdWords et AdMob

38. AdSense et AdWords sont des outils de Google qui diffusent des annonces sur les sites Web et dans les résultats de recherche Google, respectivement. Plus de 15 millions de sites Web ont installé AdSense pour afficher des annonces sponsorisées37 De même, plus de 2 millions de sites web et applications, qui constituent le réseau Google Display Network (GDN) et touchent plus de 90 % des internautes38 affichent des annonces AdWords.

39. AdSense collecte des informations indiquant si une annonce a été affichée ou non sur la page web de l’éditeur. Il recueille également la façon dont l’utilisateur a interagi avec l’annonce, par exemple en cliquant sur l’annonce ou en suivant le mouvement du curseur sur l’annonce39. AdWords permet aux annonceurs de diffuser des annonces de recherche sur Google Search, d’afficher des annonces sur les pages des éditeurs et de superposer des annonces sur des vidéos YouTube. Pour suivre les taux de clics et de conversion des utilisateurs, les publicités AdWords placent un cookie sur les navigateurs des utilisateurs pour identifier l’utilisateur s’il visite par la suite le site web de l’annonceur ou s’il effectue un achat40.

40. Bien qu’AdSense et AdWords recueillent également des données sur les appareils mobiles, leur capacité d’obtenir des renseignements sur les utilisateurs des appareils mobiles est limitée puisque les applications mobiles ne partagent pas de cookies entre elles, une technique d’isolement appelée « bac à sable »41 qui rend difficile pour les annonceurs de suivre le comportement des utilisateurs entre différentes applications mobiles.

41 Pour résoudre ce problème, Google et d’autres entreprises utilisent des « bibliothèques d’annonces » mobiles (comme AdMob) qui sont intégrées dans les applications par leurs développeurs pour diffuser des annonces dans les applications mobiles. Ces bibliothèques compilent et s’exécutent avec les applications et envoient à Google des données spécifiques à l’application à laquelle elles sont intégrées, y compris les emplacements GPS, la marque de l’appareil et le modèle de l’appareil lorsque les applications ont les autorisations appropriées. Comme on peut le voir dans les analyses de trafic de données (Figure 8), et comme on peut trouver confirmation sur les propres pages web des développeurs de Google42, de telles bibliothèques peuvent également envoyer des données personnelles de l’utilisateur, telles que l’âge et le genre, tout cela va vers Google à chaque fois que les développeurs d’applications envoient explicitement leurs valeurs numériques vers la bibliothèque.

Figure 8 : Aperçu des informations renvoyées à Google lorsqu’une application est lancée

C. Association de données recueillies passivement et d’informations à caractère personnel

42. Comme nous l’avons vu plus haut, Google recueille des données par l’intermédiaire de produits pour éditeurs et annonceurs, et associe ces données à une variété d’identificateurs semi-permanents et anonymes. Google a toutefois la possibilité d’associer ces identifiants aux informations personnelles d’un utilisateur. C’est ce qu’insinuent les déclarations faites dans la politique de confidentialité de Google, dont des extraits sont présentés à la figure 9. La zone de texte à gauche indique clairement que Google peut associer des données provenant de services publicitaires et d’outils d’analyse aux informations personnelles d’un utilisateur, en fonction des paramètres du compte de l’utilisateur. Cette disposition est activée par défaut, comme indiqué dans la zone de texte à droite.

Figure 9 : Page de confidentialité de Google pour la collecte de sites web tiers et l’association avec des informations personnelles4344.

43. De plus, une analyse du trafic de données échangé avec les serveurs de Google (résumée ci-dessous) a permis d’identifier deux exemples clés (l’un sur Android et l’autre sur Chrome) qui montrent la capacité de Google à corréler les données recueillies de façon anonyme avec les renseignements personnels des utilisateurs.

1) L’identificateur de publicité mobile peut être désanonymé grâce aux données envoyées à Google par Android.

44. Les analyses du trafic de données communiqué entre un téléphone Android et les domaines de serveur Google suggèrent un moyen possible par lequel des identifiants anonymes (GAID dans ce cas) peuvent être associés au compte Google d’un utilisateur. La figure 10 décrit ce processus en une série de trois étapes clés.

45. Dans l’étape 1, une donnée de check-in est envoyée à l’URL android.clients.google.com/checkin. Cette communication particulière fournit une synchronisation de données Android aux serveurs Google et contient des informations du journal Android (par exemple, du journal de récupération), des messages du noyau, des crash dumps, et d’autres identifiants liés au périphérique. Un instantané d’une demande d’enregistrement partiellement décodée envoyée au serveur de Google à partir d’Android est montré en figure 10.

Figure 10 : Les identifiants d’appareil sont envoyés avec les informations de compte dans les requêtes de vérification Android.

46. Comme l’indiquent les zones pointées, Android envoie à Google, au cours du processus d’enregistrement, une variété d’identifiants permanents importants liés à l’appareil, y compris l’adresse MAC de l’appareil, l’IMEI /MEID et le numéro de série du dispositif. En outre, ces demandes contiennent également l’identifiant Gmail de l’utilisateur Android, ce qui permet à Google de relier les informations personnelles d’un utilisateur aux identifiants permanents des appareils Android.

47. À l’étape 2, le serveur de Google répond à la demande d’enregistrement. Ce message contient un identifiant de cadre de services Google (GSF ID)45 qui est similaire à l’« Android ID »46 (voir le tableau 1 pour les descriptions).

48. L’étape 3 implique un autre cas de communication où le même identifiant GSF (de l’étape 2) est envoyé à Google en même temps que le GAID. La figure 10 montre l’une de ces transmissions de données à android.clients.google.com/fdfe/bulkDetails?au=1.

49. Grâce aux trois échanges de données susmentionnés, Google reçoit les informations nécessaires pour connecter un GAID avec des identifiants d’appareil permanents ainsi que les identifiants de compte Google des utilisateurs.

50. Ces échanges de données interceptés avec les serveurs de Google à partir d’un téléphone Android montrent comment Google peut connecter les informations anonymisées collectées sur un appareil mobile Android via les outils DoubleClick, Analytics ou AdMob avec l’identité personnelle de l’utilisateur. Au cours de la collecte de données sur 24 heures à partir d’un téléphone Android sans mouvement ni activité, deux cas de communications d’enregistrement avec des serveurs Google ont été observés. Une analyse supplémentaire est toutefois nécessaire pour déterminer si un tel échange d’informations a lieu avec une certaine périodicité ou s’il est déclenché par des activités spécifiques sur les téléphones.

2) L’ID du cookie DoubleClick est relié aux informations personnelles de l’utilisateur sur le compte Google.

51. La section précédente expliquait comment Google peut désanonymiser l’identité de l’utilisateur via les données passives et anonymisées qu’il collecte à partir d’un appareil mobile Android. Cette section montre comment une telle désanonymisation peut également se produire sur un ordinateur de bureau/ordinateur portable.

52. Les données anonymisées sur les ordinateurs de bureau et portables sont collectées par l’intermédiaire d’identifiants basés sur des cookies (par ex. Cookie ID), qui sont typiquement générés par les produits de publicité et d’édition de Google (par ex. DoubleClick) et stockés sur le disque dur local de l’utilisateur. L’expérience présentée ci-dessous a permis d’évaluer si Google peut établir un lien entre ces identificateurs (et donc les renseignements qui y sont associés) et les informations personnelles d’un utilisateur.
Cette expérience comportait les étapes ordonnées suivantes :

  1. Ouverture d’une nouvelle session de navigation (Chrome ou autre) (pas de cookies enregistrés, par exemple navigation privée ou incognito) ;
  2. Visite d’un site Web tiers qui utilisait le réseau publicitaire DoubleClick de Google ;
  3. Visite du site Web d’un service Google largement utilisé (Gmail dans ce cas) ;
  4. Connexion à Gmail.

53. Au terme des étapes 1 et 2, dans le cadre du processus de chargement des pages, le serveur DoubleClick a reçu une demande lorsque l’utilisateur a visité pour la première fois le site Web tiers. Cette demande faisait partie d’une série de reqêtes comprenant le processus d’initialisation DoubleClick lancé par le site Web de l’éditeur, qui a conduit le navigateur Chrome à installer un cookie pour le domaine DoubleClick. Ce cookie est resté sur l’ordinateur de l’utilisateur jusqu’à son expiration ou jusqu’à ce que l’utilisateur efface manuellement les cookies via les paramètres du navigateur.

54. Ensuite, à l’étape 3, lorsque l’utilisateur visite Gmail, il est invité à se connecter avec ses identifiants Google. Google gère l’identité à l’aide d’une architecture single sign on (SSO) [NdT : authentification unique], dans laquelle les identifiants sont fournis à un service de compte (ici accounts.google.com) en échange d’un « jeton d’authentification », qui peut ensuite être présenté à d’autres services Google pour identifier les utilisateurs. À l’étape 4, lorsqu’un utilisateur accède à son compte Gmail, il se connecte effectivement à son compte Google, qui fournit alors à Gmail un jeton d’autorisation pour vérifier l’identité de l’utilisateur.47 Ce processus est décrit à la figure 24 de la section IX.E de l’annexe.

55. Dans la dernière étape de ce processus de connexion, une requête est envoyée au domaine DoubleClick. Cette requête contient à la fois le jeton d’authentification fourni par Google et le cookie de suivi défini lorsque l’utilisateur a visité le site web tiers à l’étape 2 (cette communication est indiquée à la figure 11). Cela permet à Google de relier les informations d’identification Google de l’utilisateur à un cookie DoubleClick. Par conséquent, si les utilisateurs n’effacent pas régulièrement les cookies de leur navigateur, leurs informations de navigation sur les pages Web de tiers qui utilisent les services DoubleClick pourraient être associées à leurs informations personnelles sur Google Account.

Figure 11 : La requête à DoubleClick.net inclut le jeton d’authentification Google et les cookies passés.

56. Il est donc établi à présent que Google recueille une grande variété de données sur les utilisateurs par l’intermédiaire de ses outils d’éditeur et d’annonceur, sans que l’utilisateur en ait une connaissance directe. Bien que ces données soient collectées à l’aide d’identifiants anonymes, Google a la possibilité de relier ces informations collectées aux identifiants personnels de l’utilisateur stockés sur son compte Google.

57. Il convient de souligner que la collecte passive de données d’utilisateurs de Google à partir de pages web tierces ne peut être empêchée à l’aide d’outils populaires de blocage de publicité48, car ces outils sont conçus principalement pour empêcher la présence de publicités pendant que les utilisateurs naviguent sur des pages web tierces49. La section suivante examine de plus près l’ampleur de cette collecte de données.




Ce que peut faire votre Fournisseur d’Accès à l’Internet

Nous sommes ravis et honorés d’accueillir Stéphane Bortzmeyer qui allie une compétence de haut niveau sur des questions assez techniques et une intéressante capacité à rendre assez claires des choses complexes. Nous le remercions de nous expliquer dans cet article quelles pratiques douteuses tentent certains fournisseurs d’accès à l’Internet, quelles menaces cela représente pour la confidentialité comme pour la neutralité du Net, et pourquoi la parade du chiffrement fait l’objet d’attaques répétées de leur part.

L’actualité de M. Bortzmeyer est son ouvrage à paraître intitulé Cyberstructure, L’Internet : un espace politique. Vous pouvez en  lire un extrait et le commander en souscription jusqu’au 10 décembre, où vous pourrez rencontrer l’auteur à la librairie À Livr’ouvert.


Introduction

Photo par Ophelia Noor, CC BY-SA 2.0,

Pour vous connecter à l’Internet, vous avez besoin d’un FAI (Fournisseur d’Accès à l’Internet), une entreprise ou une association dont le métier est de relier des individus ou des organisations aux autres FAI. En effet, l’Internet est une coalition de réseaux, chaque FAI a le sien, et ce qui constitue l’Internet global, c’est la connexion de tous ces FAI entre eux. À part devenir soi-même FAI, la seule façon de se connecter à l’Internet est donc de passer par un de ces FAI. La question de la confiance est donc cruciale : qu’est-ce que mon FAI fait sans me le dire ?

Outre son travail visible (vous permettre de regarder Wikipédia, et des vidéos avec des chats mignons), le FAI peut se livrer à des pratiques plus contestables, que cet article va essayer d’expliquer. L’article est prévu pour un vaste public et va donc simplifier une réalité parfois assez compliquée.

Notons déjà tout de suite que je ne prétends pas que tous les FAI mettent en œuvre les mauvaises pratiques décrites ici. Il y a heureusement des FAI honnêtes. Mais toutes ces pratiques sont réellement utilisées aujourd’hui, au moins par certains FAI.

La langue française a un seul verbe, « pouvoir », pour désigner à la fois une possibilité technique (« ma voiture peut atteindre 140 km/h ») et un droit (« sur une route ordinaire, je peux aller jusqu’à 80 km/h »). Cette confusion des deux possibilités est très fréquente dans les discussions au sujet de l’Internet. Ici, je parlerais surtout des possibilités techniques. Les règles juridiques et morales encadrant les pratiques décrites ici varient selon les pays et sont parfois complexes (et je ne suis ni juriste ni moraliste) donc elles seront peu citées dans cet article.

Au sujet du numérique

Pour résumer les possibilités du FAI (Fournisseur d’Accès à l’Internet), il faut se rappeler de quelques propriétés essentielles du monde numérique :

  • Modifier des données numériques ne laisse aucune trace. Contrairement à un message physique, dont l’altération, même faite avec soin, laisse toujours une trace, les messages envoyés sur l’Internet peuvent être changés sans que ce changement ne se voit.
  • Copier des données numériques, par exemple à des fins de surveillance des communications, ne change pas ces données, et est indécelable. Elle est très lointaine, l’époque où (en tout cas dans les films policiers), on détectait une écoute à un « clic » entendu dans la communication ! Les promesses du genre « nous n’enregistrons pas vos données » sont donc impossibles à vérifier.
  • Modifier les données ou bien les copier est très bon marché, avec les matériels et logiciels modernes. Le FAI qui voudrait le faire n’a même pas besoin de compétences pointues : les fournisseurs de matériel et de logiciel pour FAI ont travaillé pour lui et leur catalogue est rempli de solutions permettant modification et écoute des données, solutions qui ne sont jamais accompagnées d’avertissements légaux ou éthiques.

copie d’écran page symantec
Une publicité pour un logiciel d’interception des communications, même chiffrées. Aucun avertissement légal ou éthique dans la page.

Modifier le trafic réseau

Commençons avec la possibilité technique de modification des données numériques. On a vu qu’elle était non seulement faisable, mais en outre facile. Citons quelques exemples où l’internaute ne recevait pas les données qui avaient été réellement envoyées, mais une version modifiée :

  • de 2011 à 2013 (et peut-être davantage), en France, le FAI SFR modifiait les images envoyées via son réseau, pour en diminuer la taille. Une image perdait donc ainsi en qualité. Si la motivation (diminuer le débit) était compréhensible, le fait que les utilisateurs n’étaient pas informés indique bien que SFR était conscient du caractère répréhensible de cette pratique.
  • en 2018 (et peut-être avant), Orange Tunisie modifiait les pages Web pour y insérer des publicités. La modification avait un intérêt financier évident pour le FAI, et aucun intérêt pour l’utilisateur. On lit parfois que la publicité sur les pages Web est une conséquence inévitable de la gratuité de l’accès à cette page mais, ici, bien qu’il soit client payant, l’utilisateur voit des publicités qui ne rapportent qu’au FAI. Comme d’habitude, l’utilisateur n’avait pas été notifié, et le responsable du compte Twitter d’Orange, sans aller jusqu’à nier la modification (qui est interdite par la loi tunisienne), la présentait comme un simple problème technique.
  • en 2015 (et peut-être avant), Verizon Afrique du Sud modifiait les échanges effectués entre le téléphone et un site Web pour ajouter aux demandes du téléphone des informations comme l’IMEI (un identificateur unique du téléphone) ou bien le numéro de téléphone de l’utilisateur. Cela donnait aux gérants des sites Web des informations que l’utilisateur n’aurait pas donné volontairement. On peut supposer que le FAI se faisait payer par ces gérants de sites en échange de ce service.

Il s’agit uniquement des cas connus, c’est-à-dire de ceux où des experts ont décortiqué ce qui se passait et l’ont documenté. Il y a certainement de nombreux autres cas qui passent inaperçus. Ce n’est pas par hasard si la majorité de ces manipulations se déroulent dans les pays du Sud, où il y a moins d’experts disponibles pour l’analyse, et où l’absence de démocratie politique n’encourage pas les citoyens à  regarder de près ce qui se passe. Il n’est pas étonnant que ces modifications du trafic qui passe dans le réseau soient la règle en Chine. Ces changements du trafic en cours de route sont plus fréquents sur les réseaux de mobiles (téléphone mobile) car c’est depuis longtemps un monde plus fermé et davantage contrôlé, où les FAI ont pris de mauvaises habitudes.

Quelles sont les motivations des FAI pour ces modifications ? Elles sont variées, souvent commerciales (insertion de publicités) mais peuvent être également légales (obligation de censure passant techniquement par une modification des données).

Mais ces modifications sont une violation directe du principe de neutralité de l’intermédiaire (le FAI). La « neutralité de l’Internet » est parfois présentée à tort comme une affaire financière (répartition des bénéfices entre différents acteurs de l’Internet) alors qu’elle est avant tout une protection des utilisateurs : imaginez si la Poste modifiait le contenu de vos lettres avant de les distribuer !

Les FAI qui osent faire cela le savent très bien et, dans tous les cas cités, aucune information des utilisateurs n’avait été faite. Évidemment, « nous changerons vos données au passage, pour améliorer nos bénéfices » est plus difficile à vendre aux clients que « super génial haut débit, vos vidéos et vos jeux plus rapides ! » Parfois, même une fois les interférences avec le trafic analysées et publiées, elles sont niées, mais la plupart du temps, le FAI arrête ces pratiques temporairement, sans explications ni excuses.

Surveiller le trafic réseau

De même que le numérique permet de modifier les données en cours de route, il rend possible leur écoute, à des fins de surveillance, politique ou commerciale. Récolter des quantités massives de données, et les analyser, est désormais relativement simple. Ne croyez pas que vos données à vous sont perdues dans la masse : extraire l’aiguille de la botte de foin est justement ce que les ordinateurs savent faire le mieux.

Grâce au courage du lanceur d’alerte Edward Snowden, la surveillance exercée par les États, en exploitant ces possibilités du numérique, est bien connue. Mais il n’y a pas que les États. Les grands intermédiaires que beaucoup de gens utilisent comme médiateurs de leurs communications (tels que Google ou Facebook) surveillent également massivement leurs utilisateurs, en profitant de leur position d’intermédiaire. Le FAI est également un intermédiaire, mais d’un type différent. Il a davantage de mal à analyser l’information reçue, car elle n’est pas structurée pour lui. Mais par contre, il voit passer tout le trafic réseau, alors que même le plus gros des GAFA (Google, Apple, Facebook, Amazon) n’en voit qu’une partie.

L’existence de cette surveillance par les FAI ne fait aucun doute, mais est beaucoup plus difficile à prouver que la modification des données. Comme pour la modification des données, c’est parfois une obligation légale, où l’État demande aux FAI leur assistance dans la surveillance. Et c’est parfois une décision d’un FAI.

Les données ainsi récoltées sont parfois agrégées (regroupées en catégories assez vastes pour que l’utilisateur individuel puisse espérer qu’on ne trouve pas trace de ses activités), par exemple quand elles sont utilisées à des fins statistiques. Elles sont dans ce cas moins dangereuses que des données individuelles. Mais attention : le diable est dans les détails. Il faut être sûr que l’agrégation a bien noyé les détails individuels. Quand un intermédiaire de communication proclame bien fort que les données sont « anonymisées », méfiez-vous. Le terme est utilisé à tort et à travers, et désigne souvent des simples remplacements d’un identificateur personnel par un autre, tout aussi personnel.

La solution du chiffrement

Ces pratiques de modification ou de surveillance des données sont parfois légales et parfois pas. Même quand elles sont illégales, on a vu qu’elles étaient néanmoins pratiquées, et jamais réprimées par la justice. Il est donc nécessaire de ne pas compter uniquement sur les protections juridiques mais également de déployer des protections techniques contre la modification et l’écoute. Deux catégories importantes de protections existent : minimiser les données envoyées, et les chiffrer. La minimisation consiste à envoyer moins de données, et elle fait partie des protections imposées par le RGPD (Règlement [européen] Général sur la Protection des Données). Combinée au chiffrement, elle protège contre la surveillance. Le chiffrement, lui, est la seule protection contre la modification des données.

Mais c’est quoi, le chiffrement ? Le terme désigne un ensemble de techniques, issues de la mathématique, et qui permet d’empêcher la lecture ou la modification d’un message. Plus exactement, la lecture est toujours possible, mais elle ne permet plus de comprendre le message, transformé en une série de caractères incompréhensibles si on ne connait pas la clé de déchiffrement. Et la modification reste possible mais elle est détectable : au déchiffrement, on voit que les données ont été modifiées. On ne pourra pas les lire mais, au moins, on ne recevra pas des données qui ne sont pas les données authentiques.

Dans le contexte du Web, la technique de chiffrement la plus fréquente se nomme HTTPS (HyperText Transfer Protocol Secure). C’est celle qui est utilisée quand une adresse Web commence par  https:// , ou quand vous voyez un cadenas vert dans votre navigateur, à gauche de l’adresse. HTTPS sert à assurer que les pages Web que vous recevez sont exactement celles envoyées par le serveur Web, et il sert également à empêcher des indiscrets de lire au passage vos demandes et les réponses. Ainsi, dans le cas de la manipulation faite par Orange Tunisie citée plus haut, HTTPS aurait empêché cet ajout de publicités.

Pour toutes ces raisons, HTTPS est aujourd’hui massivement déployé. Vous le voyez de plus en plus souvent par exemple sur ce blog que vous êtes en train de lire.

copie d’écran, page du framablog avec le https et le cadenas vert
Tous les sites Web sérieux ont aujourd’hui HTTPS

Le chiffrement n’est pas utilisé que par HTTPS. Si vous utilisez un VPN (Virtual Private Network, « réseau privé virtuel »), celui-ci chiffre en général les données, et la motivation des utilisateurs de VPN est en effet en général d’échapper à la surveillance et à la modification des données par les FAI. C’est particulièrement important pour les accès publics (hôtels, aéroports, Wifi du TGV) où les manipulations et filtrages sont quasi-systématiques.

Comme toute technique de sécurité, le chiffrement n’est pas parfait, et il a ses limites. Notamment, la communication expose des métadonnées (qui communique, quand, même si on n’a pas le contenu de la communication) et ces métadonnées peuvent être aussi révélatrices que la communication elle-même. Le système « Tor », qui peut être vu comme un type de VPN particulièrement perfectionné, réduit considérablement ces métadonnées.

Le chiffrement est donc une technique indispensable aujourd’hui. Mais il ne plait pas à tout le monde. Lors du FIC (Forum International de la Cybersécurité) en 2015, le représentant d’un gros FAI français déplorait en public qu’en raison du chiffrement, le FAI ne pouvait plus voir ce que faisaient ses clients. Et ce raisonnement est apparu dans un document d’une organisation de normalisation, l’IETF (Internet Engineering Task Force). Ce document, nommé « RFC 8404 »50 décrit toutes les pratiques des FAI qui peuvent être rendues difficiles ou impossibles par le chiffrement. Avant le déploiement massif du chiffrement, beaucoup de FAI avaient pris l’habitude de regarder trop en détail le trafic qui circulait sur leur réseau. C’était parfois pour des motivations honorables, par exemple pour mieux comprendre ce qui passait sur le réseau afin de l’améliorer. Mais, aujourd’hui, compte-tenu de ce qu’on sait sur l’ampleur massive de la surveillance, il est urgent de changer ses pratiques, au lieu de simplement regretter que ce qui était largement admis autrefois soit maintenant rejeté.

Cette liste de pratiques de certains FAI est une information intéressante mais il est dommage que ce document de l’IETF les présente comme si elles étaient toutes légitimes, alors que beaucoup sont scandaleuses et ne devraient pas être tolérées. Si le chiffrement les empêche, tant mieux !

Conclusion

Le déploiement massif du chiffrement est en partie le résultat des pratiques déplorables de certains FAI. Il est donc anormal que ceux-ci se plaignent des difficultés que leur pose le chiffrement. Ils sont les premiers responsables de la méfiance des utilisateurs !

La guerre contre les pratiques douteuses, déjà au XIe siècle… – Image retrouvée sur ce site.

J’ai surtout parlé ici des risques que le FAI écoute les messages, ou les modifie. Mais la place cruciale du FAI dans la communication fait qu’il existe d’autres risques, comme celui de censure de certaines activités ou certains services, ou de coupure d’accès. À l’heure où la connexion à l’Internet est indispensable pour tant d’activités, une telle coupure serait très dommageable.

Quelles sont les solutions, alors ? Se passer de FAI n’est pas réaliste. Certes, des bricoleurs peuvent connecter quelques maisons proches en utilisant des techniques fondées sur les ondes radio, mais cela ne s’étend pas à tout l’Internet. Par contre, il ne faut pas croire qu’un FAI est forcément une grosse entreprise commerciale. Ce peut être une collectivité locale, une association, un regroupement de citoyens. Dans certains pays, des règles très strictes imposées par l’État limitent cette activité de FAI, afin de permettre le maintien du contrôle des citoyens. Heureusement, ce n’est pas (encore ?) le cas en France. Par exemple, la FFDN (Fédération des Fournisseurs d’Accès Internet Associatifs) regroupe de nombreux FAI associatifs en France. Ceux-ci se sont engagés à ne pas recourir aux pratiques décrites plus haut, et notamment à respecter le principe de neutralité.

Bien sûr, monter son propre FAI ne se fait pas en cinq minutes dans son garage. Mais c’est possible en regroupant un collectif de bonnes volontés.

Et, si on n’a pas la possibilité de participer à l’aventure de la création d’un FAI, et pas de FAI associatif proche, quelles sont les possibilités ? Peut-on choisir un bon FAI commercial, en tout cas un qui ne viole pas trop les droits des utilisateurs ? Il est difficile de répondre à cette question. En effet, aucun FAI commercial ne donne des informations détaillées sur ce qui est possible et ne l’est pas. Les manœuvres comme la modification des images dans les réseaux de mobiles sont toujours faites en douce, sans information des clients. Même si M. Toutlemonde était prêt à passer son week-end à comparer les offres de FAI, il ne trouverait pas l’information essentielle « est-ce que ce FAI s’engage à rester strictement neutre ? » En outre, contrairement à ce qui existe dans certains secteurs économiques, comme l’agro-alimentaire, il n’existe pas de terminologie standardisée sur les offres des FAI, ce qui rend toute comparaison difficile.

Dans ces conditions, il est difficile de compter sur le marché pour réguler les pratiques des FAI. Une régulation par l’État n’est pas forcément non plus souhaitable (on a vu que c’est parfois l’État qui oblige les FAI à surveiller les communications, ainsi qu’à modifier les données transmises). À l’heure actuelle, la régulation la plus efficace reste la dénonciation publique des mauvaises pratiques : les FAI reculent souvent, lorsque des modifications des données des utilisateurs sont analysées et citées en public. Cela nécessite du temps et des efforts de la part de ceux et celles qui font cette analyse, et il faut donc saluer leur rôle.




Les données que récolte Google – Ch.3

Voici déjà la traduction du troisième chapitre de Google Data Collection, l’étude élaborée par l’équipe du professeur Douglas C. Schmidt, spécialiste des systèmes logiciels, chercheur et enseignant à l’Université Vanderbilt. Si vous les avez manqués, retrouvez les chapitres précédents déjà publiés.

Il s’agit aujourd’hui de mesurer ce que les plateformes les plus populaires recueillent de nos smartphones

Traduction Framalang : Côme, goofy, Khrys, Mika, Piup. Remerciements particuliers à badumtss qui a contribué à la traduction de l’infographie.

La collecte des données par les plateformes Android et Chrome

11. Android et Chrome sont les plateformes clés de Google qui facilitent la collecte massive de données des utilisateurs en raison de leur grande portée et fréquence d’utilisation. En janvier 2018, Android détenait 53 % du marché américain des systèmes d’exploitation mobiles (iOS d’Apple en détenait 45 %)51 et, en mai 2017, il y avait plus de 2 milliards d’appareils Android actifs par mois dans le monde.52

12. Le navigateur Chrome de Google représentait plus de 60 % de l’utilisation mondiale de navigateurs Internet avec plus d’un milliard d’utilisateurs actifs par mois, comme l’indiquait le rapport Q4 10K de 201753. Les deux plateformes facilitent l’usage de contenus de Google et de tiers (p.ex. applications et sites tiers) et fournissent donc à Google un accès à un large éventail d’informations personnelles, d’activité web, et de localisation.

A. Collecte d’informations personnelles et de données d’activité

13. Pour télécharger et utiliser des applications depuis le Google Play Store sur un appareil Android, un utilisateur doit posséder (ou créer) un compte Google, qui devient une passerelle clé par laquelle Google collecte ses informations personnelles, ce qui comporte son nom d’utilisateur, son adresse de messagerie et son numéro de téléphone. Si un utilisateur s’inscrit à des services comme Google Pay54, Android collecte également les données de la carte bancaire, le code postal et la date de naissance de l’utilisateur. Toutes ces données font alors partie des informations personnelles de l’utilisateur associées à son compte Google.

14. Alors que Chrome n’oblige pas le partage d’informations personnelles supplémentaires recueillies auprès des utilisateurs, il a la possibilité de récupérer de telles informations. Par exemple, Chrome collecte toute une gamme d’informations personnelles avec la fonctionnalité de remplissage automatique des formulaires, qui incluent typiquement le nom d’utilisateur, l’adresse, le numéro de téléphone, l’identifiant de connexion et les mots de passe.55 Chrome stocke les informations saisies dans les formulaires sur le disque dur de l’utilisateur. Cependant, si l’utilisateur se connecte à Chrome avec un compte Google et active la fonctionnalité de synchronisation, ces informations sont envoyées et stockées sur les serveurs de Google. Chrome pourrait également apprendre la ou les langues que parle la personne avec sa fonctionnalité de traduction, activée par défaut.56

15. En plus des données personnelles, Chrome et Android envoient tous deux à Google des informations concernant les activités de navigation et l’emploi d’applications mobiles, respectivement. Chaque visite de page internet est automatiquement traquée et collectée par Google si l’utilisateur a un compte Chrome. Chrome collecte également son historique de navigation, ses mots de passe, les permissions particulières selon les sites web, les cookies, l’historique de téléchargement et les données relatives aux extensions.57

16. Android envoie des mises à jour régulières aux serveurs de Google, ce qui comprend le type d’appareil, le nom de l’opérateur, les rapports de bug et des informations sur les applications installées58. Il avertit également Google chaque fois qu’une application est ouverte sur le téléphone (ex. Google sait quand un utilisateur d’Android ouvre son application Uber).

B. Collecte des données de localisation de l’utilisateur

17. Android et Chrome collectent méticuleusement la localisation et les mouvements de l’utilisateur en utilisant une variété de sources, représentées sur la figure 3. Par exemple, un accès à la « localisation approximative » peut être réalisé en utilisant les coordonnées GPS sur un téléphone Android ou avec l’adresse IP sur un ordinateur. La précision de la localisation peut être améliorée (« localisation précise ») avec l’usage des identifiants des antennes cellulaires environnantes ou en scannant les BSSID (’’Basic Service Set IDentifiers’’), identifiants assignés de manière unique aux puces radio des points d’accès Wi-Fi présents aux alentours59. Les téléphones Android peuvent aussi utiliser les informations des balises Bluetooth enregistrées dans l’API Proximity Beacon de Google60. Ces balises non seulement fournissent les coordonnées de géolocalisation de l’utilisateur, mais pourraient aussi indiquer à quel étage exact il se trouve dans un immeuble.61

schéma représentatt les différents moyens (wifi, bluetooth) de localiser les données d’un utilisateur de smartphone
Figure 3 : Android et Chrome utilisent diverses manières de localiser l’utilisateur d’un téléphone.

 

18. Il est difficile pour un utilisateur de téléphone Android de refuser le traçage de sa localisation. Par exemple, sur un appareil Android, même si un utilisateur désactive le Wi-Fi, la localisation est toujours suivie par son signal Wi-Fi. Pour éviter un tel traçage, le scan Wi-Fi doit être explicitement désactivé par une autre action de l’utilisateur, comme montré sur la figure 4.

2 copies d’écran de paramètres d’android pour montrer que le wifi est toujours sacnné même s’il est désactivé
Figure 4 : Android collecte des données même si le Wi-Fi est éteint par l’utilisateur

 

19. L’omniprésence de points d’accès Wi-Fi a rendu le traçage de localisation assez fréquent. Par exemple, durant une courte promenade de 15 minutes autour d’une résidence, un appareil Android a envoyé neuf requêtes de localisation à Google. Les requêtes contenaient au total environ 100 BSSID de points d’accès Wi-Fi publics et privés.

20. Google peut vérifier avec un haut degré de confiance si un utilisateur est immobile, s’il marche, court, fait du vélo, ou voyage en train ou en car. Il y parvient grâce au traçage à intervalles de temps réguliers de la localisation d’un utilisateur Android, combiné avec les données des capteurs embarqués (comme l’accéléromètre) sur les téléphones mobiles. La figure 5 montre un exemple de telles données communiquées aux serveurs de Google pendant que l’utilisateur marchait.

code renvoyé aux serveurs : la localisation d’un utilisateur
Figure 5 : capture d’écran d’un envoi de localisation d’utilisateur à Google.

 

C. Une évaluation de la collecte passive de données par Google via Android et Chrome

21. Les données actives que les plateformes Android ou Chrome collectent et envoient à Google à la suite des activités des utilisateurs sur ces plateformes peuvent être évaluées à l’aide des outils MyActivity et Takeout. Les données passives recueillies par ces plateformes, qui vont au-delà des données de localisation et qui restent relativement méconnues des utilisateurs, présentent cependant un intérêt potentiellement plus grand. Afin d’évaluer plus en détail le type et la fréquence de cette collecte, une expérience a été menée pour surveiller les données relatives au trafic envoyées à Google par les téléphones mobiles (Android et iPhone) en utilisant la méthode décrite dans la section IX.D de l’annexe. À titre de comparaison, cette expérience comprenait également l’analyse des données envoyées à Apple via un appareil iPhone.

22. Pour des raisons de simplicité, les téléphones sont restés stationnaires, sans aucune interaction avec l’utilisateur. Sur le téléphone Android, une seule session de navigateur Chrome restait active en arrière-plan, tandis que sur l’iPhone, le navigateur Safari était utilisé. Cette configuration a permis une analyse systématique de la collecte de fond que Google effectue uniquement via Android et Chrome, ainsi que de la collecte qui se produit en l’absence de ceux-ci (c’est-à-dire à partir d’un appareil iPhone), sans aucune demande de collecte supplémentaire générée par d’autres produits et applications (par exemple YouTube, Gmail ou utilisation d’applications).

23. La figure 6 présente un résumé des résultats obtenus dans le cadre de cette expérience. L’axe des abscisses indique le nombre de fois où les téléphones ont communiqué avec les serveurs Google (ou Apple), tandis que l’axe des ordonnées indique le type de téléphone (Android ou iPhone) et le type de domaine de serveur (Google ou Apple) avec lequel les paquets de données ont été échangés par les téléphones. La légende en couleur décrit la catégorisation générale du type de demandes de données identifiées par l’adresse de domaine du serveur. Une liste complète des adresses de domaine appartenant à chaque catégorie figure dans le tableau 5 de la section IX.D de l’annexe.

24. Au cours d’une période de 24 heures, l’appareil Android a communiqué environ 900 échantillons de données à une série de terminaux de serveur Google. Parmi ceux-ci, environ 35 % (soit environ 14 par heure) étaient liés à la localisation. Les domaines publicitaires de Google n’ont reçu que 3 % du trafic, ce qui est principalement dû au fait que le navigateur mobile n’a pas été utilisé activement pendant la période de collecte. Le reste (62 %) des communications avec les domaines de serveurs Google se répartissaient grosso modo entre les demandes adressées au magasin d’applications Google Play, les téléchargements par Android de données relatives aux périphériques (tels que les rapports de crash et les autorisations de périphériques), et d’autres données — principalement de la catégorie des appels et actualisations de fond des services Google.

infographie exposant les proportions de trafic envoyé par les appareils divers vers les serveurs de Google
Figure 6 : Données sur le trafic envoyées par les appareils Andoid et les iPhones en veille.

 

25. La figure 6 montre que l’appareil iPhone communiquait avec les domaines Google à une fréquence inférieure de plus d’un ordre de grandeur (50 fois) à celle de l’appareil Android, et que Google n’a recueilli aucun donnée de localisation utilisateur pendant la période d’expérience de 24 heures via iPhone. Ce résultat souligne le fait que les plateformes Android et Chrome jouent un rôle important dans la collecte de données de Google.

26. De plus, les communications de l’appareil iPhone avec les serveurs d’Apple étaient 10 fois moins fréquentes que les communications de l’appareil Android avec Google. Les données de localisation ne représentaient qu’une très faible fraction (1 %) des données nettes envoyées aux serveurs Apple à partir de l’iPhone, Apple recevant en moyenne une fois par jour des communications liées à la localisation.

27. En termes d’amplitude, les téléphones Android communiquaient 4,4 Mo de données par jour (130 Mo par mois) avec les serveurs Google, soit 6 fois plus que ce que les serveurs Google communiquaient à travers l’appareil iPhone.

28. Pour rappel, cette expérience a été réalisée à l’aide d’un téléphone stationnaire, sans interaction avec l’utilisateur. Lorsqu’un utilisateur commence à bouger et à interagir avec son téléphone, la fréquence des communications avec les serveurs de Google augmente considérablement. La section V du présent rapport résume les résultats d’une telle expérience.

 




Ce que récolte Google : revue de détail

Le temps n’est plus où il était nécessaire d’alerter sur la prédation opérée par Google et ses nombreux services sur nos données personnelles. Il est fréquent aujourd’hui d’entendre dire sur un ton fataliste : « de toute façon, ils espionnent tout »

Si beaucoup encore proclament à l’occasion « je n’ai rien à cacher » c’est moins par conviction réelle que parce que chacun en a fait l’expérience : « on ne peut rien cacher » dans le monde numérique. Depuis quelques années, les mises en garde, listes de précautions à prendre et solutions alternatives ont été largement exposées, et Framasoft parmi d’autres y a contribué.

Il manquait toutefois un travail de fond pour explorer et comprendre, une véritable étude menée suivant la démarche universitaire et qui, au-delà du jugement global approximatif, établisse les faits avec précision.

C’est à quoi s’est attelée l’équipe du professeur Douglas C. Schmidt, spécialiste depuis longtemps des systèmes logiciels, chercheur et enseignant à l’Université Vanderbilt, qui livre au public une étude d’une cinquantaine de pages intitulée Google Data Collection. Cette étude, qui nous semble pouvoir servir de référence, a retenu l’attention du groupe Framalang qui vous en livre ci-dessous l’executive summary, c’est-à-dire une sorte de résumé initial, qui en donne un aperçu programmatique.

Si vous trouvez un intérêt à cette traduction et souhaitez que Framalang vous propose la suite nous ferons de notre mieux…

Traduction Framalang : Alain, fab, FranBAG, Goofy, jums, Khrys, Mika, Piup, serici

La collecte de données de Google

Un premier aperçu

1.
Google est la plus grosse agence de publicité numérique du monde 62. Elle fournit aussi le leader des navigateurs web 63, la première plateforme mobile 64 ainsi que le moteur de recherche le plus utilisé au monde 65. La plateforme vidéo de Google, ses services de mail et de cartographie comptent 1 milliard d’utilisateurs mensuels actifs chacun 66. Google utilise l’immense popularité de ses produits pour collecter des données détaillées sur le comportement des utilisateurs en ligne comme dans la vie réelle, données qu’il utilisera ensuite pour cibler ses utilisateurs avec de la publicité payante. Les revenus de Google augmentent significativement en fonction de la finesse des technologies de ciblage des données.

2.
Google collecte les données utilisateurs de diverses manières. Les plus évidentes sont « actives », celles dans lesquelles l’utilisateur donne
directement et consciemment des informations à Google, par exemple en s’inscrivant à des applications très populaires telles que YouTube, Gmail, ou le moteur de recherche. Les voies dites « passives » utilisées par Google pour collecter des données sont plus discrètes, quand une application devient pendant son utilisation l’instrument de la collecte des données, sans que l’utilisateur en soit conscient. On trouve ces méthodes de collecte dans les plateformes (Android, Chrome), les applications (le moteur de recherche, YouTube, Maps), des outils de publication (Google Analytics, AdSense) et de publicité (AdMob, AdWords). L’étendue et l’ampleur de la collecte passive de données de Google ont été en grande partie négligées par les études antérieures sur le sujet 67.

3.
Pour comprendre les données que Google collecte, cette étude s’appuie sur quatre sources clefs :
a. Les outils Google « Mon activité » (My Activity) 68 et « Téléchargez vos données » (Takeout) 69, qui décrivent aux utilisateurs l’information collectée lors de l’usage des outils Google.
b. Les données interceptées lors de l’envoi aux serveurs de Google pendant l’utilisation des produits Google ou d’autres sociétés associées.
c. Les règles concernant la vie privée (des produits Google spécifiquement ou en général).
d. Des recherches tierces qui ont analysé les collectes de données opérées par Google.

Histoire naturelle, générale et particulière, des mollusques, animaux sans vertèbres et à sang blanc. T.2. Paris,L’Imprimerie de F. Dufart,An X-XIII [1802-1805]. biodiversitylibrary.org/page/35755415

4.
Au travers de la combinaison des sources ci-dessus, cette étude montre une vue globale et exhaustive de l’approche de Google concernant la collecte des données et aborde en profondeur certains types d’informations collectées auprès des utilisateurs et utilisatrices.
Cette étude met en avant les éléments clés suivants :

a. Dans une journée d’utilisation typique, Google en apprend énormément sur les intérêts personnels de ses utilisateurs. Dans ce scénario d’une journée « classique », où un utilisateur réel avec un compte Google et un téléphone Android (avec une nouvelle carte SIM) suit sa routine quotidienne, Google collecte des données tout au long des différentes activités, comme la localisation, les trajets empruntés, les articles achetés et la musique écoutée. De manière assez surprenante, Google collecte ou infère plus de deux tiers des informations via des techniques passives. Au bout du compte, Google a identifié les intérêts des utilisateurs avec une précision remarquable.

b. Android joue un rôle majeur dans la collecte des données pour Google, avec plus de 2 milliards d’utilisateurs actifs mensuels dans le monde 70. Alors que le système d’exploitation Android est utilisé par des fabricants d’équipement d’origine (FEO) partout dans le monde, il est étroitement connecté à l’écosystème Google via le service Google Play. Android aide Google à récolter des informations personnelles sur les utilisateurs (nom, numéro de téléphone, date de naissance, code postal et dans beaucoup de cas le numéro de carte bancaire), les activités réalisées sur le téléphone (applications utilisées, sites web consultés) et les coordonnées de géolocalisation. En coulisses, Android envoie fréquemment la localisation de l’utilisateur ainsi que des informations sur l’appareil lui-même, comme sur l’utilisation des applications, les rapports de bugs, la configuration de l’appareil, les sauvegardes et différents identifiants relatifs à l’appareil.

c. Le navigateur Chrome aide Google à collecter des données utilisateurs depuis à la fois le téléphone et l’ordinateur de bureau, grâce à quelque 2 milliards d’installations dans le monde 71. Le navigateur Chrome collecte des informations personnelles (comme lorsqu’un utilisateur remplit un formulaire en ligne) et les envoie à Google via le processus de synchronisation. Il liste aussi les pages visitées et envoie les données de géolocalisation à Google.

d. Android comme Chrome envoient des données à Google même en l’absence de toute interaction de l’utilisateur. Nos expériences montrent qu’un téléphone Android dormant et stationnaire (avec Chrome actif en arrière-plan) a communiqué des informations de localisation à Google 340 fois pendant une période de 24 heures, soit en moyenne 14 communications de données par heure. En fait, les informations de localisation représentent 35 % de l’échantillon complet de données envoyés à Google. À l’opposé, une expérience similaire a montré que sur un appareil iOS d’Apple avec Safari (où ni Android ni Chrome n’étaient utilisés), Google ne pouvait pas collecter de données notables (localisation ou autres) en absence d’interaction de l’utilisateur avec l’appareil.

e. Une fois qu’un utilisateur ou une utilisatrice commence à interagir avec un téléphone Android (par exemple, se déplace, visite des pages web, utilise des applications), les communications passives vers les domaines de serveurs Google augmentent considérablement, même dans les cas où l’on n’a pas utilisé d’applications Google majeures (c.-à-d. ni recherche Google, ni YouTube, pas de Gmail ni Google Maps). Cette augmentation s’explique en grande partie par l’activité sur les données de l’éditeur et de l’annonceur de Google (Google Analytics, DoubleClick, AdWords) 72. Ces données représentaient 46 % de l’ensemble des requêtes aux serveurs Google depuis le téléphone Android. Google a collecté la localisation à un taux 1,4 fois supérieur par rapport à l’expérience du téléphone fixe sans interaction avec l’utilisateur. En termes d’amplitude, les serveurs de Google ont communiqué 11,6 Mo de données par jour (ou 0,35 Go / mois) avec l’appareil Android. Cette expérience suggère que même si un utilisateur n’interagit avec aucune application phare de Google, Google est toujours en mesure de recueillir beaucoup d’informations par l’entremise de ses produits d’annonce et d’éditeur.

f. Si un utilisateur d’appareil sous iOS décide de renoncer à l’usage de tout produit Google (c’est-à-dire sans Android, ni Chrome, ni applications Google) et visite exclusivement des pages web non-Google, le nombre de fois où les données sont communiquées aux serveurs de Google demeure encore étonnamment élevé. Cette communication est menée exclusivement par des services de l’annonceur/éditeur. Le nombre d’appels de ces services Google à partir d’un appareil iOS est similaire à ceux passés par un appareil Android. Dans notre expérience, la quantité totale de données communiquées aux serveurs Google à partir d’un appareil iOS est environ la moitié de ce qui est envoyé à partir d’un appareil Android.

g. Les identificateurs publicitaires (qui sont censés être « anonymisés » et collectent des données sur l’activité des applications et les visites des pages web tierces) peuvent être associés à l’identité d’un utilisateur ou utilisatrice de Google. Cela se produit par le transfert des informations d’identification depuis l’appareil Android vers les serveurs de Google. De même, le cookie ID DoubleClick (qui piste les activités des utilisateurs et utilisatrices sur les pages web d’un tiers) constitue un autre identificateur censé être anonymisé que Google peut associer à celui d’un compte personnel Google, si l’utilisateur accède à une application Google avec le navigateur déjà utilisé pour aller sur la page web externe. En définitive, nos conclusions sont que Google a la possibilité de connecter les données anonymes collectées par des moyens passifs avec les données personnelles de l’utilisateur.




Framinetest Edu, et maintenant ?

Deux ans après son lancement, il est temps de dresser un premier bilan de l’aventure Framinetest. Souvenez-vous, le jour de la rentrée des enseignants, septembre 2016, nous écrivions ceci :

 

« Le Framachin de la rentrée est un jeu… Sérieux. » en présentant dans la foulée les intérêts et les possibilités pédagogiques.

Mais qu’en est-il aujourd’hui ?

Combien d’utilisateurs se sont connectés ? Notre initiative a-t-elle réussi à faire ses chatons ? Autant de questions auxquelles nous vous proposons de répondre dans ce premier bilan public. Et avouons-le, si nous avons attendu avant de partager, c’est avant tout parce que nous n’avons pas eu une seconde à nous. Mais que d’aventures et de chemin parcourus depuis son lancement !

Commençons par un nombre

Forcément, lorsqu’on parle de bilan et d’une plateforme en ligne, vient à un moment la question : « c’est qui qui y va, sur ton bouzin ? Et combien c’est-y qui sont à y aller ? »

Voici la réponse… Le nombre total d’utilisateurs qui se sont connectés au moins une fois est de (tadaaa) : plus de 10 000. Après, on a arrêté de compter.

 

Qui se connecte, ou s’est connecté pour découvrir le jeu ?

Des élèves du premier et du second degré, des étudiants, des enseignants du premier et du second degré de toutes disciplines, des universitaires, des inspecteurs et des parents ! Oui, vous avez bien lu, des parents aussi. Et pourquoi pas, après tout ? Personnellement, j’y vois à minima un intérêt : la transparence des outils et de l’enseignement.

Autant dire que Framinetest a été un franc succès ! Mais alors que se passe-t-il en ce moment ?

Eh bien, Contributopia est passée par là !

Retour sur notre démarche

Année 1 : on joue ! (oups, on bosse !)

Dans ce contexte, le premier, et non le moindre, des défis était de trouver une solution de modération qui ne demanderait pas aux modérateurs de rester en ligne 24h/24 et 7j/7. La solution que nous avons donc choisie est celle des privilèges différenciés entre les joueurs. En résumé, plus on est sérieux, attentif aux autres et actif, plus on gagne de privilèges. Solution simple mais particulièrement efficace puisque dès que les élèves sont arrivés sur la plateforme, le nombre de modérateurs a tout simplement triplé !

 

Le second défi à relever fut assez rapidement celui de l’entrée dans le jeu. En effet, lorsqu’on utilise un serveur Minetest public, le nombre de joueurs (français comme étrangers) peut rapidement devenir un problème, en particulier lorsque se glissent parmi eux quelques petits plaisantins aimant jouer avec le feu et la lave (« Ah, cool, j’y suis, je vais pouvoir jou… » Froutch !).

C’est la raison pour laquelle nous avons mis en place un quiz d’entrée. En résumé, chaque nouveau joueur arrivant dans le jeu possède des privilèges très limités (qui ne permettent pas le grief) et est invité à passer le quiz s’il veut en gagner davantage. Simple, mais particulièrement efficace !

Souvenez-vous : améliorations, évolutions…

  • Septembre 2016 : l’entrée dans le jeu est (donc) modifiée (construction du quiz, mise en place du spawn).
  • Fin novembre 2016 : la carte interactive est mise en place.
  • Décembre 2016 : l’accès aux blocs de lave devient un privilège (a pus, froutch).
  • Octobre-janvier : les mods utilisés sont adaptés et traduits.
  • Janvier : le serveur est mis à jour de la version 0.4.14 vers 0.4.15, ce qui ajoute de nouvelles fonctionnalités et corrige de nombreux bogues.
  • Janvier-février : les élèves testent et installent la « prison » de ré-éducation (on en reparle plus bas).
  • Décembre-février : de nouveaux mods sont testés, et parfois installés (dont « shérif » et véhicules).
  • Février-mars 2017 : l’entrée dans le jeu est encore améliorée avec la mise en place d’un nouveau quiz.

Année 2 : on a montré que c’était possible, maintenant il faut faire des chatons !

OK, c’est cool, mais un tel serveur, avec autant de joueurs, est-ce viable sur le long terme ? La question mérite d’être posée, en particulier après quelques nuits blanches à éteindre des incendies (j’en ris tout seul derrière mon clavier ; seuls les joueurs de la première heure et amis comprendront !).

Il fallait poser les choses : Framinetest n’a pas vocation à accueillir toutes les demandes ! Car elles étaient nombreuses et très diverses, pour ne pas dire toutes différentes. Oui, il faut que je vous explique : quand on vient de l’univers Minecraft, on a la fâcheuse tendance à imaginer son monde à soi, sans penser nécessairement qu’on n’est pas le seul joueur en ligne… CQFD. C’est là que la décentralisation trouve son intérêt, afin que chacun trouve chaussure à son pied.

Et puis soyons honnêtes, ce n’était pas humainement possible, franchement déraisonnable. Il fallait décentraliser ! Bref, peut-être encore plus que pour les autres framachins, le discours se devait d’être clair : « on vous a montré la voie, maintenant, à vous de jouer ! ».

Bien entendu, nous avons guidé aidé, conseillé… Et Framinetest est retourné à sa source : un bac à sable, un lieu d’essai où l’erreur est humaine, mais où on se fait plaisir ! Et des essais, des bugs… il y en a eu un paquet !

  • Octobre 2017 : nous participons au hackathon du Gamixlab !
  • Octobre 2017 à aujourd’hui : nous accompagnons des projets pédagogiques proposés par les enseignants sur Framinetest.

Souvenirs, anecdotes et retours d’expérience

Framinetest est basé sur Minetest, un logiciel libre, moteur de l’innovation pédagogique et favorisant l’élargissement du champ des possibles pour les utilisateurs.

Les administrateurs du serveur ont la possibilité d’ajouter, modifier, optimiser, l’ensemble du jeu : autant dire qu’un enseignant pourra s’y sentir libre, d’un point de vue pédagogique ! Les élèves deviennent force de proposition et d’amélioration du jeu ; c’est motivant et formateur.

 

Le jeu est une société miniature, avec ses évolutions, de l’idée à la réalisation… en passant par l’utopie ! Quelques exemples :

  • EnzoJP et sa prison, où comment rééduquer les joueurs ne respectant pas les règles ! Devant les joueurs les moins sérieux, enzoJP, jeune modérateur et accessoirement l’un de mes élèves, nous a un jour fait part de son idée au cours d’une partie : « monsieur Sangokuss, plutôt que de bannir ces joueurs-là, je pense qu’il serait mieux de les mettre en prison et d’essayer de les ré-éduquer. Est-ce que vous êtes d’accord ? » Bon, là, j’avoue, il y a un moment d’absence dans mon cerveau… Mais après réflexion, je lui dis que c’est envisageable s’il argumente et qu’il respecte la règle du « c’est celui qui dit qui fait ». Réponse d’enzoJP : « monsieur, ne vous inquiétez pas, on ne les tapera pas ! Mais quand ils font une bêtise, on les envoie en prison et un modérateur-psychologue s’en occupe pour le ré-éduquer ». Intérieurement, je me dis que cela devient intéressant (de quoi philosopher et débattre pendant longtemps…) et je réponds « OK, on essaie ». Quinze jours plus tard, la prison est construite et les premiers prisonniers y sont enfermés. Reste à savoir s’ils ressortiront un jour…  Bref, restez sérieux !
  • Reproduire la vraie vie : travailler, dormir, faire ses courses, se cultiver.

 

 

 

  • « Promis monsieur, on ne se bat pas ! Mais on stocke des armes au cas où… ». Euh, ouais, il va falloir en parler, quand même.
  • Le lâcher prise : une posture pas si simple pour l’enseignant, et pourtant une nécessité.
  • L’apprentissage de la démocratie, les scrutins, les décisions communes.

Au fond, c’est une véritable réflexion sur notre société que le jeu permet et facilite pour les joueurs. Sans pour autant aboutir à un résultat idéal, il y a là des pistes intéressantes, parfois surprenantes ou amusantes, parfois politiquement incorrectes, mais toujours dans un esprit de co-construction et d’ouverture.

 

  • Je l’ai déjà évoqué, mais travailler l’entrée dans le jeu est une absolue nécessité ! En effet, lorsqu’un tel serveur est ouvert 24h/24, on remarque inévitablement des problèmes apparaître, plus particulièrement l’arrivée d’intrus qu’il convient de filtrer / cadrer… Mais il y a encore plus important dans un contexte pédagogique : faire prendre conscience aux joueurs (ici, des élèves), de l’importance de respecter certaines règles élémentaires. Et voici les solutions et pistes de réflexions qui ont été proposées par les intervenants eux-mêmes :
    • Forcer les joueurs à lire la charte ! D’où l’idée lancée de construire un labyrinthe dont seul le joueur qui lira les articles de la charte trouvera la sortie. Simple, mais très efficace !
    • Limiter les privilèges au minimum à l’entrée dans le jeu, tout en expliquant qu’il y a moyen d’en gagner, sous condition de respecter les règles du serveur.
    • Avantage important : cela libère du temps au(x) modérateur(s) ou enseignant(s) qui gèrent le serveur puisque l’entrée dans le jeu se fait en autonomie, alors qu’auparavant il fallait prêter une grande attention à cette étape cruciale..
  • Sur un serveur ouvert, au delà de l’entrée dans le jeu, un autre point de vigilance doit être abordé : l’encadrement. D’où la logique des privilèges croissants.
    • Ne deviennent « modo » que ceux qui disposent des privilèges associés, donc ceux qui respectent les règles.
    • Les déplacements sont également facilités par les téléporteurs qui permettent aux participants de se rendre rapidement d’un point à un autre de la map sans pour autant avoir le privilège dédié.
  • La responsabilisation progressive permet d’apprendre la coopération.
    • Retour vers le futur : le privilège du roll-back, c’est-à-dire pouvoir revenir à une situation précédente (soit restaurer le jeu à un point de sauvegarde).
    • Shérif, fait moi peur ! Ou tout simplement l’idée d’un élève de développer une police dans le jeu. Simple à dire, mais si difficile à mettre en place si l’on souhaite que cela se fasse avec calme et légitimité. D’où la notion de vote. Les participants ont, s’ils le souhaitent, la possibilité d’élire un (ou plusieurs) shérif dont les privilèges seront différenciés en fonction de son nombre de bulletins !
    • L’usage de surnom et le respect ne sont pas antagonistes, ce qui surprend parfois les collègues.
    • Le rôle des modérateurs  est indispensable pour favoriser le développement de l’autonomie : accueillir, expliquer, former, faciliter les échanges, et si nécessaire… sanctionner. Comme dans la vraie vie, sauf que dans le jeu certains modérateurs sont eux aussi des participants, parfois plus jeunes que les joueurs « modérés ».
  • De nouveaux usages, ou plutôt des usages inattendus, ont vu le jour :
    • L’inauguration ;
    • L’organisation d’évènements festifs : pour Noël…etc. ;
    • La photo de classe.

Pourquoi pousser le libre dans l’éducation ?

Au-delà du discours libriste global, la fermeture du logiciel Minecraft rend difficile, pour ne pas dire impossible toutes personnalisation profonde du jeu par l’enseignant et donc encore moins par les élèves ! Jouer, dans un tel contexte, c’est davantage être utilisé qu’être utilisateur, pour reprendre une expression de Richard M. Stallman à propos de Facebook. Par conséquent, comment imaginer une démarche pédagogique de formation au numérique ? Car oui, former au numérique c’est former des utilisateurs éclairés, capables (ou du moins ayant la possibilité) de plier l’outil pour répondre à leurs besoins. Or, dans Minetest, cette voie est ouverte aux utilisateurs et les élèves ne s’y trompent pas ; à partir du moment où ils comprennent que tout n’est que dossiers et fichiers, ils personnalisent, adaptent, et créent même leurs propres serveurs.

Bref, ils deviennent indépendants. Libres. Et le devoir de l’école est accompli !

Et demain ?

Framinetest restera. Le projet se poursuit et nous sommes loin d’avoir épuisé l’imagination de nos joueurs et modérateurs ! Figurez-vous que pas plus tard que le week-end dernier, de grosses mises à jour ont été poussées sur Framinetest !

Mais les serveurs doivent se multiplier… Et de fait ils le font, avec de nouvelles expérimentations qu’il est toujours passionnant de suivre tant le jeu est riche de libertés. Si j’en crois ce que j’observe sur les médias sociaux, nous avons fait déjà un joli bout de chemin !

Tout est résumé dans un mot : Contributopia ! Il s’agit d’encourager les nouveaux serveurs pédagogiques et de les accompagner.

Le succès de Framinetest n’est pas passé inaperçu et mon petit doigt me dit que cette histoire n’est pas terminée…

Rendez-vous prochainement pour le troisième volet de l’aventure Framinetest.

Pour aller plus loin




Intimité numérique : le Truc a fait mouche

Paris, Lyon, Toulouse, Bordeaux… et quelques autres métropoles régionales sont animées par des associations libristes actives et efficaces : réunions régulières, actions de terrain, conférences et rencontres… Mais dans les villes moyennes ça bouge aussi.

À l’ouest par exemple, entre Nantes, Quimper ou Brest, beaucoup de projets et d’initiatives sont déjà en place et parfois depuis longtemps. Mais ce sont les habitants de Lannion qui ont récemment pu bénéficier d’un premier Café Vie Privée, un événement qui a connu un beau succès (oui, l’évènement était accueilli au Truc café, ça ne s’invente pas…). Bravo aux organisateurs et organisatrices !

Parmi les interventions :

… et puis il y avait aussi la conférence de Clochix, dont il avait préparé le détail sur son blog Gribouillis dans les marges et que nous reprenons ici avec son accord.

Comme il est modeste, il nous signalait ne rien mentionner d’original, et en effet on retrouvera ici des indications et recommandations dont sont familiers les conférenciers libristes. Cependant, il nous a semblé qu’il abordait une question cruciale classique (comment protéger sa vie privée numérique) selon une démarche plus originale : il commence en effet par tracer les contours de notre intimité numérique avant de définir le « modèle de menace » auquel chacun⋅e s’expose potentiellement. La liste de ses exemples est assez riche… C’est seulement alors que peuvent venir les mesures ou plutôt contre-mesures dont nous pouvons disposer, et pas seulement à titre individuel, en ayant pleine conscience de leurs limites.


Hygiène et écologisme numérique

Avatar de Monsieur Clochix
Avatar de Clochix

Remarque liminaire : je préfère parler plutôt d’intimité que de vie privée. On a parfois l’impression que la vie privée ne concerne que les personnes publiques ou les gens qui ont des choses à cacher. En parlant d’intimité, j’espère que davantage de gens se sentent concerné·e·s.

En réfléchissant à ce que j’allais conseiller pour protéger son intimité, je me suis rendu compte que j’abordais le problème à l’envers. Parler de techniques et d’outils pour protéger son intimité n’est que la dernière étape du processus, avant d’en arriver là, il faut d’abord réfléchir à ce que l’on veut protéger et de qui ou quoi on veut le protéger.

Qu’est-ce que l’intimité numérique et pourquoi la protéger ?

L’intime est ce qui nous définit en tant qu’individus et motive une grande partie de nos actes.

L’intimité, c’est un endroit où l’on est seul avec soi-même (ou avec un nombre très restreint de personnes en qui on a confiance), et qui nous permet, à l’abri de tout regard, de tout jugement externe, de se construire, d’exister, de prendre des décisions, etc.

L’intimité, ce sont aussi nos rêves, et les carnets où parfois on les note. Ce sont nos projets fous que l’on élabore dans notre tête longtemps avant d’oser en parler à quiconque. Et qui ne pourraient pas naître à la lumière.

L’intimité n’a rien à voir avec des actions illicites.

L’intimité, ce sont aussi des choses sans conséquence mais dont on a un peu honte. Se curer le nez, roter, ce sont des choses que l’on s’autorise lorsqu’on est seul chez soi, mais qu’on peut avoir honte de voir exposer sur la place publique. Imaginez l’inconfort d’être dans une cellule de prison où vous devez faire vos besoins au vu et au su de vos co-détenu·e·s. Être privé⋅e d’intimité déshumanise, affecte l’image que l’on a de soi.

Dernier exemple de lieu intime : l’isoloir. Il est depuis longtemps acquis que le secret du vote est important dans une démocratie. Il est vital d’avoir la possibilité que certaines choses restent secrètes.

L’intimité numérique, ce sont toutes les traces de notre intimité sur des outils numériques. C’est naturellement notre correspondance, les informations qui révèlent directement nos pensées intimes. Mais c’est aussi tout ce qui, de manière plus large, permet indirectement, par des recoupements, d’accéder à notre intimité. Nos recherches en ligne, nos achats, nos rendez-vous médicaux, nos errances dans la rue (« tiens, il fait souvent un détour pour passer dans la rue où habite X, cherche-t-il à lae croiser ? »). Nos téléphones qui suivent chacune de nos activités permettent de savoir si nous fréquentons un lieu de culte, un local syndical ou un bar, et à quelle fréquence…

L’intimité est un besoin vital pour les humains, en être privé nous prive d’une partie de notre humanité. En être privé, être toujours sous la menace du regard et du jugement d’autrui, c’est perdre la capacité de penser par soi-même, d’exister, de se comporter en tant qu’individu indépendant, autonome. Priver les citoyen·ne·s d’intimité est une des caractéristiques des régimes totalitaires qui cherchent à nier les individualités pour ne gérer que des robots déshumanisés.

Protéger son intimité est donc essentiel. Mais il faut aussi veiller à ce que la société garantisse à chacun et chacune le droit à l’intimité.

Ok, mais de qui ou de quoi faut-il la protéger ?

Les menaces sur notre droit à l’intimité sont très nombreuses, selon les contextes. Attention, il ne faut pas croire que sont uniquement le fait de gens qui cherchent explicitement à nous nuire. En fait, l’essentiel des risques n’est pas lié à la malveillance, mais à la simple utilisation de nos données pour influencer notre vie. Petite liste non exhaustive :

  • votre employeur actuel : pour avoir certaines conversations avec des collègues, mieux vaut éviter d’utiliser les outils internes de l’entreprise ;
  • vos futurs employeurs : celleux-ci pourraient apprécier de différentes manières de découvrir sur notre fil Facebook que l’on participe à toutes les journées de grève et applaudit aux actions des syndicats 😉
  • vos proches : compagnon ou compagne qui pourrait être blessé·e de découvrir que l’on discute encore avec ses « ex ». Ados ne souhaitant pas que leurs parents écoutent leurs conversations avec leurs potes ou connaissent les sites qu’ils consultent (« pourquoi as-tu fait des recherches sur la contraception ??? ») ;
  • le harcèlement : le phénomène est de plus en plus courant, dans les cours de récréation comme parmi les adultes. Si pour une raison quelconque vous devenez la cible de harcèlement, toutes les informations disponibles en ligne sur vous pourront être utilisées contre vous. Votre adresse, pour vous menacer. Vos proches, pour s’en prendre à elleux… Personne n’est à l’abri, et ça peut être très violent ;
  • des escrocs : les informations que l’on peut trouver en ligne sur nous peuvent permettre à des escrocs d’usurper notre identité, pour nous faire payer leurs amendes, pour souscrire des services à notre place, pour escroquer nos proches en se faisant passer pour nous, etc ;
  • du marketing : plus quelqu’un nous connait, plus iel sera en mesure d’influencer nos actes, voire nos opinions, par exemple pour nous pousser à acheter une marchandise dont on n’avait pas forcément besoin, ou à voter pour un·e candidat·e dont on n’avait pas forcément besoin ;
  • des décisions nous concernant prises en se fondant sur ce que l’on sait ou croit savoir de nous (« gouvernance algorithmique »). Si vous avez été malade et avez évoqué cette maladie sur Internet, une banque pourra des années plus tard vous refuser un prêt, une assurance pourra vous faire payer des primes supérieures… Imaginez qu’un site collecte l’ensemble de nos rendez-vous médicaux, imaginez le nombre de décisions qui pourraient être prises à notre insu à partir de ces informations par un employeur (« elle vient de tomber enceinte, ne lui proposons pas de CDI »), un banquier (« il consulte un psy donc n’est pas stable, refusons-lui ce prêt »)…
  • de l’état : avoir un aéroport ou une usine chimique qui veut s’installer dans notre jardin, ça peut arriver à tout le monde. Tout le monde peut avoir un jour ou l’autre besoin de devenir ZADiste et de s’organiser contre le pouvoir en place, pas besoin d’habiter en Chine pour cela ;

Chacun de ces exemples appelle une réponse particulière et certaines réponses sont parfois contradictoires. Par exemple, GMail offre un bon niveau de protection des correspondances contre les attaques de gens de notre entourage, employeur, conjoint·e, etc. En revanche, il sera obligé de répondre aux demandes de la justice. Héberger ses courriels chez des potes peut-être une bonne idée si on participe à une ZAD. Par contre selon leurs compétences en informatique, la sécurité sera peut-être moindre. Et en cas d’embrouille avec elleux, iels pourraient accéder à nos informations.

Donner de fausses informations en ligne peut relativement nous protéger des tentatives d’influencer nos actes. Mais peut aussi nous nuire le jour où des décisions nous concernant seront prises en se basant sur ces informations.

Et pour protéger son intimité, il faut adopter quelques règles d’hygiène. Mais pour cela il faut d’abord définir son « modèle de menace », c’est à dire ce qui selon vous menace le plus votre intimité, afin de choisir des solutions qui répondent à vos besoins.

Hygiène pour vous… et pour les autres

L’hygiène n’est pas qu’une pratique égoïste. On ne se lave pas les mains juste pour éviter de tomber malade, mais aussi pour éviter de contaminer les autres. Il en va de même pour l’hygiène numérique. Même si vous ne vous sentez pas concerné·e, peut-être aurez-vous envie d’adopter certaines règles d’hygiène par respect ou affection pour vos proches qui se sentent concerné. Par exemple, si vous permettez à une application ou un site Web d’accéder à votre carnet d’adresse, vous divulguez sans leur consentement des données personnelles sur vos proches. Si un·e ami⋅e m’a référencé dans son répertoire téléphonique en tant que Clochix et un·e autre en tant que Papa-de-XXXX, un site accédant à ces deux répertoires pourra faire le lien entre mes différentes identités et anéantir les efforts que je fais pour me protéger.
Si vous mettez en ligne des photos de vos proches, vous perdez le contrôle sur ces photos et ne savez pas quels usages pourront en être faits demain.

Avoir de l’hygiène, c’est donc aussi protéger ses proches, ses collègues…

De l’hygiène individuelle à l’écologisme

Parmi les risques évoqués plus haut, certains nous concernent directement. D’autres affectent plus globalement la société dans son ensemble, par exemple lorsque nos informations sont utilisées à grande échelle pour influencer nos votes. Il est possible que les élections d’Obama et de Trump, entre autres, aient été influencées par des outils se basant sur la masse d’informations que nous laissons en ligne.

La surveillance de masse, qu’elle soit réelle ou supposée, nous pousse à l’auto-censure. Est-ce que si je cherche « Daesh » sur Internet, je ne vais pas devenir suspect ? Est-ce qu’une opinion exprimée aujourd’hui sur Twitter dans un certain contexte ne pourra pas être exhumée demain, dans un autre contexte, et me nuire ? Tout cela pousse à l’auto-censure et sclérose peu à peu le débat démocratique.
Un autre risque est ce que l’on appelle les bulles de filtres, même si leur existence fait débat. Une bulle de filtres, c’est lorsque tous les sites que nous consultons détectent les informations qui nous plaisent et ne nous affichent plus que celles-ci. Cela nous donne du monde une vision biaisée.

Ces enjeux dépassent donc largement nos situations individuelles.

Lorsqu’on parle d’hygiène, on pense d’abord à des mesures de protection individuelles, comme se laver les mains ou bloquer les cookies. Mais il ne faut pas oublier que l’hygiène est aussi un enjeu collectif : « l’hygiène est un enjeu de santé publique, l’accès à un environnement propre et sain étant une condition première du développement durable. » (Wikipédia). L’hygiène numérique ne peut donc se limiter à des actions reposant sur les individus, ça n’est pas seulement de notre responsabilité. Il faut aussi penser ces questions et prendre des mesures au niveau de la collectivité. Et, de manière plus globale, il faudrait réfléchir à la notion d’écologisme numérique. L’espace numérique fait partie intégrante de l’environnement dans lequel évolue l’espèce humaine, et comme tel doit être protégé.

Ok et à présent, qu’est-ce qu’on fait ?

Il n’y a pas d’outils magiques. Utiliser des outils sans avoir un minimum de compréhension du contexte technique, c’est se tirer pratiquement à coup sûr une balle dans le pied. Un faux sentiment de sécurité incite à l’imprudence. C’est comme croire qu’une fois la porte fermée on peut se promener à poil chez soi, parce qu’on ignore l’existence des fenêtres.

La meilleure des protections, c’est l’éducation. C’est acquérir une compréhension du fonctionnement des outils numériques. Connaître les techniques qui permettent de porter atteinte à notre intimité. Les techniques qui, à partir de nos informations intimes, permettent de nous influencer ou de décider de nos vies. Donc : éduquons-nous !

Il ne faut pas se le cacher, se protéger demande une vigilance de tous les instants, souvent épuisante. Il faut donc être convaincu·e de l’importance d’adopter une certaine discipline.

La seule information qui ne pourra pas être utilisée, c’est celle qui n’existe pas (et encore…). Il faut donc selon moi essayer de réduire au maximum son empreinte, les traces que l’on laisse. Le numérique permet de compiler une foule d’informations insignifiantes pour en extraire du sens. Avoir accès à un de vos tickets de caisse ne dit pas forcément grand-chose de vous. Avoir accès à tous vos tickets de caisse permet de connaître votre situation familiale (« tiens, iel achète des gâteaux pour enfants une semaine sur deux ») ou financière, vos convictions (« iel a arrêté d’acheter de la viande de porc et de l’alcool, signe de radicalisation… »). C’est donc une gymnastique quotidienne pour essayer de réduire au maximum ce que l’on dévoile : bloquer systématiquement tous les cookies sauf pour les sites sur lesquels c’est indispensable (et c’est là qu’on en vient à la nécessaire compréhension du fonctionnement), refuser si possible les cartes de fidélité, désactiver le Wifi et le Bluetooth sur son téléphone lorsqu’on ne les utilise pas… C’est une gymnastique contraignante.

Essayez aussi de compartimenter : si vous tenez un carnet Web sur un sujet polémique, essayez d’éviter qu’on puisse faire le lien avec notre état civil (sur le long terme, c’est très très difficile à tenir). A minima, avoir plusieurs profils / plusieurs adresses mail, etc, et ne pas les lier entre elles permet de réduire les risques. Quelqu’un qui vous ciblera pourra faire le lien, mais les programmes de collecte automatique de données ne chercheront pas forcément à recouper.

Compartimentez aussi vos outils : par exemple, utilisez deux navigateurs différents (ou un navigateur avec deux profils) : dans l’un, bloquez tout ce qui permet de vous pister et accédez aux sites qui n’ont pas besoin de savoir qui vous êtes. Utilisez l’autre, moins protégé, uniquement pour les sites nécessitant une connexion (webmail, réseaux sociaux, etc.).

Méfiez-vous comme de la peste des photos et des vidéos. De vous, de vos proches, de quiconque. Demain, en cherchant votre nom, il sera possible de vous identifier sur cette photo prise voilà 20 ans où vous montriez vos fesses. Avez-vous vraiment envie que vos enfants vous voient ainsi ? Demain, en cherchant le nom de votre enfant, ses camarades de classe pourront retrouver une vidéo de ellui à deux ans sur le pot. Hier vous trouviez cette photo adorable, aujourd’hui elle va lui valoir des torrents de moqueries.

Contre la malveillance, il faut naturellement utiliser des pratiques et outils qui relèvent davantage de la sécurité informatique : par exemple des mots de passe complexes, différents pour chaque service.

Pour aller plus loin, je vous encourage à vous renseigner sur le chiffrement : de vos communications, de vos données. Attention, le chiffrement est un sujet relativement complexe, ça n’est à utiliser qu’en ayant une idée précise de ce que vous faites.

Et, naturellement, portez en toutes circonstances un chandail à capuche noir et une cagoule, histoire de rester discret.

Et pour terminer, parce que nous ne sommes que des nains sur l’épaule de géants, une citation que je vous laisse méditer :

Benjamin Bayart
Benjamin Bayart, photo volée au site de l’April

« la solution est forcément dans une articulation entre politique (parce que c’est un problème de société) et technique (parce que les outils actuels le permettent). Et il faut bien les deux volets, un seul, ça ne sert à rien. »

(Benjamin Bayart).




PeerTube 1.0 : la plateforme de vidéos libre et fédérée

Ce qui nous fait du bien, chez Framasoft, c’est quand nous arrivons à tenir nos engagements. On a beau faire les marioles, se dire qu’on est dans l’associatif, que la pression n’est pas la même, tu parles !

[Short version of this article in English available here]

Après le financement participatif réussi du mois de juin 2018, nous avions fait la promesse de sortir la version 1 de Peertube en octobre 2018. Et alors, où en sommes-nous ? Le suspense est insoutenable.

Nous étions confiants. Le salaire du développeur principal, Chocobozzz, était assuré jusqu’à la fin de l’année, nous avions déjà recensé des contributions de qualité, nous avions fait un peu de bruit dans la presse… Cependant, nous avions aussi pris un engagement ferme vis-à-vis de nos donateur·ices, ainsi qu’auprès d’un large public international qui ne nous connaissait pas aussi bien que nos soutiens francophones habituels.

Ne vous faisons pas languir plus longtemps, cette version 1.0, elle est là, elle sort à l’heure dite et elle tient ses promesses, elle aussi. C’est l’occasion de dérouler pour vous un récapitulatif des épisodes précédents, ce qui vous évitera de farfouiller dans le blog pour retrouver vos petits. On sait que c’est pénible, on l’a fait. 🙂

C’est quoi, PeerTube ? Une révolte ? Non, Sire, une révolution

[Vidéo de présentation de PeerTube, en anglais, avec les sous-titres français, sur Framatube. Pour la vidéo avec les sous-titres en anglais, cliquez ici. Réalisation : Association LILA (CC by-sa)]

 

« Dégooglisons Internet ! » avons-nous crié partout pendant trois ans, sur l’air de « Delenda Carthago ! »

Ça, c’était une révolte. Un cri du cœur. Déjà un défi fou : proposer une alternative aux services des géants du web, les GAFAM et leurs petits copains (Twitter, par exemple). Un par un, les services étaient sortis, à un rythme insensé. Ils sont toujours là. Il faut les maintenir. Heureusement, les (désormais 60) CHATONS permettent de répartir un peu la charge. L’offre de mail mise de côté, il restait un gros morceau : proposer une alternative crédible au géant Youtube, rien que ça ! Pas facile de briser l’hégémonie des plateformes de diffusion vidéo !

Les fichiers vidéo sont lourds, c’est le principal inconvénient. Donc il faut de gros serveurs, beaucoup de bande passante, ce qui représente un coût astronomique, sans parler de l’administration technique de tout ça.
Non seulement impensable au regard de nos moyens, mais surtout complètement à l’opposé des principes du Libre : indépendance, décentralisation, partage. Pour répondre au défi financier, Youtube et ses clones utilisent toutes les ressources du capitalisme de surveillance : en captant l’attention des internautes dans des boucles sans fin, en profilant leurs goûts, en les assaillant de publicité, en leur proposant des recommandations parfois toxiques

C’est là que nous avons pris connaissance du logiciel (libre !) d’un jeune homme sympathique caché derrière le pseudo Chocobozzz, qui travaillait dans son coin à proposer une manière innovante de diffuser et visionner de la vidéo sur Internet.

Quand vous visionnez une vidéo, votre ordinateur participe à sa diffusion

PeerTube utilise les ressources du Web (WebRTC et BitTorrent, des technologies permettant le partage de diffusion, qui est un concept fondamental d’Internet) pour alléger la charge des sites qui hébergent du contenu. Avec un principe on ne peut plus simple : quand vous visionnez une vidéo, votre ordinateur participe à sa diffusion. Si beaucoup de personnes regardent la même vidéo, au lieu de tirer sur les ressources du serveur, on demande un petit effort à chaque machine et à chaque connexion. Les flux se répartissent, le réseau est optimisé. L’Internet comme il doit être. Comme il aurait dû le rester !

Pas besoin d’héberger tous les contenus que vous souhaitez diffuser : il suffit de se fédérer avec des instances amies qui proposent ces contenus pour les référencer sur sa propre instance. Sans dupliquer les fichiers. Et ça marche ! Quand les copains de Datagueule ont mis en ligne leur documentaire Démocratie, le logiciel a encaissé les milliers de visionnages sans broncher. Nous vous avons alors soumis l’idée d’embaucher Chocobozzz pour lui permettre de travailler sereinement à son projet, avec pour objectif de produire une version bêta du logiciel en mars 2018. Grâce à vos dons et à votre confiance, nous avons franchi cette première étape.

Nous avons entre-temps peaufiné notre nouvelle feuille de route Contributopia, dans laquelle PeerTube s’inscrivait parfaitement. Avec la recommandation du protocole ActivityPub par le W3C, qui renforçait le principe de fédération déjà initié par des logiciels sociaux (comme Mastodon), PeerTube est même devenu une brique majeure de Contributopia. Heureusement, la fédération, c’est facile à expliquer, parce que tout le monde l’utilise déjà : on a tou⋅tes des adresses mails, fournies par des tas de serveurs différents, et pourtant on arrive à s’écrire ! Avec PeerTube, lorsque plusieurs instances sont fédérées, il est possible de faire des recherches sur toutes ces instances, sans quitter celle sur laquelle vous êtes, ou de commenter des vidéos d’une instance distante sans avoir besoin de vous créer un compte dessus.

L’étape suivante allait de soi : continuer. La communication autour de PeerTube, via nos réseaux habituels, nous avait déjà permis d’attirer les contributions, des vidéastes avaient manifesté leur intérêt, les forums bruissaient de questions.

C’est pourquoi, rompant avec nos usages habituels, bousculant notre tempo, nous avons décidé de pousser les feux en prenant définitivement le rôle d’éditeur du logiciel de Chocobozzz, avec son accord, évidemment. Et surtout en soumettant une demande de financement participatif à l’international, en anglais, pour pérenniser son embauche, sans forcément vous solliciter à nouveau directement (mais on sait qu’une partie d’entre vous a tenu à participer quand même, et ça fait chaud au cœur, vraiment).

Cette fois encore, ce fut un joli succès, alors que franchement on n’en menait pas large, et voilà ce qui nous amène à cette version 1.0.

Mais alors, elle embarque quoi, cette version 1.0 ?

Avant tout, et pour éviter les mécompréhensions, rappelons que PeerTube n’est pas une seule plateforme centralisée (comme peuvent l’être YouTube, Dailymotion ou Viméo), mais un logiciel permettant de rassembler de nombreuses instances PeerTube (c’est-à-dire différentes installations du logiciel PeerTube, thématiques ou communautaires) au sein de ce que l’on appelle une fédération. Il vous faut donc chercher l’instance PeerTube qui vous convient pour visionner ou mettre en ligne vos vidéos ou, à défaut, mettre en place votre propre instance PeerTube, sur lequel vous aurez tous les droits.

PeerTube n’est pas une seule plateforme centralisée, mais un logiciel

Fonctionnalités de base

  • Peertube permet de regarder des vidéos avec WebTorrent, pour ne pas saturer les serveurs de diffusion. Si plusieurs personnes regardent la même vidéo, elles téléchargent de petits morceaux de la vidéo depuis votre serveur, mais aussi depuis les machines des autres personnes qui regardent la même vidéo !
  • Fédération entre instances PeerTube. Si l’instance PeerTube A s’abonne aux instances PeerTube B et C, depuis une recherche sur A, on peut trouver et visionner les vidéos de B et C, sans quitter A.
  • Le logiciel dispose de réglages assez fins qui permettent d’ajuster la gouvernance : chaque instance s’organise comme elle le souhaite. Ainsi, l’administrateur·ice de l’instance peut définir :
    • un quota d’espace disque pour chaque vidéaste ;
    • le nombre de comptes acceptés ;
    • le rôle des utilisateur·ices (administration, modération, utilisation, upload de vidéos).
  • PeerTube peut fonctionner sur un petit serveur. Vous pouvez par exemple l’installer sur un matériel type VPS ayant deux cœurs et 2Go de RAM. L’espace de stockage requis dépend évidemment du nombre de vidéos que vous souhaitez héberger personnellement.
  • PeerTube dispose d’un code stable et robuste, testé et éprouvé sur de nombreux systèmes, ce qui le rend performant. Ainsi, une page PeerTube se charge souvent bien plus vite qu’une page YouTube.
  • Vos vidéos peuvent être automatiquement converties dans différentes définitions (par exemple 240p, 720p ou 1080p. voire le 4K) pour s’adapter au débit et matériel des visiteur·euses. Cette étape s’appelle le transcodage.
  • Un mode «Théâtre» ainsi qu’un mode «nuit» sont disponibles pour un meilleur confort de visionnage.
  • PeerTube ne vous espionne pas et ne vous enferme pas : en effet, l’application ne collecte pas d’informations personnelles à des fins d’exploitation commerciale, et surtout PeerTube ne vous enferme pas dans une « bulle de filtre ». Par ailleurs, il n’utilise pas d’algorithme de recommandation biaisé pour vous faire rester indéfiniment en ligne. C’est peut-être un détail (ou une faiblesse) pour vous, mais pour nous c’est une force qui veut dire beaucoup !
  • Il n’existe pas – encore – d’application smartphone dédiée. Cependant, la version web de PeerTube fonctionne rapidement sur smartphone et s’adapte parfaitement à votre appareil.
  • Les visiteur⋅euses peuvent commenter les vidéos. Cette fonctionnalité peut être désactivée soit par l’administrateur·ice de l’instance sur n’importe quelle vidéo, soit localement par la personne qui met en ligne les vidéos.
  • PeerTube utilisant le protocole d’échanges ActivityPub, il est possible d’interagir avec d’autres logiciels utilisant ce même protocole. Par exemple, la plateforme de vidéo PeerTube peut interagir avec le réseau social Mastodon, alternative à Twitter. Ainsi, il est possible de « suivre » un utilisateur PeerTube depuis Mastodon, ou même de commenter une vidéo directement depuis votre compte Mastodon.
  • Un bouton permet d’apporter votre soutien à l’auteur d’une vidéo. Ainsi, les vidéastes peuvent mettre en place le mode de financement qui leur convient.
  • Nous n’avons peut-être pas insisté sur ce point, mais PeerTube est bien évidemment un logiciel libre 🙂 Cela signifie que son code source (sa recette de cuisine) est disponible et ouverte à tou⋅tes. Ainsi, vous pouvez contribuer au code ou, si vous pensez que le logiciel ne va pas dans la bonne direction, le copier et y apporter les modifications qui correspondent à vos besoins.

Image du crowdfunding réussi ayant financé une large partie des fonctionnalités les plus attendues.

Fonctionnalités financées par le crowdfunding

  • Le sous-titrage : possibilité d’ajouter de multiples fichiers de langue (au format .srt) pour proposer les sous-titrages des vidéos.
  • La redondance d’instance : il est possible « d’aider » une instance désignée en activant la redondance de tout ou partie de ses vidéos (qui seront alors dupliquées sur votre instance). Ainsi, si l’instance liée est surchargée parce que trop de monde regarde les vidéos qu’elle héberge, votre instance pourra la soutenir en mettant sa bande passante à disposition.
  • L’import depuis d’autres plateformes vidéo par simple copier-coller : YouTube, Viméo, Dailymotion, etc. Depuis certaines plateformes, la récupération du titre, de la description ou des mots clés est même automatique. Il est bien entendu possible d’importer aussi des vidéos par lien direct ou depuis une autre instance PeerTube. Enfin, PeerTube permet aussi l’import depuis les fichiers .torrent.
  • Plusieurs flux RSS s’offrent à vous selon vos besoins : un pour les vidéos de manière globale, un autre pour celles d’une chaîne et un dernier pour les commentaires d’une vidéo.
  • Peertube s’est internationalisé et parle maintenant 13 langues dont le chinois. Des traductions vers d’autres langues sont en cours.
  • La recherche est plus pertinente. Elle prend en compte certaines fautes de frappe et propose l’utilisation de filtres.

Fonctionnalités à venir

Nous avons une excellente nouvelle : bien que le troisième palier du crowdfunding n’ait pas été atteint, Framasoft a décidé d’embaucher Chocobozzz en CDI afin de pérenniser le développement de Peertube. D’autres fonctionnalités sont donc prévues au cours de l’année 2019.

  • Un système de plugins pour personnaliser Peertube. Il s’agit là d’un développement essentiel, car il permettra à chacun⋅e de développer ses propres plugins pour adapter PeerTube à ses besoins. Par exemple il deviendra possible de proposer des plugins de recommandations avec des algorithmes spécifiques ou des thèmes graphiques complètement différents.
  • Nous développerons éventuellement une application mobile (ou bien des contributeur⋅ices motivé⋅e⋅s le feront)
  • Il sera rapidement possible d’améliorer l’outil d’importation de vidéos, de façon à pouvoir «synchroniser» votre chaîne YouTube avec votre chaîne PeerTube (PeerTube sera en capacité de vérifier si de nouvelles vidéos ont été ajoutées et pourra automatiquement les ajouter à votre compte PeerTube, titre et descriptions compris). Dans les faits, cette fonctionnalité fonctionne déjà pour celles et ceux qui hébergent leur instance PeerTube et maîtrisent la ligne de commande.
  • Des statistiques par instance ou par compte pourront être mises à disposition.
  • L’amélioration des outils de modération.
[Exemple de la fonction d’import de vidéo]

 

PeerTube répare Internet

La campagne « Dégooglisons Internet » était un cri, une réaction, un rejet. Rejet des GAFAM et de leur vision centralisatrice, fermée, toute tournée vers le fric et le contrôle. Lutter contre les GAFAM, c’est mener un combat disproportionné. Mais la prise de conscience est faite. Nous n’avons plus besoin de rabâcher notre couplet sur leur façon de nier nos libertés, de s’approprier nos données personnelles, de prendre le pouvoir dans nos vies. Et puis il faut dire qu’à force de scandales, ils nous ont bien aidés à accélérer dans l’opinion publique cette prise de conscience. Nous revendiquons fièrement notre participation à cette évolution des esprits, au milieu d’autres acteurs tout aussi importants (LQDN, la CNIL, l’APRIL, etc.). Il est temps maintenant de passer à autre chose.

 

https://framalab.org/gknd-creator/

 

Chez Framasoft, incorrigibles bavards que nous sommes, nous avons produit beaucoup d’écrits, et nous avons finalement, proportionnellement, assez peu de contenus vidéos à proposer, alors que c’est un média qui est devenu à la fois plus facile à élaborer et plus demandé par le public. Ce virage vers la vidéo nous a été confisqué par les plateformes centralisatrices, Youtube en tête. Elles ont installé un standard, une norme, avec des pratiques révoltantes comme la censure aveugle et l’appropriation des contenus.

Le principe de fédération impulsé par le protocole ActivityPub et les logiciels qui l’utilisent (Peertube, Mastodon, Funkwhale, PixelFed, Plume… la liste s’allonge chaque mois) est en train, ni plus ni moins, de corriger le tir, de (re)construire le futur d’Internet. Celui que nous appelons de nos vœux.

sketchnote d'un réseau fédéré avec ActivityPub
La fédération, avec ActivityPub, c’est s’allier aux autres sans perdre son identité

 

Oui, cette fois, c’est une révolution. Avec Contributopia, nous annonçons une étape de construction, basée sur le partage, les communs, l’éducation populaire.

Nous avons aussi pris conscience, en avançant, que nous ne pouvions plus nier la dimension politique de cette vision. Alors quand on dit «politique», on convoque l’étymologie du mot, hein. C’est pas demain qu’on verra Pyg, notre délégué général, à l’Assemblée Nationale. Il n’empêche ! La culture du libre, ça va bien au-delà de l’hébergement d’agendas ou de l’ouverture d’un pad pour rédiger le présent article à plusieurs.

Nous travaillons, dans le cadre qui est le nôtre, à fournir des outils numériques aux utopistes qui, comme nous, pensent qu’il y a encore moyen de sauver les meubles. On se disait que ce n’était pas super vendeur, mais nous avons pu voir, lors de nos fréquentes interventions à droite et à gauche, que la démarche rencontrait de l’écho. Nous avons encore quelques jolies cartes à jouer pour la suite (même si pour certaines on ne sait pas encore comment ça se passera ^^), comme toujours dans la bonne humeur et le houblon doré.

Nous espérons que vous nous suivrez, encore, dans cette voie.

Longue vie à PeerTube.

L’équipe de Framasoft.

Pour aller plus loin

À vous de jouer ! PeerTube vous appartient, emparez-vous de ses possibilités. Déposez des vidéos de qualité (de préférence sous licence libre, ou pour laquelle vous avez les droits de diffusion ou un accord explicite) sur l’une des instances déjà existantes. Faites connaître PeerTube à vos contacts et aux YouTubeur⋅euses auxquels vous êtes abonné⋅e. Et si vous le pouvez, installez votre propre instance pour agrandir encore le réseau fédéré !