Projet Common Voice : pour que la voix soit libre

On nous demande souvent comment contribuer au Libre sans être un cador en informatique. Voici un projet utile, d’une grande importance et auquel il est très simple de contribuer : il suffit de savoir lire, parler et écouter. On vous explique tout.

On voit émerger à grande allure des objets avec lesquels l’interaction repose sur la reconnaissance vocale : smartphones, assistants connecté, dispositifs de réalité virtuelle…Selon les experts de ce marché, 50 % des recherches toutes plateformes confondues passeront par la voix d’ici 2 à 3 ans. Quant aux objets dits « intelligents », ils atteignent pour les pays favorisés un niveau de prix qui les rend accessibles à un nombre croissant de consommateurs. On peut trouver dès aujourd’hui dans la grande distribution des « enceintes connectées » à l’écoute de vos questions pour moins de 100 euros… Autant dire que ces produits sont en passe d’être des objets de consommation de masse.

Les services vocaux, au-delà des fonctions d’espionnage qui suscitent la méfiance, apporteront des avantages sensibles aux usages numériques du grand public. Ils abaisseront la barrière d’accès à des fonctionnalités utiles pour les personnes handicapées, en difficulté avec la lecture, dont les mains sont occupées ou pour celles qui ont besoin d’assistance immédiate. Dans bien des cas de figure il est ou sera plus efficace ou rapide d’utiliser la voix plutôt qu’une interface tactile ou souris/clavier1

quel est le problème, demande le personnage de BD

Le problème hélas a un air de déjà-vu : aujourd’hui les systèmes de reconnaissance vocale sont essentiellement propriétaires et reposent sur 4 ou 5 bases de données vocales propriétaires : Cortana (Microsoft), Siri (Apple), Google Now (Google), Vocapia Research (VoxSigma suite)… En d’autres termes, tout est prêt pour assurer à quelques géants du numérique, toujours les mêmes, une suprématie commerciale et technologique. Et l’histoire récente prouve qu’ils n’hésiteront pas longtemps avant de capter les données les plus précieuses, celles de notre vie dans la bulle privée de notre habitation.

Il se trouve qu’un projet qui repose sur des ressources libres (données et code informatique) a été lancé par l’un des acteurs majeurs du monde du Libre : la fondation Mozilla.

Pourquoi Mozilla s’en mêle ?

Parmi les principes qui guident Mozilla et qu’on retrouve dans son manifeste, la santé d’un Web ouvert et l’inclusivité sont des valeurs essentielles. Cette ressource numérique dont l’usage est appelé à se développer rapidement doit être à la disposition du plus grand nombre, à commencer par les entreprises innovantes (déjà sur la brèche par exemple Mycroft et Snips) qui n’ont pas les moyens financiers d’accéder aux bases propriétaires et qui seraient tout simplement marginalisées par les grandes entreprises. Au-delà, bien sûr, c’est pour que des produits reposant sur la reconnaissance vocale soient accessibles à tous, quelle que soit leur langue, leur genre, leur accent local etc.

De quoi s’agit-il ?

De constituer la plus riche base possible d’échantillons sonores qui seront mis à la disposition des développeurs sous une licence libre (licence CC0). Le projet global s’appelle Deep Speech et Mozilla fait travailler des ingénieurs à traiter les données collectées avec des algorithmes, et ainsi alimenter un dispositif d’apprentissage machine.

Comment ça peut marcher ?

Ici nous tentons une description simple donc forcément approximative…

Un réseau de neurones va « apprendre » si…

  1. On donne à la machine des fichiers audio en entrée
  2. On calcule la sortie, c’est-à-dire le texte
  3. On compare au texte d’origine et… ben non c’est pas tout à fait ça.
  4. On ajuste un petit peu des millions de paramètres internes pour essayer de se rapprocher de la sortie voulue
  5. On répète sur des milliers d’heures…

portrait d’Alexandre Lissy ingénieur chez Mozilla
Alexandre Lissy, ingénieur Mozilla qui travaille au bureau de Paris pour le projet Deep Speech. Les autres membres de l’équipe sont à Berlin, au Brésil et à San Francisco… (Photo de Samuel Nohra publiée dans Ouest France)

Pourquoi est-ce difficile à réaliser ?

  • L’entraînement des machines et la transcription nécessitent une grosse puissance de calcul.
  • Un nombre très important d’heures d’enregistrements valides est nécessaire pour que la reconnaissance vocale soit la plus efficace possible. C’est une somme d’environ 10 000 heures qui est considérée comme souhaitable pour obtenir un résultat.
  • Il existe peu de gros jeux de données publiquement accessibles en CC0 pour construire des modèles de reconnaissance 100% libres.

Les principes de Common Voice

Tout d’abord le projet est mondial et vise à fonctionner pour le plus grand nombre de langues possible. Le projet est assez récent et pour l’instant, 16 langues seulement sont actives dont bien sûr le Français. On remarque que le projet a de l’importance pour les langues qui peuvent se sentir menacées : le Catalan, le Breton et le Kabyle par exemple sont déjà lancés !

Mais euh… On n’en est que là nous autres les francophones ? Vous avez compris : il est temps de nous y mettre tous ! (copie d’écran de la page des langues)

 

C’est aussi un projet inclusif pour lequel les intonations diverses sont bienvenues, avec une insistance particulière des ingénieurs responsables du projet pour qu’il y ait une grande diversité de voix : locuteurs et locutrices, de tous âges, avec tous les accents régionaux (oui les accents du sud, du nord etc. sont tout à fait bienvenus, une trentaine d’accents sont retenus), car les machines devront traiter la voix pour le plus grand nombre et pas exclusivement pour une prononciation standard appliquée. il est important de prononcer distinctement, mais le projet n’a pas besoin de textes déclamés professionnellement par des acteurs.

C’est surtout un projet communautaire  et collaboratif. Il s’est construit dès le départ avec la communauté Mozilla  et ses contributeurs et contributrices. Il fait maintenant appel à la communauté plus large de… tous les francophones. Car comme vous allez le voir, tout le monde 2 peut y participer !

Simplicité de la contribution

Le mode d’emploi détaillé figure dans cet article de blog de Mozilla francophone. Mais pour l’essentiel, avec un micro-casque de qualité ordinaire vous pouvez :

1. PARLER

et enregistrer tour à tour une série de 5 brèves phrases

 

copie d’écran enregistrer des phrases lues sur l’écranPas d’inquiétude : on peut choisir « passer » avec un bouton dédié si on rencontre une difficulté de compréhension, prononciation ou autre. Et bien entendu si en se réécoutant on constate que ça peut être mieux, un simple clic permet de recommencer.

 

2. ÉCOUTER

pour valider ou non une série de 5 phrases

copie d’écran valider ou non les phrases entendues

Vous vous demandez peut-être d’où viennent tous ces textes parfois bizarres qu’on doit lire à haute voix ou écouter. Eh bien ce sont des textes dont la licence permet l’utilisation, qui viennent de transcriptions de débats de l’assemblée Nationale, de quelques livres du projet Gutenberg, de quelques pièces de théâtre, d’adresses françaises… Ah tiens, mais s’il faut enrichir la base, les romans de Pouhiou et celui de Frédéric Urbain publiés chez Framabook sont en CC0 ! Ça pourrait donner des phrases de test assez rigolotes.

Quand t’as eu des hémorroïdes, tu peux plus croire à la réincarnation.

Vingt-cinq ans, j’ai été bignole. Vous pensez si je retapisse un poulet.

Le coin des pas contents

Ah et puis ça ne va pas rater, les chevaliers blancs du Libre ne vont pas manquer d’agiter leur drapeau immaculé, donc on vous le dit d’avance : oui malheureusement la page de Common Voice contient du Google Analytics. ublock origin et la page commonvoiceEt oui encore, amis sourcilleux sur les licences libres, la CC0 va permettre la réutilisation commerciale des voix enregistrées bénévolement. C’est dommage ou pas de placer un travail collectif sous une licence très permissive ?

Cliquez sur l’image pour parcourir la page d’informations sur la CC0

 

À vous de jouer !

Chaque contribution est précieuse, surtout si elle est réitérée un grand nombre de fois 😉 Pour s’encourager, on peut suivre la progression des objectifs quotidiens, et certain⋅e⋅s ne manquent pas de se prendre au jeu…

un contributeur content de son score

Vous l’avez compris, ce projet réclame une participation massive pour avancer, alors si chacun y contribue ne serait-ce que modestement, nous pourrons dire que la voix est libre !

Liens utiles




MobiliZon : reprendre le pouvoir sur ce qui nous rassemble

Nous voulons façonner les outils que les géants du Web ne peuvent ni ne veulent créer. Pour y parvenir, nous avons besoin de votre soutien.

Penser hors des sentiers battus par les actionnaires

Pauvre MeetUp ! Pauvre Facebook avec ses événements et ses groupes ! Vous imaginez combien c’est dur, d’être une des plus grandes capitalisations boursières au monde ? Non mais c’est que les actionnaires ils sont jamais contents, alors il faut les arracher avec les dents, ces dividendes !

Nos pauvres petits géants du Web sont o-bli-gés de coder des outils qui ne vous donnent que très peu de contrôle sur vos communautés (familiales, professionnelles, militantes, etc.). Parce qu’au fond, les centres d’intérêt que vous partagez avec d’autres, c’est leur fonds de commerce ! Nos pauvres vendeurs de temps de cerveau disponible sont trop-for-cés de vous enfermer dans leurs plateformes où tout ce que vous ferez sera retenu envers et contre vous. Parce qu’un profil publicitaire complet, ça se vend plus cher, et ça, ça compte, dans leurs actions…

Cliquez sur l’image pour aller voir la conférence « Comment internet a facilité l’organisation des révolutions sociales mais en a compromis la victoire » de Zeynep Tufekci sur TED Talk

Et nous, internautes prétentieuses, on voudrait qu’ils nous fassent en plus un outil complet, éthique et pratique pour nous rassembler…? Mais on leur en demande trop, à ces milliardaires du marketing digital !

Comme on est choubidou chez Framasoft, on s’est dit qu’on allait leur enlever une épine du pied. Oui, il faut un outil pour organiser ces moments où on se regroupe, que ce soit pour le plaisir ou pour changer le monde. Alors on accepte le défi et on se relève les manches.

On ne changera pas le monde depuis Facebook

Lors du lancement de la feuille de route Contributopia, nous avions annoncé une alternative à Meetup, nom de code Framameet. Au départ, nous imaginions vraiment un outil qui puisse servir à se rassembler autour de l’anniversaire du petit dernier, de l’AG de son asso ou de la compète de son club d’Aïkido… Un outil singeant les groupes et événements Facebook, mais la version libre, qui respecte nos sphères d’intimité.

Puis, nous avons vu comment les « Marches pour le climat » se sont organisées sur Facebook, et comment cet outil a limité les personnes qui voulaient s’organiser pour participer à ces manifestations. Cliquera-t-on vraiment sur «ça m’intéresse» si on sait que nos collègues, nos ami·e·s d’enfance et notre famille éloignée peuvent voir et critiquer notre démarche ? Quelle capacité pour les orgas d’envoyer une info aux participant·e·s quand tout le monde est enfermé dans des murs Facebook où c’est l’Algorithme qui décide de ce que vous verrez, de ce que vous ne verrez pas ?

L’outil dont nous rêvons, les entreprises du capitalisme de surveillance sont incapables de le produire, car elles ne sauraient pas en tirer profit. C’est l’occasion de faire mieux qu’elles, en faisant autrement.

Nous avons été contacté·e·s par des personnes des manifestations #OnVautMieuxQueÇa et contre la loi travail, des Nuits Debout, des Marches pour le climat, et des Gilets Jaunes… Et nous travaillons régulièrement avec les Alternatiba, l’association Résistance à l’Agression Publicitaire, le mouvement Colibris ou les CEMÉA (entre autres) : la plupart de ces personnes peinent à trouver des outils permettant de structurer leurs actions de mobilisation, sans perdre le contrôle de leur communauté, du lien qui est créé.

Groupe gilets jaunes sur Facebook : «Quelle que soit l'issue du mouvement, la base de donnée "opinion" qui restera aux mains de Facebook est une bombe démocratique à retardement ... Et nous n'avons à ce jour absolument aucune garantie qu'elle ne soit pas vendue à la découpe au(x) plus offrant(s). »
Cliquez sur cette image pour lire « Après avoir liké, les Gilets Jaunes iront-ils voter ? » d’Olivier Ertzschied.

Or « qui peut le plus peut le moins » : si on conçoit un outil qui peut aider un mouvement citoyen à s’organiser, à s’émanciper… cet outil peut servir, en plus, pour gérer l’anniversaire surprise de Tonton Roger !

Ce que MeetUp nous refuse, MobiliZon l’intègrera

Concevoir le logiciel MobiliZon (car ce sera son nom), c’est reprendre le pouvoir qui a été capté par les plateformes centralisatrices des géants du Web. Prendre le pouvoir aux GAFAM pour le remettre entre les mains de… de nous, des gens, des humains, quoi. Nous allons nous inspirer de l’aventure PeerTube, et penser un logiciel réellement émancipateur :

  • Ce sera un logiciel Libre : la direction que Framasoft lui donne ne vous convient pas ? Vous aurez le pouvoir de l’emmener sur une autre voie.
  • Comme Mastodon ou PeerTube, ce sera une plateforme fédérée (via ActivityPub). Vous aurez le pouvoir de choisir qui héberge vos données sans vous isoler du reste de la fédération, du « fediverse ».
  • L’effet « double rainbow » de la fédération, c’est qu’avec MobiliZon vous donnerez à vos événements le pouvoir d’interagir avec les pouets de Mastodon, les vidéos PeerTube, les musiques de FunkWhale
  • Vous voulez cloisonner vos rassemblements familiaux de vos activités associatives ou de vos mobilisations militantes ? Vous aurez le pouvoir de créer plusieurs identités depuis le même compte, comme autant de masques sociaux.
  • Vous voulez créer des événements réellement publics ? Vous donnerez le pouvoir de cliquer sur « je participe » sans avoir à se créer de compte.
  • Il faut lier votre événement à des outils externes, par exemple (au hasard) à un Framapad ? Vous aurez le pouvoir d’intégrer des outils externes à votre communauté MobiliZon.

dessin de MobiliZon par Devid Revoy
MobiliZon, illustré par David Revoy – Licence : CC-By 4.0

La route est longue, mais MobiliZon-nous pour que la voie soit libre !

Nous avons travaillé en amont pour poser des bases au projet, que nous vous présentons aujourd’hui sur JoinMobilizon.org. Au delà des briques logicielles et techniques, nous avons envie de penser à l’expérience utilisateur de l’application que les gens auront en main au final. Et qui, en plus, se doit d’être accessible et compréhensible par des néophytes.

Nous souhaitons éprouver ainsi une nouvelle façon de faire, en contribuant avec des personnes dont c’est le métier (designeurs et designeuses, on parlera très vite de Marie-Cécile et de Geoffrey !) pour œuvrer ensemble au service de causes qui veulent du bien à la société.

Le développement se fera par étapes et itérations, comme cela avait été le cas pour PeerTube, de façon à livrer rapidement (fin 2019) une version fonctionnelle qui soit aussi proche que possible des aspirations de celles et ceux qui ont besoin d’un tel outil pour se mobiliser.

Voilà notre déclaration d’intention. La question est : allez-vous nous soutenir ?

Car pour avancer vers la concrétisation de MobiliZon, et prolonger l’ensemble de nos projets, il n’y a pas de secrets : nous avons besoin de dons. Des dons qui, on le rappelle, restent déductibles des impôts (pour les contribuables français·es).

Pour notre campagne de dons de cette année, nous avons fait le choix de ne pas utiliser des outils invasifs qui jouent à vous motiver (genre la barre de dons qu’on a envie de voir se remplir). On a voulu rester sobre, et du coup c’est pas super la fête : on risque d’avoir du mal à ajouter MobiliZon dans notre budget 2019…

Alors si MobiliZon vous fait rêver autant que nous, et si vous le pouvez, pensez à soutenir Framasoft.

Faire un don pour soutenir les actions de Framasoft

 




Framasoft : les chiffres à connaître

Chaque année, nous nous rappelons à votre bon souvenir pour vous inciter à soutenir financièrement nos actions. Vous voyez au fil du temps de nouveaux services et des campagnes ambitieuses se mettre en place. Mais peut-être voudriez-vous savoir en chiffres ce que nous avons réalisé jusqu’à présent. Voilà de quoi vous satisfaire.

Par souci de transparence, nos bilans financiers sont publiés chaque année et nous offrons en temps réel l’accès à certaines statistiques d’usage de nos services. Mais cela ne couvre pas l’ensemble de nos actions et nous nous sommes dit que vous pourriez en vouloir plus que ce qui se trouve sur Framastats.

Libre à vous de picorer un chiffre ou l’autre, d’en faire des quizz ou de les reprendre pour votre argumentaire afin de démontrer l’efficacité du monde associatif. Nous espérons que vous y verrez l’illustration de notre engagement à promouvoir le libre sous toutes ses formes.

  • 1 : Depuis son lancement voilà un an, chaque heure un nouveau site naît sur Framasite.
  • 2,5 : Les 5 000 utilisatrices de Framadrive utilisent 2,5 To de données pour leurs 3 millions de fichiers.
  • 5 : Toutes les 5 secondes en moyenne, un utilisateur se connecte sur les services Framasoft.
  • 10 : Toutes les 10 minutes à peine, une nouvelle visioconférence est créée sur Framatalk, qui accueille environ 400 participant⋅es par jour.

Framatalk, la vision-conférence Libre, vue par Pëhà

  • 11 : C’est le nombre de pizzas, additionné aux 47 plateaux-repas et 25 couscous qu’ont avalé les 25 personnes présentes pendant les 4 jours de l’AG Framasoft 2018.
  • 33 : Framasoft vous propose 33 services en ligne alternatifs, respectueux de vos données et sans publicité.
  • 35 : Grâce aux 300 abonné·e·s à la liste Framalang, ce ne sont pas moins de 35 traductions qui ont été effectuées et publiées sur le Framablog en un an.
  • 252 : http://joinpeertube.org , c’est une fédération de 252 instances (déclarées) affichant 23 017 vidéos libérées de YouTube
  • 750 : Chaque mois, notre support répond à environ 750 demandes, questions et problèmes. Avec un seul salarié !

Framalibre, l’annuaire à l’origine de Framasoft

  • 871 : Framalibre, l’annuaire du libre vous présente 871 projets, logiciels ou créations artistiques sous licence libre à l’aide de courtes notices.
  • 1 000 : Framaforms c’est environ 1000 formulaires créés quotidiennement et plus de 44 000 formulaires hébergés.
  • 1 800 : Chaque jour, ce sont près de 1 800 images qui viennent s’ajouter aux 770 000 déjà présentes sur les serveurs de Framapic.
  • 2 236 : Le Framablog c’est 2 236 articles et 28 919 commentaires depuis 2006, faisant le lien entre logiciel libre et société/culture libres.
  • 3 000 : 4 000 utilisatrices réparties en 250 groupes ont créé plus de 3 000 présentations et conférences grâce à Framaslides alors qu’il n’est encore qu’en beta !
  • 6 000 : Framemo héberge 6 000 tableaux qui ont aidé des utilisateurs à mettre leurs idées au clair, sans avoir à s’inscrire.

Framacarte, pour ne pas se perdre en chemin

  • 6 000 : Sur Framacarte ajoutez votre propre fond de carte aux 6 000 qui existent déjà, en partenariat avec OpenStreetMap.
  • 6 579 : Framapiaf, c’est 6 579 utilisateurs ayant « pouetté » 734 500 messages sur cette instance Mastodon, elle-même fédérée avec près de 4 000 autres instances (totalisant environ 1,5 million de comptes).
  • 11 000 : Avec Framanews, ce sont 500 lecteurs (limite qu’on a nous même fixée pour restreindre la charge du serveur) qui accèdent régulièrement à leurs 11 000 flux RSS.
  • 13 000 : Près de 4 000 utilisatrices accèdent à leur 13 000 notes depuis n’importe quel navigateur, avec un accès sécurisé, sur Framanotes.
  • 15 000 : Avec Framabag 15 000 personnes ont pu sauvegarder et classer 1,5 million d’articles.

Framagit, pour partager librement votre code

 

  • 25 000 : Notre forge logicielle, Framagit, héberge plus de 25 000 projets (et autant d’utilisateurs).
  • 35 000 : Avec MyFrama, 35 000 utilisatrices partagent librement leurs liens Internet.
  • 43 000 : Accédez à une des 43 000 adresses Web abrégées ou créez-en une grâce au raccourcisseur d’URL Framalink qui ne traque pas vos visiteurs.
  • 52 000 : Découvrez Framasphère, membre du réseau social libre et fédéré Diaspora*, où 52 000 utilisatrices ont échangé environ 600 000 messages et autant de commentaires.
  • 75 000 : Près de 75 000 joueurs ont pu faire une petite pause ludique sans s’exposer à de la publicité sur Framagames.

Framadrop, le partage aisé de gros fichier, en sécurité

  • 100 000 : Sur Framadrop plus de 100 000 fichiers ont pu être échangés en toute confidentialité.
  • 130 000 : Framacalc accueille plus de 130 000 feuilles de calcul, où vos données ne sont pas espionnées ni revendues
  • 142 600 : Sur Framapad, c’est en moyenne plus de 142 600 pads actifs chaque jour et presque 8 millions d’utilisateurs depuis ses débuts.
  • 150 000 : Les serveurs de Framalistes adressent en moyenne 150 000 courriels chaque jour aux 280 000 inscrites à des listes de discussion.
  • 200 000 : Êtes-vous l’une des 200 000 personnes à avoir consulté un des 23 000 messages chiffrés de Framabin ?
  • 500 000 : Framadate c’est plus de 500 000 visites par mois et plus de 1 000 sondages créés chaque jour.

Framapiaf, notre instance Mastodon

  • 2 500 000 : Plus de 2 millions et demi de personnes ont développé leurs idées, échafaudé des projets sur Framindmap depuis sa mise en place.
  • 3 350 000 : Grâce à Framabook, 3 350 000 lecteurs ont pu télécharger en toute légalité un des 47 ouvrages librement publiés.
  • 5 000 000 : Sur Framagenda environ 35 000 utilisateurs gèrent un million de contacts. Ils organisent et partagent près de cinq millions d’événements.
  • 10 000 000 : Comme près de 40 000 personnes, travaillez en équipe sur Framateam et rejoignez un des 80 000 canaux avec presque 10 millions de messages !

 

Et le chiffre essentiel pour que tout cela soit possible, c’est celui de nos donatrices et donateurs (2381 en moyenne chaque année) : appuyez sur ce bouton pour le faire croître de 1

 

+1 : Je fais un don à Framasoft

 

Pour en savoir plus




Les données que récolte Google – Ch.3

Voici déjà la traduction du troisième chapitre de Google Data Collection, l’étude élaborée par l’équipe du professeur Douglas C. Schmidt, spécialiste des systèmes logiciels, chercheur et enseignant à l’Université Vanderbilt. Si vous les avez manqués, retrouvez les chapitres précédents déjà publiés.

Il s’agit aujourd’hui de mesurer ce que les plateformes les plus populaires recueillent de nos smartphones

Traduction Framalang : Côme, goofy, Khrys, Mika, Piup. Remerciements particuliers à badumtss qui a contribué à la traduction de l’infographie.

La collecte des données par les plateformes Android et Chrome

11. Android et Chrome sont les plateformes clés de Google qui facilitent la collecte massive de données des utilisateurs en raison de leur grande portée et fréquence d’utilisation. En janvier 2018, Android détenait 53 % du marché américain des systèmes d’exploitation mobiles (iOS d’Apple en détenait 45 %)3 et, en mai 2017, il y avait plus de 2 milliards d’appareils Android actifs par mois dans le monde.4

12. Le navigateur Chrome de Google représentait plus de 60 % de l’utilisation mondiale de navigateurs Internet avec plus d’un milliard d’utilisateurs actifs par mois, comme l’indiquait le rapport Q4 10K de 20175. Les deux plateformes facilitent l’usage de contenus de Google et de tiers (p.ex. applications et sites tiers) et fournissent donc à Google un accès à un large éventail d’informations personnelles, d’activité web, et de localisation.

A. Collecte d’informations personnelles et de données d’activité

13. Pour télécharger et utiliser des applications depuis le Google Play Store sur un appareil Android, un utilisateur doit posséder (ou créer) un compte Google, qui devient une passerelle clé par laquelle Google collecte ses informations personnelles, ce qui comporte son nom d’utilisateur, son adresse de messagerie et son numéro de téléphone. Si un utilisateur s’inscrit à des services comme Google Pay6, Android collecte également les données de la carte bancaire, le code postal et la date de naissance de l’utilisateur. Toutes ces données font alors partie des informations personnelles de l’utilisateur associées à son compte Google.

14. Alors que Chrome n’oblige pas le partage d’informations personnelles supplémentaires recueillies auprès des utilisateurs, il a la possibilité de récupérer de telles informations. Par exemple, Chrome collecte toute une gamme d’informations personnelles avec la fonctionnalité de remplissage automatique des formulaires, qui incluent typiquement le nom d’utilisateur, l’adresse, le numéro de téléphone, l’identifiant de connexion et les mots de passe.7 Chrome stocke les informations saisies dans les formulaires sur le disque dur de l’utilisateur. Cependant, si l’utilisateur se connecte à Chrome avec un compte Google et active la fonctionnalité de synchronisation, ces informations sont envoyées et stockées sur les serveurs de Google. Chrome pourrait également apprendre la ou les langues que parle la personne avec sa fonctionnalité de traduction, activée par défaut.8

15. En plus des données personnelles, Chrome et Android envoient tous deux à Google des informations concernant les activités de navigation et l’emploi d’applications mobiles, respectivement. Chaque visite de page internet est automatiquement traquée et collectée par Google si l’utilisateur a un compte Chrome. Chrome collecte également son historique de navigation, ses mots de passe, les permissions particulières selon les sites web, les cookies, l’historique de téléchargement et les données relatives aux extensions.9

16. Android envoie des mises à jour régulières aux serveurs de Google, ce qui comprend le type d’appareil, le nom de l’opérateur, les rapports de bug et des informations sur les applications installées10. Il avertit également Google chaque fois qu’une application est ouverte sur le téléphone (ex. Google sait quand un utilisateur d’Android ouvre son application Uber).

B. Collecte des données de localisation de l’utilisateur

17. Android et Chrome collectent méticuleusement la localisation et les mouvements de l’utilisateur en utilisant une variété de sources, représentées sur la figure 3. Par exemple, un accès à la « localisation approximative » peut être réalisé en utilisant les coordonnées GPS sur un téléphone Android ou avec l’adresse IP sur un ordinateur. La précision de la localisation peut être améliorée (« localisation précise ») avec l’usage des identifiants des antennes cellulaires environnantes ou en scannant les BSSID (’’Basic Service Set IDentifiers’’), identifiants assignés de manière unique aux puces radio des points d’accès Wi-Fi présents aux alentours11. Les téléphones Android peuvent aussi utiliser les informations des balises Bluetooth enregistrées dans l’API Proximity Beacon de Google12. Ces balises non seulement fournissent les coordonnées de géolocalisation de l’utilisateur, mais pourraient aussi indiquer à quel étage exact il se trouve dans un immeuble.13

schéma représentatt les différents moyens (wifi, bluetooth) de localiser les données d’un utilisateur de smartphone
Figure 3 : Android et Chrome utilisent diverses manières de localiser l’utilisateur d’un téléphone.

 

18. Il est difficile pour un utilisateur de téléphone Android de refuser le traçage de sa localisation. Par exemple, sur un appareil Android, même si un utilisateur désactive le Wi-Fi, la localisation est toujours suivie par son signal Wi-Fi. Pour éviter un tel traçage, le scan Wi-Fi doit être explicitement désactivé par une autre action de l’utilisateur, comme montré sur la figure 4.

2 copies d’écran de paramètres d’android pour montrer que le wifi est toujours sacnné même s’il est désactivé
Figure 4 : Android collecte des données même si le Wi-Fi est éteint par l’utilisateur

 

19. L’omniprésence de points d’accès Wi-Fi a rendu le traçage de localisation assez fréquent. Par exemple, durant une courte promenade de 15 minutes autour d’une résidence, un appareil Android a envoyé neuf requêtes de localisation à Google. Les requêtes contenaient au total environ 100 BSSID de points d’accès Wi-Fi publics et privés.

20. Google peut vérifier avec un haut degré de confiance si un utilisateur est immobile, s’il marche, court, fait du vélo, ou voyage en train ou en car. Il y parvient grâce au traçage à intervalles de temps réguliers de la localisation d’un utilisateur Android, combiné avec les données des capteurs embarqués (comme l’accéléromètre) sur les téléphones mobiles. La figure 5 montre un exemple de telles données communiquées aux serveurs de Google pendant que l’utilisateur marchait.

code renvoyé aux serveurs : la localisation d’un utilisateur
Figure 5 : capture d’écran d’un envoi de localisation d’utilisateur à Google.

 

C. Une évaluation de la collecte passive de données par Google via Android et Chrome

21. Les données actives que les plateformes Android ou Chrome collectent et envoient à Google à la suite des activités des utilisateurs sur ces plateformes peuvent être évaluées à l’aide des outils MyActivity et Takeout. Les données passives recueillies par ces plateformes, qui vont au-delà des données de localisation et qui restent relativement méconnues des utilisateurs, présentent cependant un intérêt potentiellement plus grand. Afin d’évaluer plus en détail le type et la fréquence de cette collecte, une expérience a été menée pour surveiller les données relatives au trafic envoyées à Google par les téléphones mobiles (Android et iPhone) en utilisant la méthode décrite dans la section IX.D de l’annexe. À titre de comparaison, cette expérience comprenait également l’analyse des données envoyées à Apple via un appareil iPhone.

22. Pour des raisons de simplicité, les téléphones sont restés stationnaires, sans aucune interaction avec l’utilisateur. Sur le téléphone Android, une seule session de navigateur Chrome restait active en arrière-plan, tandis que sur l’iPhone, le navigateur Safari était utilisé. Cette configuration a permis une analyse systématique de la collecte de fond que Google effectue uniquement via Android et Chrome, ainsi que de la collecte qui se produit en l’absence de ceux-ci (c’est-à-dire à partir d’un appareil iPhone), sans aucune demande de collecte supplémentaire générée par d’autres produits et applications (par exemple YouTube, Gmail ou utilisation d’applications).

23. La figure 6 présente un résumé des résultats obtenus dans le cadre de cette expérience. L’axe des abscisses indique le nombre de fois où les téléphones ont communiqué avec les serveurs Google (ou Apple), tandis que l’axe des ordonnées indique le type de téléphone (Android ou iPhone) et le type de domaine de serveur (Google ou Apple) avec lequel les paquets de données ont été échangés par les téléphones. La légende en couleur décrit la catégorisation générale du type de demandes de données identifiées par l’adresse de domaine du serveur. Une liste complète des adresses de domaine appartenant à chaque catégorie figure dans le tableau 5 de la section IX.D de l’annexe.

24. Au cours d’une période de 24 heures, l’appareil Android a communiqué environ 900 échantillons de données à une série de terminaux de serveur Google. Parmi ceux-ci, environ 35 % (soit environ 14 par heure) étaient liés à la localisation. Les domaines publicitaires de Google n’ont reçu que 3 % du trafic, ce qui est principalement dû au fait que le navigateur mobile n’a pas été utilisé activement pendant la période de collecte. Le reste (62 %) des communications avec les domaines de serveurs Google se répartissaient grosso modo entre les demandes adressées au magasin d’applications Google Play, les téléchargements par Android de données relatives aux périphériques (tels que les rapports de crash et les autorisations de périphériques), et d’autres données — principalement de la catégorie des appels et actualisations de fond des services Google.

infographie exposant les proportions de trafic envoyé par les appareils divers vers les serveurs de Google
Figure 6 : Données sur le trafic envoyées par les appareils Andoid et les iPhones en veille.

 

25. La figure 6 montre que l’appareil iPhone communiquait avec les domaines Google à une fréquence inférieure de plus d’un ordre de grandeur (50 fois) à celle de l’appareil Android, et que Google n’a recueilli aucun donnée de localisation utilisateur pendant la période d’expérience de 24 heures via iPhone. Ce résultat souligne le fait que les plateformes Android et Chrome jouent un rôle important dans la collecte de données de Google.

26. De plus, les communications de l’appareil iPhone avec les serveurs d’Apple étaient 10 fois moins fréquentes que les communications de l’appareil Android avec Google. Les données de localisation ne représentaient qu’une très faible fraction (1 %) des données nettes envoyées aux serveurs Apple à partir de l’iPhone, Apple recevant en moyenne une fois par jour des communications liées à la localisation.

27. En termes d’amplitude, les téléphones Android communiquaient 4,4 Mo de données par jour (130 Mo par mois) avec les serveurs Google, soit 6 fois plus que ce que les serveurs Google communiquaient à travers l’appareil iPhone.

28. Pour rappel, cette expérience a été réalisée à l’aide d’un téléphone stationnaire, sans interaction avec l’utilisateur. Lorsqu’un utilisateur commence à bouger et à interagir avec son téléphone, la fréquence des communications avec les serveurs de Google augmente considérablement. La section V du présent rapport résume les résultats d’une telle expérience.

 




Impôts et dons à Framasoft : le prélèvement à la source en 2019

De nombreux donateurs s’inquiètent de savoir comment cela va se passer l’année prochaine pour les dons effectués à Framasoft en 2018 et le prélèvement à la source à partir de 2019. Pour une fois les choses sont très simples : rien ne change pour votre réduction d’impôt.

En 2019, les impôts seront prélevés à la source. Pour autant, la réduction fiscale demeure inchangée si vous faites un don à Framasoft : un don de 100 € en 2018 peut vous donner droit à 66 € de réduction fiscale, qui vous seront remboursés en août 2019.

Illustration du processus de don

Le déroulement en détail

Jusqu’à présent, vous faisiez votre déclaration au printemps en indiquant votre don ouvrant droit à une réduction d’impôt de 66%, dans la limite de 20 % du revenu imposable. En fin d’année, les services fiscaux vous indiquaient le montant à régler en tenant compte d’une éventuelle mensualisation demandée de votre part.

À partir de 2019, vous allez faire des règlements mensuels dès le mois de janvier en fonction d’un taux déterminé par l’administration fiscale et des paramètres que vous leur aurez fournis. Ceux qui ont fait un don en 2017 recevront, dès le 15 janvier 2019, un acompte de 60% de la réduction d’impôt dont ils ont bénéficié en 2018 au titre des dons effectués en 2017.

Vous ferez, comme chaque année, votre déclaration au printemps, vers mai-juin. Vous indiquerez alors le montant des dons faits à Framasoft en 2018 et pourrez, si demandé, joindre le justificatif que nous vous aurons fait parvenir vers mars-avril. C’est vers la fin de l’été que les impôts vous enverront votre avis, en tenant compte de ce don et d’un éventuel acompte versé de leur part en janvier. C’est alors que l’administration procédera à un recalcul de vos mensualités ou un remboursement, selon le cas et les montants. Les prélèvements mensuels se poursuivront ensuite pour ajuster vos paiements au montant de l’impôt dont vous devrez vous acquitter.

Et c’est tout. En gros, rien ne change pour votre réduction d’impôt pour les dons faits à Framasoft.

Exemple concret

Avant

Maintenant

Camille a donné 100 € par carte bleue à Framasoft en octobre 2017 en passant par https://soutenir.framasoft.org.

En mars 2018, Framasoft lui a envoyé un reçu fiscal pour ce don de 100€.

En mai 2018, Camille a déclaré ses revenus 2017, en précisant qu’elle avait fait un don de 100€ à Framasoft dans la case 7UF «Dons versés à d’autres organismes d’intérêt général».

En août 2018, Camille a reçu son avis d’imposition, qui indiquait prendre en compte une déduction de 66€ (100€ x 66%).

Fin décembre 2018, Camille donne 100€ à Framasoft. Elle le fait sur https://soutenir.framasoft.org comme l’an passé.

En mars 2019, Framasoft lui envoie son reçu fiscal pour un don de 100€.

En mai 2019, Camille reçoit des impôts sa déclaration de revenus 2018. Elle déclare alors (sur papier ou en ligne) ses revenus 2018, et indique (toujours dans la case « Dons versés à d’autres organismes d’intérêt général ») un montant de 100€.

En août/septembre 2019 (environ), les impôts envoient à Camille son avis d’imposition indiquant prendre en compte sa déduction de 66€ (100 € x 66%).

Son don de 100€ à Framasoft, après déduction, ne lui aura coûté que 34€ (100€ de don – 66€ de déduction). Son don de 100€ à Framasoft, après déduction, ne lui aura coûté que 34€ (100€ de don – 66€ de déduction).

 

 

Maintenant que vous voilà rassurés, nous ne pouvons que vous encourager à faire un don pour soutenir nos actions 🙂

Faire un don à Framasoft

 

 

Pour en savoir plus




Les données que récolte Google – Ch. 2

Voici déjà la traduction du deuxième chapitre de Google Data Collection, l’étude élaborée par l’équipe du professeur Douglas C. Schmidt, spécialiste des systèmes logiciels, chercheur et enseignant à l’Université Vanderbilt. Si vous les avez manqués, retrouvez les chapitres précédents déjà publiés.

Il s’agit aujourd’hui d’une expérience d’usage quotidien ordinaire du numérique en milieu urbain et connecté, expérience qu’il n’est pas trop difficile de transposer de ce côté-ci de l’Atlantique, et qui permet de repérer les différentes sortes de collecte opérées par Google, directement ou non.

Traduction Framalang : goofy, Khrys, serici. Remerciements particuliers à badumtss qui a contribué à la traduction de l’infographie.

II. Une journée dans la vie d’une utilisatrice de Google

passagers dans le métro, ils ont presque tous des écouteurs aux oreilles et leur smartphone en main
« Earbuds », photo de susanjanegolding (CC BY 2.0)

5.
Afin d’illustrer la multitude des interactions entre Google et un individu, ainsi que l’étendue des informations collectées lors de ces interactions, nous avons réalisé une expérience dans laquelle un chercheur utilise un périphérique Android14 pendant les activités d’une journée.
Afin d’éviter que des informations d’un utilisateur précédent ne soient associées au téléphone mobile, celui-ci a été réinitialisé aux valeurs d’usine15 et configuré comme un téléphone neuf 16. Un nouveau compte Google a été créé (nom d’utilisatrice : « Jane »), afin que Google n’ait pas de connaissances antérieures sur cette utilisatrice et qu’il n’ait pas associé de centres d’intérêts publicitaires à son compte. Le chercheur a passé une journée normale en utilisant son téléphone avec son nouveau compte Google.

6.
Les données collectées par Google ont été relevées par deux outils fournis par Google : « Mon activité » 17 et « Télécharger vos données » 18. L’outil « Mon activité » montre les données collectées par Google grâce à toute activité liée aux recherches, lors de l’utilisation des applications Google (i.e Youtube, Google Maps, Google assistant), par les visites sur des pages web tierces (lorsqu’on est connecté à Chrome), et les clics sur les publicités. L’outil « Télécharger vos données » fournit une information structurée concernant l’historique de toutes les données collectées par les applications Google (i.e cela contient tous les anciens courriels sur Gmail, toutes les recherches, l’ensemble des localisations et les vidéos YouTube consultées). Nous avons synthétisé les données collectées et nous les avons utilisées pour représenter les informations sur les événements clés dans l’infographie ci-dessous : « Un jour dans la vie » de l’utilisateur “Jane”.

infographie représentant les actes quotidiens dune utilisatrice-test et son usage des services Google, depuis l ematin où elle écoute de la musique qavec google Play jusqu’au soir où elle regarde des vidéos de YouTube
Figure 1 : une journée dans la vie d’une utilisatrice de Google

 

7.
Pour l’activité détaillée dans la figure 1, mais également dans le reste du document, les données collectées sont classées en deux grands groupes : actives et passives. Les données actives sont des données échangées directement entre l’utilisateur et un produit Google, là où les données passives sont définies comme une information transmise en arrière-plan sans notification évidente pour l’utilisateur. Par exemple, une collecte active de données est déclenchée lorsque Jane saisit un mot-clé dans l’outil de recherche et que cette requête est enregistrée par Google. Un exemple de collecte de données passives est l’envoi de la localisation de Jane à Google suite à l’enregistrement d’une requête.

8.
L’analyse des points de contact clés durant une journée normale dans la vie de Jane suggère que le nombre de données passives transmises est deux fois plus grand que le nombre de données actives (une décomposition détaillée des caractéristiques des données actives et passives est fournie dans le tableau qui figure en appendice, page 37 du document original).

9.
Google analyse les données collectées pour déterminer les centres d’intérêt des utilisateurs et utilisatrices, qu’il utilise ensuite pour les cibler avec des publicités adaptées. Par exemple, Google fournit une liste d’intérêts qu’il a déduits de l’activité d’un utilisateur, que l’on peut consulter sur la page « Les sujets qui vous intéressent » de la page de « Personnalisation des annonces » de Google 19. La figure 2 ci-dessous montre la liste que Google a associée avec le compte de Jane après une journée d’activité. Au total, Google a attribué 18 centres d’intérêts à Jane, dont 8 (entourés par une bordure rouge) qui correspondent précisément aux utilisations et activités de Jane20

Figure 2 : les centres d’intérêt de Jane tels que les a déduits Google après une journée typique : réseaux sociaux, musique, parentalité, TV et vidéos, entreprise et industrie, éducation, nouvelles, comédies TV

 

10.
Bien que les outils « mon activité » et « Télécharger mes données » soient utiles pour estimer la quantité de données actives collectées lors des interactions d’un utilisateur avec les produits Google, ils ne dessinent pas une image complète de l’ampleur et de l’échelle de la collecte de données de Google. Comprendre cela requiert un passage en revue détaillé des clauses d’utilisation des produits en ce qui concerne la vie privée mais également l’analyse du trafic de données envoyé aux serveurs de Google pendant une session d’utilisation par un utilisateur de ces services. Les résultats de cette analyse sont présentés plus loin dans ce rapport.




La Fediverse, c’est pas une starteupe

Mastodon a déjà deux ans, et il est toujours vivant, n’en déplaise aux oiseaux de mauvais augure. Il est inadéquat de le comparer aux plateformes sociales, et Peter 0’Shaughnessy nous explique bien pourquoi…

Pourquoi Mastodon se moque de la « masse critique »

par Peter O’Shaughnessy, d’après son billet publié le 10/11/2018 sur son blog : Why mastodon is defying the critical mass

C’est une erreur de juger la Fediverse comme s’il s’agissait d’une startup de la Silicon Valley.

Mastodon a maintenant plus de deux ans et (pour emprunter une expression à Terry Pratchett), il n’est toujours pas mort. D’une manière ou d’une autre, il a réussi à défier les premiers critiques qui disaient qu’il « ne survivrait pas » et qu’il était « mort dans l’œuf ». Même certains de ceux qui postaient sur Mastodon à ses débuts doutaient de sa longévité :

Pari : le lien vers ce tweet ne fonctionnera plus dans deux ans @jaffathecake@mastodon.social

Plus récemment, un article sur l’écosystème plus vaste qui comprend Mastodon, appelé La Fediverse, a fait la une de Hacker News : Qu’est-ce que ActivityPub, et comment changera-t-il l’Internet ? par Jeremy Dormitzer. C’est un bon argument en faveur de l’importance de la norme ActivityPub, sur laquelle reposent Mastodon et d’autres plateformes sociales. Cependant, il commet toujours la même erreur que ces premiers prophètes de malheur :

Le plus gros problème à l’heure actuelle, c’est l’adoption par les utilisateurs. Le réseau ActivityPub n’est viable que si les gens l’utilisent, et pour concurrencer de manière significative Facebook et Twitter, nous avons besoin de beaucoup de gens pour l’utiliser. Pour rivaliser avec les grands, nous avons besoin de beaucoup d’argent…

Des arguments similaires ont été présentés dans de nombreux articles au cours des derniers mois. Ils impliquent :

  • que la valeur du réseau n’est proportionnelle qu’au nombre d’utilisateurs ;
  • que ce ne sera vraiment un succès que s’il devient un remplacement massif pour Twitter et Facebook ;
  • que si vous ne le rejoignez pas, il ne survivra pas.

Mais tout cela est faux. Voici pourquoi…

1. La Fediverse n’est pas une startup

Nous sommes tellement conditionnés de nos jours par le monde du capital-risque et des startups que nous pensons intuitivement que toutes les nouvelles entreprises technologiques doivent réussir ou faire faillite. Mais ce n’est pas la nature du modèle économique qui se cache derrière le Fediverse, qui est déjà durable, tout en continuant de fonctionner comme si de rien n’était.

Nous devons cesser de juger la Fediverse comme s’il s’agissait d’une startup de la Silicon Valley en concurrence avec Twitter et Facebook.

Jeremy a raison de dire que la plupart des instances sont  « créées et administrées par des bénévoles avec des budgets minuscules », mais il implique que cela doit changer, alors que la plupart des administrateurs et utilisateurs de Mastodon que je connais sont très satisfaits de ce modèle, qui nous libère des intérêts acquis et contradictoires des régies publicitaires.

C’est facile à dire pour moi, car je n’héberge pas ma propre instance et mon administrateur a gentiment refusé les offres de dons jusqu’ici. Cependant, dans la plupart des cas, il semble que tout se passe très bien, la plupart du temps grâce au financement participatif. Même si certaines instances ont été fermées à un moment donné (et c’est malheureusement le cas), il y en a d’autres qui se présentent à leur place. Malgré les fortes fluctuations à chaque nouvelle vague d’utilisateurs venant de Twitter, la trajectoire globale est à la hausse, et c’est ce qui importe — pas la vitesse de la croissance, ni l’atteinte d’un certain niveau de masse critique. Michael Mahemoff l’a bien dit :

« Mastodon est déjà « assez bon » dans sa forme initiale pour satisfaire plusieurs besoins de niche (les personnes qui veulent plus ou moins de modération ou des critères différents de modération, celles qui ne veulent pas de publicités, celles qui veulent des participant⋅e⋅s qui sont libres d’innover, celles qui veulent posséder et/ou héberger leur propre contenu, etc.). Comme Mastodon a un modèle de mécénat durable, il peut se développer au fil du temps et être capable de continuer à innover. »

En fait, si Mastodon se développait trop rapidement, cela pourrait avoir des conséquences plus négatives que positives. La croissance progressive permet aux instances existantes de mieux faire face à la charge et permet à de nouvelles instances d’émerger et de faire face à une partie du flux.

2. C’est aussi une question de qualité (d’expérience), pas seulement de quantité (d’utilisateurs et utilisatrices)

Lorsque j’ai rejoint Mastodon pour la première fois, j’ai été enthousiasmé par chaque nouvelle vague d’utilisateurs et utilisatrices venant de Twitter. Je voulais prêcher à ce sujet à autant de gens que possible et essayer d’amener autant d’amis que possible à « déménager ». Au bout d’un moment, j’ai pris conscience que je me concentrais trop sur la comparaison avec Twitter et que j’essayais d’en faire un remplaçant de Twitter. En fait, j’avais déjà un réseau précieux là-bas et suffisamment de raisons de le visiter régulièrement, même si j’ai continué à utiliser Twitter aussi.

Mastodon s’articule autour des communautés. Ces communautés peuvent être des réseaux spécialisés selon les  sujets qui vous intéressent. Vous n’avez pas besoin de tous vos amis pour être au sein de ces communautés, pour trouver des gens intéressants, du contenu utile et des interactions intéressantes.

Comme Vee Satayamas l’a noté, si vous êtes un utilisateur de Twitter, vous le trouverez peut-être utile même si peu de membres de votre famille ou d’amis réels sont présents. Vous n’avez pas besoin que tout le monde soit disponible sur chaque réseau. J’ai récemment quitté Facebook et j’ai quand même pu entrer en contact avec mes amis, par courriel ou par texto. Ce serait bien mieux si davantage de mes amis étaient sur Mastodon, mais ce n’est pas un gros problème.

En réalité, il y a quelque chose de positif dans la petite taille de mon réseau sur Mastodon. Je peux suivre ma chronologie, mon « fil »,  sans me sentir dépassé. C’est moins stressant d’y poster, comparé à Twitter, où chaque message que vous envoyez risque d’être republié par une horde géante ! Je suppose que c’est comparable à l’effet ressenti par les YouTubers, tel que détaillé dans cet intéressant article du Guardian, qui cite Matt Lees :

« Le cerveau humain n’est pas vraiment conçu pour interagir avec des centaines de personnes chaque jour… Lorsque des milliers de personnes vous envoient des commentaires directs sur votre travail, vous avez vraiment l’impression que quelque chose vous vient à l’esprit. Nous ne sommes pas faits pour gérer l’empathie et la sympathie à cette échelle. »

Pour moi, Mastodon offre un moyen terme heureux entre les conversations intimes des groupes WhatsApp, par exemple, et le potentiel sans limites de Twitter pour découvrir de nouvelles personnes et de nouveaux contenus.

D’après mon expérience, la plupart des utilisateurs actifs de Mastodon ne veulent pas qu’il ressemble davantage à Twitter — et ne ressentent pas le besoin que tous ceux qui sont sur Twitter les rejoignent. Par exemple, ces personnes apprécient le fait qu’il n’y a pas de publicitaires et très peu de marques. Pour les gens qui ne s’inquiètent que de leur « influence », alors c’est sûr, Mastodon n’aura pas autant de valeur. Mais la plupart de celles et ceux qui sont sur Mastodon ne regretteront pas trop de ce genre de personnes venues de Twitter !

Nous devons cesser de considérer Mastodon comme un substitut potentiel de Twitter. C’est différent, et c’est délibéré. Je comprends qu’on se plaise à imaginer que la Fediverse pourrait un jour écraser Twitter et Facebook, mais je ne pense pas que ce soit réaliste (du moins pas dans un avenir proche). Je pense que ce sera toujours l’outsider et c’est très bien ainsi, d’une certaine façon.

3. C’est un écosystème ouvert

La Fediverse ne gagne pas seulement de la valeur à partir de la quantité d’utilisateurs, elle en gagne aussi à partir de la quantité de services. S’appuyer sur le standard ActivityPub implique que nous pouvons utiliser Mastodon, PeerTube (un service semblable à YouTube), PixelFed (un service semblable à Instagram) et beaucoup d’autres, qui peuvent tous interopérer. Cela donne à la Fediverse un avantage d’échelle par rapport aux plateformes propriétaires closes. C’est un point que l’article de Jeremy a bien fait ressortir :

« Parce qu’il parle le même « langage », un utilisateur de Mastodon peut suivre un utilisateur de PeerTube. Si l’utilisateur de PeerTube envoie une nouvelle vidéo, elle apparaîtra dans le flux de l’utilisateur Mastodon. L’utilisatrice de Mastodon peut commenter la vidéo PeerTube directement depuis Mastodon. Pensez-y une seconde. Toute application qui implémente ActivityPub fait partie d’un réseau social étendu, qui conserve le choix de l’utilisateur et pulvérise les jardins propriétaires clos. Imaginez que vous puissiez vous connecter à Facebook et voir les messages de vos amis sur Instagram et Twitter, sans avoir besoin de compte Instagram ni de compte Twitter. »

Cela signifie également que si nous avons l’impression que le service que nous utilisons ne va pas dans la direction qui nous convient (coucou, utilisateurs de Twitter 👋), alors nous pouvons passer à une autre instance et conserver l’accès à l’écosystème global.

La Fediverse s’accroît et c’est une bonne chose. Mais elle n’a pas besoin de davantage d’utilisatrices. Transmettre l’idée qu’on pourrait échouer sans une migration massive à partir d’autres plateformes sociales est une perspective trompeuse. Et défendre cette idée donnerait aux gens la fausse impression, lorsqu’ils rejoindront ce réseau social, qu’on devrait rechercher la quantité d’utilisateurs et utilisatrices, plutôt que la qualité de l’expérience.

Alors ne comptons pas trop le nombre d’inscrit⋅e⋅s sur Mastodon. Allons doucement en le comparant à Twitter. Arrêtons de le traiter comme s’il s’agissait d’une situation à la Highlander où « il n’y a de la place que pour un seul ». Et commençons à profiter de la Fediverse pour ce qu’elle est — quelque chose de différent.

Merci à Jeremy Dormit d’avoir été très gentil avec moi en critiquant cette partie de son billet de blog (qui m’a beaucoup plu par ailleurs) – voici sa réponse à mon pouet qui a mené à ce billet. Merci aussi à mes anciens collègues de Samsung Internet qui ont jeté un coup d’œil à une version antérieure de ce post.

un mastodon saoul se croit le boss de la Fediverse, les autres se moquent de lui parce que les mastonautes n’aiments pas les chefs
Libre adaptation avec le Geektionerd generator d’un mastodon dessiné par Peter O’Saughnessy




Ce que récolte Google : revue de détail

Le temps n’est plus où il était nécessaire d’alerter sur la prédation opérée par Google et ses nombreux services sur nos données personnelles. Il est fréquent aujourd’hui d’entendre dire sur un ton fataliste : « de toute façon, ils espionnent tout »

Si beaucoup encore proclament à l’occasion « je n’ai rien à cacher » c’est moins par conviction réelle que parce que chacun en a fait l’expérience : « on ne peut rien cacher » dans le monde numérique. Depuis quelques années, les mises en garde, listes de précautions à prendre et solutions alternatives ont été largement exposées, et Framasoft parmi d’autres y a contribué.

Il manquait toutefois un travail de fond pour explorer et comprendre, une véritable étude menée suivant la démarche universitaire et qui, au-delà du jugement global approximatif, établisse les faits avec précision.

C’est à quoi s’est attelée l’équipe du professeur Douglas C. Schmidt, spécialiste depuis longtemps des systèmes logiciels, chercheur et enseignant à l’Université Vanderbilt, qui livre au public une étude d’une cinquantaine de pages intitulée Google Data Collection. Cette étude, qui nous semble pouvoir servir de référence, a retenu l’attention du groupe Framalang qui vous en livre ci-dessous l’executive summary, c’est-à-dire une sorte de résumé initial, qui en donne un aperçu programmatique.

Si vous trouvez un intérêt à cette traduction et souhaitez que Framalang vous propose la suite nous ferons de notre mieux…

Traduction Framalang : Alain, fab, FranBAG, Goofy, jums, Khrys, Mika, Piup, serici

La collecte de données de Google

Un premier aperçu

1.
Google est la plus grosse agence de publicité numérique du monde 21. Elle fournit aussi le leader des navigateurs web 22, la première plateforme mobile 23 ainsi que le moteur de recherche le plus utilisé au monde 24. La plateforme vidéo de Google, ses services de mail et de cartographie comptent 1 milliard d’utilisateurs mensuels actifs chacun 25. Google utilise l’immense popularité de ses produits pour collecter des données détaillées sur le comportement des utilisateurs en ligne comme dans la vie réelle, données qu’il utilisera ensuite pour cibler ses utilisateurs avec de la publicité payante. Les revenus de Google augmentent significativement en fonction de la finesse des technologies de ciblage des données.

2.
Google collecte les données utilisateurs de diverses manières. Les plus évidentes sont « actives », celles dans lesquelles l’utilisateur donne
directement et consciemment des informations à Google, par exemple en s’inscrivant à des applications très populaires telles que YouTube, Gmail, ou le moteur de recherche. Les voies dites « passives » utilisées par Google pour collecter des données sont plus discrètes, quand une application devient pendant son utilisation l’instrument de la collecte des données, sans que l’utilisateur en soit conscient. On trouve ces méthodes de collecte dans les plateformes (Android, Chrome), les applications (le moteur de recherche, YouTube, Maps), des outils de publication (Google Analytics, AdSense) et de publicité (AdMob, AdWords). L’étendue et l’ampleur de la collecte passive de données de Google ont été en grande partie négligées par les études antérieures sur le sujet 26.

3.
Pour comprendre les données que Google collecte, cette étude s’appuie sur quatre sources clefs :
a. Les outils Google « Mon activité » (My Activity) 27 et « Téléchargez vos données » (Takeout) 28, qui décrivent aux utilisateurs l’information collectée lors de l’usage des outils Google.
b. Les données interceptées lors de l’envoi aux serveurs de Google pendant l’utilisation des produits Google ou d’autres sociétés associées.
c. Les règles concernant la vie privée (des produits Google spécifiquement ou en général).
d. Des recherches tierces qui ont analysé les collectes de données opérées par Google.

Histoire naturelle, générale et particulière, des mollusques, animaux sans vertèbres et à sang blanc. T.2. Paris,L’Imprimerie de F. Dufart,An X-XIII [1802-1805]. biodiversitylibrary.org/page/35755415

4.
Au travers de la combinaison des sources ci-dessus, cette étude montre une vue globale et exhaustive de l’approche de Google concernant la collecte des données et aborde en profondeur certains types d’informations collectées auprès des utilisateurs et utilisatrices.
Cette étude met en avant les éléments clés suivants :

a. Dans une journée d’utilisation typique, Google en apprend énormément sur les intérêts personnels de ses utilisateurs. Dans ce scénario d’une journée « classique », où un utilisateur réel avec un compte Google et un téléphone Android (avec une nouvelle carte SIM) suit sa routine quotidienne, Google collecte des données tout au long des différentes activités, comme la localisation, les trajets empruntés, les articles achetés et la musique écoutée. De manière assez surprenante, Google collecte ou infère plus de deux tiers des informations via des techniques passives. Au bout du compte, Google a identifié les intérêts des utilisateurs avec une précision remarquable.

b. Android joue un rôle majeur dans la collecte des données pour Google, avec plus de 2 milliards d’utilisateurs actifs mensuels dans le monde 29. Alors que le système d’exploitation Android est utilisé par des fabricants d’équipement d’origine (FEO) partout dans le monde, il est étroitement connecté à l’écosystème Google via le service Google Play. Android aide Google à récolter des informations personnelles sur les utilisateurs (nom, numéro de téléphone, date de naissance, code postal et dans beaucoup de cas le numéro de carte bancaire), les activités réalisées sur le téléphone (applications utilisées, sites web consultés) et les coordonnées de géolocalisation. En coulisses, Android envoie fréquemment la localisation de l’utilisateur ainsi que des informations sur l’appareil lui-même, comme sur l’utilisation des applications, les rapports de bugs, la configuration de l’appareil, les sauvegardes et différents identifiants relatifs à l’appareil.

c. Le navigateur Chrome aide Google à collecter des données utilisateurs depuis à la fois le téléphone et l’ordinateur de bureau, grâce à quelque 2 milliards d’installations dans le monde 30. Le navigateur Chrome collecte des informations personnelles (comme lorsqu’un utilisateur remplit un formulaire en ligne) et les envoie à Google via le processus de synchronisation. Il liste aussi les pages visitées et envoie les données de géolocalisation à Google.

d. Android comme Chrome envoient des données à Google même en l’absence de toute interaction de l’utilisateur. Nos expériences montrent qu’un téléphone Android dormant et stationnaire (avec Chrome actif en arrière-plan) a communiqué des informations de localisation à Google 340 fois pendant une période de 24 heures, soit en moyenne 14 communications de données par heure. En fait, les informations de localisation représentent 35 % de l’échantillon complet de données envoyés à Google. À l’opposé, une expérience similaire a montré que sur un appareil iOS d’Apple avec Safari (où ni Android ni Chrome n’étaient utilisés), Google ne pouvait pas collecter de données notables (localisation ou autres) en absence d’interaction de l’utilisateur avec l’appareil.

e. Une fois qu’un utilisateur ou une utilisatrice commence à interagir avec un téléphone Android (par exemple, se déplace, visite des pages web, utilise des applications), les communications passives vers les domaines de serveurs Google augmentent considérablement, même dans les cas où l’on n’a pas utilisé d’applications Google majeures (c.-à-d. ni recherche Google, ni YouTube, pas de Gmail ni Google Maps). Cette augmentation s’explique en grande partie par l’activité sur les données de l’éditeur et de l’annonceur de Google (Google Analytics, DoubleClick, AdWords) 31. Ces données représentaient 46 % de l’ensemble des requêtes aux serveurs Google depuis le téléphone Android. Google a collecté la localisation à un taux 1,4 fois supérieur par rapport à l’expérience du téléphone fixe sans interaction avec l’utilisateur. En termes d’amplitude, les serveurs de Google ont communiqué 11,6 Mo de données par jour (ou 0,35 Go / mois) avec l’appareil Android. Cette expérience suggère que même si un utilisateur n’interagit avec aucune application phare de Google, Google est toujours en mesure de recueillir beaucoup d’informations par l’entremise de ses produits d’annonce et d’éditeur.

f. Si un utilisateur d’appareil sous iOS décide de renoncer à l’usage de tout produit Google (c’est-à-dire sans Android, ni Chrome, ni applications Google) et visite exclusivement des pages web non-Google, le nombre de fois où les données sont communiquées aux serveurs de Google demeure encore étonnamment élevé. Cette communication est menée exclusivement par des services de l’annonceur/éditeur. Le nombre d’appels de ces services Google à partir d’un appareil iOS est similaire à ceux passés par un appareil Android. Dans notre expérience, la quantité totale de données communiquées aux serveurs Google à partir d’un appareil iOS est environ la moitié de ce qui est envoyé à partir d’un appareil Android.

g. Les identificateurs publicitaires (qui sont censés être « anonymisés » et collectent des données sur l’activité des applications et les visites des pages web tierces) peuvent être associés à l’identité d’un utilisateur ou utilisatrice de Google. Cela se produit par le transfert des informations d’identification depuis l’appareil Android vers les serveurs de Google. De même, le cookie ID DoubleClick (qui piste les activités des utilisateurs et utilisatrices sur les pages web d’un tiers) constitue un autre identificateur censé être anonymisé que Google peut associer à celui d’un compte personnel Google, si l’utilisateur accède à une application Google avec le navigateur déjà utilisé pour aller sur la page web externe. En définitive, nos conclusions sont que Google a la possibilité de connecter les données anonymes collectées par des moyens passifs avec les données personnelles de l’utilisateur.