Le X de Musk n’est pas une inconnue…

L’actualité récente nous invite à republier avec son accord l’article de Kazhnuz sur son blog (il est sous licence CC BY-SA 4.0) qui souligne un point assez peu observé de la stratégie d’Elon Musk : elle n’est guère innovante et ne vise qu’à ajouter un X aux GAFAM pour capter une base utilisateur à des fins mercantiles…


Twitter vers X, la marketplacisation1 d’Internet

Photo Blue bird seen at Lake Merritt Oakland par Michael Slaten.

par Kazhnuz

L’annonce a été faite le 23 juillet, Twitter va être remplacé par X, le « rêve » de Musk de créer l’app-à-tout-faire à la WeChat en Chine. Le logo va être changé, et la marque Twitter va être abandonnée au profit de celle de X, et le domaine x.com redirige déjà vers Twitter. Le nom a déjà été utilisé jadis par Musk pour sa banque en ligne (qui après moult péripéties deviendra Paypal, justement parce que le nom est nul et pose des tonnes de soucis – ressembler à un nom de site X justement), et cette fois comme y’a personne pour lui dire « stop mec ton idée pue », il le fait.

Cependant, je pense qu’il y a quelques trucs intéressants à dire sur la situation, parce qu’au final, plus qu’une « lubie de Musk », il y a dedans quelque chose qui informe de la transformation faite de twitter, et de la façon dont Musk fait juste partie d’un mouvement fortement présent dans la Silicon Valley.

Encore un

Je pense qu’il ne faut pas voir ce changement de nom comme quelque chose de si surprenant, imprévisible, parce que c’est jouer le jeu de Musk de croire qu’il est l’électron libre qu’il prétend être. Parce que même s’il va plus loin en changeant carrément la marque du produit, Musk ne fait (encore une fois) que copier-coller un comportement déjà présent dans le milieu de la tech.

Parce qu’au final, Twitter appartenant et devenant X Corp, c’est comme Facebook qui devient Meta Plateform, ou Google qui devient Alphabet Inc. Un changement en grande partie pour tenter de forger la « hype », l’idée que le site fait partie de quelque chose de plus grand, du futur, de ce qui va former l’Internet – non la vie – de demain. Bon je pense que ça se voit que je suis un peu sarcastique de tout ça, mais y’a cette idée derrière les grandes entreprises de la tech. Elles ne sont plus dans l’idée de tourner autour de quelques produits, elles se présentent comme le « futur ». X Corp n’est qu’une tentative de créer un autre GAFAM, et fait partie des mêmes mouvements, des mêmes visions, du même aspect « techbro ».

C’est pour ça que le nom « rigolo » est moins mis en avant par rapport au nom plus « générique-mais-cool-regardez ». Meta, pour ceux qui vont au-delà et le métavers. X pour la variable inconnue. Alphabet pour aller de A à Z. Tout cela est de l’esbroufe, parce que plus que vendre un produit, ils vendent de la hype aux investisseurs.

Et le fait que Musk a voulu réutiliser ce nom dans le passé ne change pas grand-chose à tout ça. Le but, l’ego est le même. Donner l’impression qu’on est face à une grosse mégacorporation du futur. Et ce manque d’originalité n’est pas que dans le changement de nom, mais aussi au final dans son plan derrière tout ça : transformer Twitter en une marketplace.

X, une autre marketplace

Le passage de Twitter à X.com, montre le même cœur que les metaverse et crypto… et au final une grande partie des transformations qui se sont produites : tout transformer en marketplace, enrobé dans une esthétique de technofuturisme. Cela se voit encore plus dans le message de Linda Yaccarino, la CEO de Twitter :

X est l’état futur de l’interactivité illimitée – centrée sur l’audio, la vidéo, la messagerie, les paiements/les banques – créant une place de marché globale pour les idées, les biens, les services et les opportunités. Propulsé par l’IA, X va nous connecter d’une manière que nous commençons juste à imaginer.

— Linda Yaccarino, twitter

On peut remarquer deux choses dans ce message :

Le premier est qu’il n’y a rien d’original dedans. Nous y retrouvons exactement la même chose que l’on retrouvait à l’époque des crypto et des NFT : le truc qui fait tout mais surtout des trucs qui existent déjà, et basé sur la technologie du turfu. Y’a déjà 500 plateformes pour faire payer pour des services, que ce soit en crowdfunding, au format « patreon », via des commissions, etc. Des ventes de biens sur internet, y’a aussi des tonnes de moyens, etc. Tout ce qui est rajouté c’est « on va faire tous ces trucs qui existent déjà, et on a dit « IA » dedans donc c’est le futur ça va tout révolutionner tavu ». C’est le modus operandi classique, et il n’y a rien d’original dans ce que propose Twitter. D’ailleurs, le rôle que peut avoir l’IA dedans est très vague : est-ce que c’est pour modifier les algorithmes ? (cela ne sert pas à grand-chose, on les hait tous déjà). Est-ce que c’est pour pouvoir générer des produits par IA pour les vendre ? Le produit que veut proposer X Corp n’a pas besoin d’IA pour fonctionner, elle est là juste pour dire « c’est le futur », et hyper les investisseurs.

Le second est que cela transforme l’idée de base de Twitter (l’endroit où les gens parlent) en avant tout une « place de marché », comme indiqué plus haut. Twitter était le lieu de la discussion, du partage de l’idée à la con qu’on a eue sous la douche. D’où le format du microblogging. Là aussi, même cet aspect devient quelque chose de commercialisable, ce qui rappelle encore une fois le mouvement qu’il y avait eu autour de la crypto et des NFT : tout doit pouvoir devenir commercialisable, tout doit pouvoir devenir un produit. C’est aussi ce mouvement qui fait qu’on a de plus en plus de « jeux-services », qui servent avant tout à vendre des produits dématérialisés n’ayant de valeur qu’à l’intérieur du jeu (et encore). Beaucoup de jeux ne peuvent plus juste « être un jeu », ils doivent être une « marketplace ».

Conclusion

La transformation de twitter en X n’est donc pas une surprise – en plus du fait que c’était annoncé depuis longtemps. Il ne s’agit que d’un phénomène qui arrive tout le temps sur Internet. Une volonté de transformer un site populaire en une « place de marché du futur » pour hyper des investisseurs. Encore une fois.

Et au final, on sait bien ce qu’a acheté Musk quand il a acheté Twitter. Il n’a pas acheté un produit. Il a acheté une userbase (une base d’utilisateurs et utilisatrices) pour l’injecter directement dans le nouveau produit qu’il voulait faire. C’est assez ironique de voir que Twitter a fini de la même manière que certains comptes populaires : revendu pour être renommé et envoyer sa pub à des tonnes d’utilisateurs.

l'oiseau bleu de twitter sur le dos et à terre, mort avec un X qui lui ferme l'œil.




Ouvrir le code des algorithmes ? — oui, mais… (2/2)

Voici le deuxième volet (si vous avez raté le premier) de l’enquête approfondie d’Hubert Guillaud sur l’exploration des algorithmes, et de son analyse  des enjeux qui en découlent.


Dans le code source de l’amplification algorithmique : que voulons-nous vraiment savoir ?

par Hubert GUILLAUD

Que voulons-nous vraiment savoir en enquêtant sur l’amplification algorithmique ? C’est justement l’enjeu du projet de recherche qu’Arvind Narayanan mène au Knight Institute de l’université Columbia où il a ouvert un blog dédié et qui vient d’accueillir une grande conférence sur le sujet. Parler d’amplification permet de s’intéresser à toute la gamme des réponses qu’apportent les plateformes, allant de l’amélioration de la portée des discours à leur suppression, tout en se défiant d’une réduction binaire à la seule modération automatisée, entre ce qui doit être supprimé et ce qui ne doit pas l’être. Or, les phénomènes d’amplification ne sont pas sans effets de bord, qui vont bien au-delà de la seule désinformation, à l’image des effets très concrets qu’ont les influenceurs sur le commerce ou le tourisme. Le gros problème, pourtant, reste de pouvoir les étudier sans toujours y avoir accès.

Outre des analyses sur TikTok et les IA génératives, le blog recèle quelques trésors, notamment une monumentale synthèse qui fait le tour du sujet en expliquant les principes de fonctionnements des algorithmes (l’article est également très riche en liens et références, la synthèse que j’en propose y recourra assez peu).

Narayanan rappelle que les plateformes disposent de très nombreux algorithmes entremêlés, mais ceux qui l’intéressent particulièrement sont les algorithmes de recommandation, ceux qui génèrent les flux, les contenus qui nous sont mis à disposition. Alors que les algorithmes de recherche sont limités par le terme recherché, les algorithmes de recommandation sont bien plus larges et donnent aux plateformes un contrôle bien plus grand sur ce qu’elles recommandent à un utilisateur.

La souscription, le réseau et l’algorithme

Pour Narayanan, il y a 3 grands types de leviers de propagation : la souscription (ou abonnement), le réseau et l’algorithme. Dans le modèle par abonnement, le message atteint les personnes qui se sont abonnées à l’auteur du message. Dans le modèle de réseau, il se propage en cascade à travers le réseau tant que les utilisateurs qui le voient choisissent de le propager. Dans le modèle algorithmique, les utilisateurs ayant des intérêts similaires (tels que définis par l’algorithme sur la base de leurs engagements passés) sont représentés plus près les uns des autres. Plus les intérêts d’un utilisateur sont similaires à ceux définis, plus il est probable que le contenu lui sera recommandé.

À l’origine, les réseaux sociaux comme Facebook ou Twitter ne fonctionnaient qu’à l’abonnement : vous ne voyiez que les contenus des personnes auxquelles vous étiez abonnés et vous ne pouviez pas republier les messages des autres ! Dans le modèle de réseau, un utilisateur voit non seulement les messages créés par les personnes auxquelles il s’est abonné, mais aussi les messages que ces utilisateurs choisissent d’amplifier, ce qui crée la possibilité de cascades d’informations et de contenus “viraux”, comme c’était le cas de Twitter jusqu’en 2016, moment où le réseau introduisit le classement algorithmique. Dans le modèle algorithmique, la souscription est bien souvent minorée, le réseau amplifié mais surtout, le flux dépend principalement de ce que l’algorithme estime être le plus susceptible d’intéresser l’utilisateur. C’est ce que Cory Doctorow désigne comme « l’emmerdification  » de nos flux, le fait de traiter la liste des personnes auxquelles nous sommes abonnés comme des suggestions et non comme des commandes.

Le passage aux recommandations algorithmiques a toujours généré des contestations, notamment parce que, si dans les modèles d’abonnement et de réseau, les créateurs peuvent se concentrer sur la construction de leur réseau, dans le « modèle algorithmique, cela ne sert à rien, car le nombre d’abonnés n’a rien à voir avec la performance des messages » (mais comme nous sommes dans des mélanges entre les trois modèles, le nombre d’abonnés a encore un peu voire beaucoup d’influence dans l’amplification). Dans le modèle algorithmique, l’audience de chaque message est optimisée de manière indépendante en fonction du sujet, de la « qualité » du message et d’un certain nombre de paramètres pris en compte par le modèle.

Amplification et viralité

La question de l’amplification interroge la question de la viralité, c’est-à-dire le fait qu’un contenu soit amplifié par une cascade de reprises, et non pas seulement diffusé d’un émetteur à son public. Le problème de la viralité est que sa portée reste imprévisible. Pour Narayanan, sur toutes les grandes plateformes, pour la plupart des créateurs, la majorité de l’engagement provient d’une petite fraction de contenu viral. Sur TikTok comme sur YouTube, 20 % des vidéos les plus vues d’un compte obtiennent plus de 70 % des vues. Plus le rôle de l’algorithme dans la propagation du contenu est important, par opposition aux abonnements ou au réseau, plus cette inégalité semble importante.

Parce qu’il est particulièrement repérable dans la masse des contenus, le contenu viral se prête assez bien à la rétropropagation, c’est-à-dire à son déclassement ou à sa suppression. Le problème justement, c’est qu’il y a plein de manières de restreindre le contenu. Facebook classe les posts rétrogradés plus bas dans le fil d’actualité qu’ils ne le seraient s’ils ne l’avaient pas été, afin que les utilisateurs soient moins susceptibles de le rencontrer et de le propager. À son tour, l’effet de la rétrogradation sur la portée peut être imprévisible, non linéaire et parfois radical, puisque le contenu peut devenir parfaitement invisible. Cette rétrogradation est parfaitement opaque, notamment parce qu’une faible portée n’est pas automatiquement suspecte, étant donné qu’il existe une grande variation dans la portée naturelle du contenu.

Amplification et prédiction de l’engagement

Les plateformes ont plusieurs objectifs de haut niveau : améliorer leurs revenus publicitaires bien sûr et satisfaire suffisamment les utilisateurs pour qu’ils reviennent… Mais ces objectifs n’aident pas vraiment à décider ce qu’il faut donner à un utilisateur spécifique à un moment précis ni à mesurer comment ces décisions impactent à long terme la plateforme. D’où le fait que les plateformes observent l’engagement, c’est-à-dire les actions instantanées des utilisateurs, comme le like, le commentaire ou le partage qui permettent de classer le contenu en fonction de la probabilité que l’utilisateur s’y intéresse. « D’une certaine manière, l’engagement est une approximation des objectifs de haut niveau. Un utilisateur qui s’engage est plus susceptible de revenir et de générer des revenus publicitaires pour la plateforme.  »
Si l’engagement est vertueux, il a aussi de nombreuses limites qui expliquent que les algorithmes intègrent bien d’autres facteurs dans leur calcul. Ainsi, Facebook et Twitter optimisent les « interactions sociales significatives », c’est-à-dire une moyenne pondérée des likes, des partages et des commentaires. YouTube, lui, optimise en fonction de la durée de visionnage que l’algorithme prédit. TikTok utilise les interactions sociales et valorise les vidéos qui ont été regardées jusqu’au bout, comme un signal fort et qui explique certainement le caractère addictif de l’application et le fait que les vidéos courtes (qui ont donc tendance à obtenir un score élevé) continuent de dominer la plateforme.

En plus de ces logiques de base, il existe bien d’autres logiques secondaires, comme par exemple, pour que l’expérience utilisateur ne soit pas ralentie par le calcul, que les suggestions restent limitées, sélectionnées plus que classées, selon divers critères plus que selon des critères uniques (par exemple en proposant des nouveaux contenus et pas seulement des contenus similaires à ceux qu’on a apprécié, TikTok se distingue à nouveau par l’importance qu’il accorde à l’exploration de nouveaux contenus… c’est d’ailleurs la tactique suivie désormais par Instagram de Meta via les Reels, boostés sur le modèle de TikTok, qui ont le même effet que sur TikTok, à savoir une augmentation du temps passé sur l’application)… 

« Bien qu’il existe de nombreuses différences dans les détails, les similitudes entre les algorithmes de recommandation des différentes plateformes l’emportent sur leurs différences », estime Narayanan. Les différences sont surtout spécifiques, comme Youtube qui optimise selon la durée de visionnage, ou Spotify qui s’appuie davantage sur l’analyse de contenu que sur le comportement. Pour Narayanan, ces différences montrent qu’il n’y a pas de risque concurrentiel à l’ouverture des algorithmes des plateformes, car leurs adaptations sont toujours très spécifiques. Ce qui varie, c’est la façon dont les plateformes ajustent l’engagement.

Comment apprécier la similarité ?

Mais la grande question à laquelle tous tentent de répondre est la même : « Comment les utilisateurs similaires à cet utilisateur ont-ils réagi aux messages similaires à ce message ?  »

Si cette approche est populaire dans les traitements, c’est parce qu’elle s’est avérée efficace dans la pratique. Elle repose sur un double calcul de similarité. D’abord, celle entre utilisateurs. La similarité entre utilisateurs dépend du réseau (les gens que l’on suit ou ceux qu’on commente par exemple, que Twitter valorise fortement, mais peu TikTok), du comportement (qui est souvent plus critique, « deux utilisateurs sont similaires s’ils se sont engagés dans un ensemble de messages similaires  ») et les données démographiques (du type âge, sexe, langue, géographie… qui sont en grande partie déduits des comportements).

Ensuite, il y a un calcul sur la similarité des messages qui repose principalement sur leur sujet et qui repose sur des algorithmes d’extraction des caractéristiques (comme la langue) intégrant des évaluations normatives, comme la caractérisation de discours haineux. L’autre signal de similarité des messages tient, là encore, au comportement : « deux messages sont similaires si un ensemble similaire d’utilisateurs s’est engagé avec eux ». Le plus important à retenir, insiste Narayanan, c’est que « l’enregistrement comportemental est le carburant du moteur de recommandation ». La grande difficulté, dans ces appréciations algorithmiques, consiste à faire que le calcul reste traitable, face à des volumes d’enregistrements d’informations colossaux.

Une histoire des évolutions des algorithmes de recommandation

« La première génération d’algorithmes de recommandation à grande échelle, comme ceux d’Amazon et de Netflix au début des années 2000, utilisait une technique simple appelée filtrage collaboratif : les clients qui ont acheté ceci ont également acheté cela ». Le principe était de recommander des articles consultés ou achetés d’une manière rudimentaire, mais qui s’est révélé puissant dans le domaine du commerce électronique. En 2006, Netflix a organisé un concours en partageant les évaluations qu’il disposait sur les films pour améliorer son système de recommandation. Ce concours a donné naissance à la « factorisation matricielle », une forme de deuxième génération d’algorithmes de recommandation, c’est-à-dire capables d’identifier des combinaisons d’attributs et de préférences croisées. Le système n’étiquette pas les films avec des termes interprétables facilement (comme “drôle” ou “thriller” ou “informatif”…), mais avec un vaste ensemble d’étiquettes (de micro-genres obscurs comme « documentaires émouvants qui combattent le système ») qu’il associe aux préférences des utilisateurs. Le problème, c’est que cette factorisation matricielle n’est pas très lisible pour l’utilisateur et se voir dire qu’on va aimer tel film sans savoir pourquoi n’est pas très satisfaisant. Enfin, ce qui marche pour un catalogue de film limité n’est pas adapté aux médias sociaux où les messages sont infinis. La prédominance de la factorisation matricielle explique pourquoi les réseaux sociaux ont tardé à se lancer dans la recommandation, qui est longtemps restée inadaptée à leurs besoins.

Pourtant, les réseaux sociaux se sont tous convertis à l’optimisation basée sur l’apprentissage automatique. En 2010, Facebook utilisait un algorithme appelé EdgeRank pour construire le fil d’actualité des utilisateurs qui consistait à afficher les éléments par ordre de priorité décroissant selon un score d’affinité qui représente la prédiction de Facebook quant au degré d’intérêt de l’utilisateur pour les contenus affichés, valorisant les photos plus que le texte par exemple. À l’époque, ces pondérations étaient définies manuellement plutôt qu’apprises. En 2018, Facebook est passé à l’apprentissage automatique. La firme a introduit une métrique appelée « interactions sociales significatives » (MSI pour meaningful social interactions) dans le système d’apprentissage automatique. L’objectif affiché était de diminuer la présence des médias et des contenus de marque au profit des contenus d’amis et de famille. « La formule calcule un score d’interaction sociale pour chaque élément susceptible d’être montré à un utilisateur donné ». Le flux est généré en classant les messages disponibles selon leur score MSI décroissant, avec quelques ajustements, comme d’introduire de la diversité (avec peu d’indications sur la façon dont est calculée et ajoutée cette diversité). Le score MSI prédit la probabilité que l’utilisateur ait un type d’interaction spécifique (comme liker ou commenter) avec le contenu et affine le résultat en fonction de l’affinité de l’utilisateur avec ce qui lui est proposé. Il n’y a plus de pondération dédiée pour certains types de contenus, comme les photos ou les vidéos. Si elles subsistent, c’est uniquement parce que le système l’aura appris à partir des données de chaque utilisateur, et continuera à vous proposer des photos si vous les appréciez.

« Si l’on pousse cette logique jusqu’à sa conclusion naturelle, il ne devrait pas être nécessaire d’ajuster manuellement la formule en fonction des affinités. Si les utilisateurs préfèrent voir le contenu de leurs amis plutôt que celui des marques, l’algorithme devrait être en mesure de l’apprendre ». Ce n’est pourtant pas ce qu’il se passe. Certainement pour lutter contre la logique de l’optimisation de l’engagement, estime Narayanan, dans le but d’augmenter la satisfaction à long terme, que l’algorithme ne peut pas mesurer, mais là encore sans que les modalités de ces ajustements ne soient clairement documentés.

Est-ce que tout cela est efficace ?

Reste à savoir si ces algorithmes sont efficaces ! « Il peut sembler évident qu’ils doivent bien fonctionner, étant donné qu’ils alimentent des plateformes technologiques qui valent des dizaines ou des centaines de milliards de dollars. Mais les chiffres racontent une autre histoire. Le taux d’engagement est une façon de quantifier le problème : il s’agit de la probabilité qu’un utilisateur s’intéresse à un message qui lui a été recommandé. Sur la plupart des plateformes, ce taux est inférieur à 1 %. TikTok est une exception, mais même là, ce taux dépasse à peine les 5 %. »

Le problème n’est pas que les algorithmes soient mauvais, mais surtout que les gens ne sont pas si prévisibles. Et qu’au final, les utilisateurs ne se soucient pas tant du manque de précision de la recommandation. « Même s’ils sont imprécis au niveau individuel, ils sont précis dans l’ensemble. Par rapport aux plateformes basées sur les réseaux, les plateformes algorithmiques semblent être plus efficaces pour identifier les contenus viraux (qui trouveront un écho auprès d’un grand nombre de personnes). Elles sont également capables d’identifier des contenus de niche et de les faire correspondre au sous-ensemble d’utilisateurs susceptibles d’y être réceptifs. » Si les algorithmes sont largement limités à la recherche de modèles dans les données comportementales, ils n’ont aucun sens commun. Quant au taux de clic publicitaire, il reste encore plus infinitésimal – même s’il est toujours considéré comme un succès !

Les ingénieurs contrôlent-ils encore les algorithmes ?

Les ingénieurs ont très peu d’espace pour contrôler les effets des algorithmes de recommandation, estime Narayanan, en prenant un exemple. En 2019, Facebook s’est rendu compte que les publications virales étaient beaucoup plus susceptibles de contenir des informations erronées ou d’autres types de contenus préjudiciables. En d’autres termes, ils se sont rendu compte que le passage à des interactions sociales significatives (MSI) a eu des effets de bords : les contenus qui suscitaient l’indignation et alimentaient les divisions gagnaient en portée, comme l’a expliqué l’ingénieure et lanceuse d’alerte Frances Haugen à l’origine des Facebook Files, dans ses témoignages. C’est ce que synthétise le tableau de pondération de la formule MSI publié par le Wall Street Journal, qui montrent que certains éléments ont des poids plus forts que d’autres : un commentaire vaut 15 fois plus qu’un like, mais un commentaire signifiant ou un repartage 30 fois plus, chez Facebook. Une pondération aussi élevée permet d’identifier les messages au potentiel viral et de les stimuler davantage. En 2020, Facebook a ramené la pondération des partages à 1,5, mais la pondération des commentaires est restée très élevée (15 à 20 fois plus qu’un like). Alors que les partages et les commentaires étaient regroupés dans une seule catégorie de pondération en 2018, ils ne le sont plus. Cette prime au commentaire demeure une prime aux contenus polémiques. Reste, on le comprend, que le jeu qui reste aux ingénieurs de Facebook consiste à ajuster le poids des paramètres. Pour Narayanan : piloter un système d’une telle complexité en utilisant si peu de boutons ne peut qu’être difficile.

Le chercheur rappelle que le système est censé être neutre à l’égard de tous les contenus, à l’exception de certains qui enfreignent les règles de la plateforme. Utilisateurs et messages sont alors rétrogradés de manière algorithmique suite à signalement automatique ou non. Mais cette neutralité est en fait très difficile à atteindre. Les réseaux sociaux favorisent ceux qui ont déjà une grande portée, qu’elle soit méritée ou non, et sont récompensés par une plus grande portée encore. Par exemple, les 1 % d’auteurs les plus importants sur Twitter reçoivent 80 % des vues des tweets. Au final, cette conception de la neutralité finit par récompenser ceux qui sont capables de pirater l’engagement ou de tirer profit des biais sociaux.

Outre cette neutralité, un deuxième grand principe directeur est que « l’algorithme sait mieux que quiconque ». « Ce principe et celui de la neutralité se renforcent mutuellement. Le fait de confier la politique (concernant le contenu à amplifier) aux données signifie que les ingénieurs n’ont pas besoin d’avoir un point de vue à ce sujet. Et cette neutralité fournit à l’algorithme des données plus propres à partir desquelles il peut apprendre. »
Le principe de l’algorithme qui sait le mieux signifie que la même optimisation est appliquée à tous les types de discours : divertissement, informations éducatives, informations sur la santé, actualités, discours politique, discours commercial, etc. En 2021, FB a fait une tentative de rétrograder tout le contenu politique, ce qui a eu pour effet de supprimer plus de sources d’information de haute qualité que de faible qualité, augmentant la désinformation. Cette neutralité affichée permet également une forme de désengagement des ingénieurs.

En 2021, encore, FB a entraîné des modèles d’apprentissage automatique pour classer les messages en deux catégories : bons ou mauvais pour le monde, en interrogeant les utilisateurs pour qu’ils apprécient des contenus qui leurs étaient proposés pour former les données. FB a constaté que les messages ayant une plus grande portée étaient considérés comme étant mauvais pour le monde. FB a donc rétrogradé ces contenus… mais en trouvant moins de contenus polémique, cette modification a entraîné une diminution de l’ouverture de l’application par les utilisateurs. L’entreprise a donc redéployé ce modèle en lui donnant bien moins de poids. Les corrections viennent directement en conflit avec le modèle d’affaires.

Illustration par Jason Alderman « Those Algorithms That Govern Our Lives – Kevin Slavin« . (CC BY 2.0)

Pourquoi l’optimisation de l’engagement nous nuit-elle ?

« Un grand nombre des pathologies familières des médias sociaux sont, à mon avis, des conséquences relativement directes de l’optimisation de l’engagement », suggère encore le chercheur. Cela explique pourquoi les réformes sont difficiles et pourquoi l’amélioration de la transparence des algorithmes, de la modération, voire un meilleur contrôle par l’utilisateur de ce qu’il voit (comme le proposait Gobo mis en place par Ethan Zuckerman), ne sont pas des solutions magiques (même si elles sont nécessaires).

Les données comportementales, celles relatives à l’engagement passé, sont la matière première essentielle des moteurs de recommandations. Les systèmes privilégient la rétroaction implicite sur l’explicite, à la manière de YouTube qui a privilégié le temps passé sur les rétroactions explicites (les likes). Sur TikTok, il n’y a même plus de sélection, il suffit de swipper.

Le problème du feedback implicite est qu’il repose sur nos réactions inconscientes, automatiques et émotionnelles, sur nos pulsions, qui vont avoir tendance à privilégier une vidéo débile sur un contenu expert.

Pour les créateurs de contenu, cette optimisation par l’engagement favorise la variance et l’imprévisibilité, ce qui a pour conséquence d’alimenter une surproduction pour compenser cette variabilité. La production d’un grand volume de contenu, même s’il est de moindre qualité, peut augmenter les chances qu’au moins quelques-uns deviennent viraux chaque mois afin de lisser le flux de revenus. Le fait de récompenser les contenus viraux se fait au détriment de tous les autres types de contenus (d’où certainement le regain d’attraits pour des plateformes non algorithmiques, comme Substack voire dans une autre mesure, Mastodon).

Au niveau de la société, toutes les institutions sont impactées par les plateformes algorithmiques, du tourisme à la science, du journalisme à la santé publique. Or, chaque institution à des valeurs, comme l’équité dans le journalisme, la précision en science, la qualité dans nombre de domaines. Les algorithmes des médias sociaux, eux, ne tiennent pas compte de ces valeurs et de ces signaux de qualité. « Ils récompensent des facteurs sans rapport, sur la base d’une logique qui a du sens pour le divertissement, mais pas pour d’autres domaines ». Pour Narayanan, les plateformes de médias sociaux « affaiblissent les institutions en sapant leurs normes de qualité et en les rendant moins dignes de confiance ». C’est particulièrement actif dans le domaine de l’information, mais cela va bien au-delà, même si ce n’est pas au même degré. TikTok peut sembler ne pas représenter une menace pour la science, mais nous savons que les plateformes commencent par être un divertissement avant de s’étendre à d’autres sphères du discours, à l’image d’Instagram devenant un outil de communication politique ou de Twitter, où un tiers des tweets sont politiques.

La science des données en ses limites

Les plateformes sont bien conscientes de leurs limites, pourtant, elles n’ont pas fait beaucoup d’efforts pour résoudre les problèmes. Ces efforts restent occasionnels et rudimentaires, à l’image de la tentative de Facebook de comprendre la valeur des messages diffusés. La raison est bien sûr que ces aménagements nuisent aux résultats financiers de l’entreprise. « Le recours à la prise de décision subconsciente et automatique est tout à fait intentionnelle ; c’est ce qu’on appelle la « conception sans friction ». Le fait que les utilisateurs puissent parfois faire preuve de discernement et résister à leurs impulsions est vu comme un problème à résoudre. »

Pourtant, ces dernières années, la réputation des plateformes n’est plus au beau fixe. Narayanan estime qu’il y a une autre limite. « La plupart des inconvénients de l’optimisation de l’engagement ne sont pas visibles dans le cadre dominant de la conception des plateformes, qui accorde une importance considérable à la recherche d’une relation quantitative et causale entre les changements apportés à l’algorithme et leurs effets. »
Si on observe les raisons qui poussent l’utilisateur à quitter une plateforme, la principale est qu’il ne parvient pas à obtenir des recommandations suffisamment intéressantes. Or, c’est exactement ce que l’optimisation par l’engagement est censée éviter. Les entreprises parviennent très bien à optimiser des recommandations qui plaisent à l’utilisateur sur l’instant, mais pas celles qui lui font dire, une fois qu’il a fermé l’application, que ce qu’il y a trouvé l’a enrichi. Elles n’arrivent pas à calculer et à intégrer le bénéfice à long terme, même si elles restent très attentives aux taux de rétention ou aux taux de désabonnement. Pour y parvenir, il faudrait faire de l’A/B testing au long cours. Les plateformes savent le faire. Facebook a constaté que le fait d’afficher plus de notifications augmentait l’engagement à court terme mais avait un effet inverse sur un an. Reste que ce regard sur leurs effets à longs termes ne semble pas être une priorité par rapport à leurs effets de plus courts termes.

Une autre limite repose sur l’individualisme des plateformes. Si les applications sociales sont, globalement, assez satisfaisantes pour chacun, ni les utilisateurs ni les plateformes n’intériorisent leurs préjudices collectifs. Ces systèmes reposent sur l’hypothèse que le comportement de chaque utilisateur est indépendant et que l’effet sur la société (l’atteinte à la démocratie par exemple…) est très difficile à évaluer. Narayanan le résume dans un tableau parlant, où la valeur sur la société n’a pas de métrique associée.

Graphique montrant les 4 niveaux sur lesquels les algorithmes des plateformes peuvent avoir des effets. CTR : Click Through Rate (taux de clic). MSI : Meaningful Social Interactions, interactions sociales significatives, la métrique d'engagement de Facebook. DAU : Daily active users, utilisateurs actifs quotidiens.
Tableau montrant les 4 niveaux sur lesquels les algorithmes des plateformes peuvent avoir des effets. CTR : Click Through Rate (taux de clic). MSI : Meaningful Social Interactions, interactions sociales significatives, la métrique d’engagement de Facebook. DAU : Daily active users, utilisateurs actifs quotidiens.

Les algorithmes ne sont pas l’ennemi (enfin si, quand même un peu)

Pour répondre à ces problèmes, beaucoup suggèrent de revenir à des flux plus chronologiques ou a des suivis plus stricts des personnes auxquelles nous sommes abonnés. Pas sûr que cela soit une solution très efficace pour gérer les volumes de flux, estime le chercheur. Les algorithmes de recommandation ont été la réponse à la surcharge d’information, rappelle-t-il : « Il y a beaucoup plus d’informations en ligne en rapport avec les intérêts d’une personne qu’elle n’en a de temps disponible. » Les algorithmes de classement sont devenus une nécessité pratique. Même dans le cas d’un réseau longtemps basé sur l’abonnement, comme Instagram : en 2016, la société indiquait que les utilisateurs manquaient 70 % des publications auxquelles ils étaient abonnés. Aujourd’hui, Instagram compte 5 fois plus d’utilisateurs. En fait, les plateformes subissent d’énormes pressions pour que les algorithmes soient encore plus au cœur de leur fonctionnement que le contraire. Et les systèmes de recommandation font leur entrée dans d’autres domaines, comme l’éducation (avec Coursera) ou la finance (avec Robinhood).

Pour Narayanan, l’enjeu reste de mieux comprendre ce qu’ils font. Pour cela, nous devons continuer d’exiger d’eux bien plus de transparence qu’ils n’en livrent. Pas plus que dans le monde des moteurs de recherche nous ne reviendrons aux annuaires, nous ne reviendrons pas aux flux chronologiques dans les moteurs de recommandation. Nous avons encore des efforts à faire pour contrecarrer activement les modèles les plus nuisibles des recommandations. L’enjeu, conclut-il, est peut-être d’esquisser plus d’alternatives que nous n’en disposons, comme par exemple, d’imaginer des algorithmes de recommandations qui n’optimisent pas l’engagement, ou pas seulement. Cela nécessite certainement aussi d’imaginer des réseaux sociaux avec des modèles économiques différents. Un autre internet. Les algorithmes ne sont peut-être pas l’ennemi comme il le dit, mais ceux qui ne sont ni transparents, ni loyaux, et qui optimisent leurs effets en dehors de toute autre considération, ne sont pas nos amis non plus !




Ouvrir le code des algorithmes ? — Oui, mais… (1/2)

Voici le premier des deux articles qu’Hubert Guillaud nous fait le plaisir de partager. Sans s’arrêter à la surface de l’actualité, il aborde la transparence du code des algorithmes, qui entraîne un grand nombre de questions épineuses sur lesquelles il s’est documenté pour nous faire part de ses réflexions.


Dans le code source de l’amplification algorithmique : publier le code ne suffit pas !

par Hubert GUILLAUD

Le 31 mars, Twitter a publié une partie du code source qui alimente son fil d’actualité, comme l’a expliqué l’équipe elle-même dans un billet. Ces dizaines de milliers de lignes de code contiennent pourtant peu d’informations nouvelles. Depuis le rachat de l’oiseau bleu par Musk, Twitter a beaucoup changé et ne cesse de se modifier sous les yeux des utilisateurs. La publication du code source d’un système, même partiel, qui a longtemps été l’un des grands enjeux de la transparence, montre ses limites.

un jeune homme montre une ligne d'une explication de l'encodage des algorithmes au rétroprojecteur
« LZW encoding and decoding algorithms overlapped » par nayukim, licence CC BY 2.0.

Publier le code ne suffit pas

Dans un excellent billet de blog, le chercheur Arvind Narayanan (sa newsletter mérite également de s’y abonner) explique ce qu’il faut en retenir. Comme ailleurs, les règles ne sont pas claires. Les algorithmes de recommandation utilisent l’apprentissage automatique ce qui fait que la manière de classer les tweets n’est pas directement spécifiée dans le code, mais apprise par des modèles à partir de données de Twitter sur la manière dont les utilisateurs ont réagi aux tweets dans le passé. Twitter ne divulgue ni ces modèles ni les données d’apprentissages, ce qui signifie qu’il n’est pas possible d’exécuter ces modèles. Le code ne permet pas de comprendre pourquoi un tweet est ou n’est pas recommandé à un utilisateur, ni pourquoi certains contenus sont amplifiés ou invisibilisés. C’est toute la limite de la transparence. Ce que résume très bien le journaliste Nicolas Kayser-Bril pour AlgorithmWatch (pertinemment traduit par le framablog) : « Vous ne pouvez pas auditer un code seulement en le lisant. Il faut l’exécuter sur un ordinateur. »

« Ce que Twitter a publié, c’est le code utilisé pour entraîner les modèles, à partir de données appropriées », explique Narayanan, ce qui ne permet pas de comprendre les propagations, notamment du fait de l’absence des données. De plus, les modèles pour détecter les tweets qui violent les politiques de Twitter et qui leur donnent des notes de confiance en fonction de ces politiques sont également absentes (afin que les usagers ne puissent pas déjouer le système, comme nous le répètent trop de systèmes rétifs à l’ouverture). Or, ces classements ont des effets de rétrogradation très importants sur la visibilité de ces tweets, sans qu’on puisse savoir quels tweets sont ainsi classés, selon quelles méthodes et surtout avec quelles limites.

La chose la plus importante que Twitter a révélée en publiant son code, c’est la formule qui spécifie comment les différents types d’engagement (likes, retweets, réponses, etc.) sont pondérés les uns par rapport aux autres… Mais cette formule n’est pas vraiment dans le code. Elle est publiée séparément, notamment parce qu’elle n’est pas statique, mais qu’elle doit être modifiée fréquemment.

Sans surprise, le code révèle ainsi que les abonnés à Twitter Blue, ceux qui payent leur abonnement, bénéficient d’une augmentation de leur portée (ce qui n’est pas sans poser un problème de fond, comme le remarque pertinemment sur Twitter, Guillaume Champeau, car cette préférence pourrait mettre ces utilisateurs dans la position d’être annonceurs, puisqu’ils payent pour être mis en avant, sans que l’interface ne le signale clairement, autrement que par la pastille bleue). Reste que le code n’est pas clair sur l’ampleur de cette accélération. Les notes attribuées aux tweets des abonnés Blue sont multipliées par 2 ou 4, mais cela ne signifie pas que leur portée est pareillement multipliée. « Une fois encore, le code ne nous dit pas le genre de choses que nous voudrions savoir », explique Narayanan.

Reste que la publication de la formule d’engagement est un événement majeur. Elle permet de saisir le poids des réactions sur un tweet. On constate que la réponse à tweet est bien plus forte que le like ou que le RT. Et la re-réponse de l’utilisateur originel est prédominante, puisque c’est le signe d’une conversation forte. À l’inverse, le fait qu’un lecteur bloque, mute ou se désabonne d’un utilisateur suite à un tweet est un facteur extrêmement pénalisant pour la propagation du tweet.

Tableau du poids attribué en fonction des types d’engagement possibles sur Twitter.

Ces quelques indications permettent néanmoins d’apprendre certaines choses. Par exemple que Twitter ne semble pas utiliser de prédictions d’actions implicites (comme lorsqu’on s’arrête de faire défiler son fil), ce qui permet d’éviter l’amplification du contenu trash que les gens ne peuvent s’empêcher de regarder, même s’ils ne s’y engagent pas. La formule nous apprend que les retours négatifs ont un poids très élevé, ce qui permet d’améliorer son flux en montrant à l’algorithme ce dont vous ne voulez pas – même si les plateformes devraient permettre des contrôles plus explicites pour les utilisateurs. Enfin, ces poids ont des valeurs souvent précises, ce qui signifie que ce tableau n’est valable qu’à l’instant de la publication et qu’il ne sera utile que si Twitter le met à jour.

Les algorithmes de recommandation qui optimisent l’engagement suivent des modèles assez proches. La publication du code n’est donc pas très révélatrice. Trois éléments sont surtout importants, insiste le chercheur :

« Le premier est la manière dont les algorithmes sont configurés : les signaux utilisés comme entrée, la manière dont l’engagement est défini, etc. Ces informations doivent être considérées comme un élément essentiel de la transparence et peuvent être publiées indépendamment du code. La seconde concerne les modèles d’apprentissage automatique qui, malheureusement, ne peuvent généralement pas être divulgués pour des raisons de protection de la vie privée. Le troisième est la boucle de rétroaction entre les utilisateurs et l’algorithme ».

Autant d’éléments qui demandent des recherches, des expériences et du temps pour en comprendre les limites.

Si la transparence n’est pas une fin en soi, elle reste un moyen de construire un meilleur internet en améliorant la responsabilité envers les utilisateurs, rappelle l’ingénieur Gabriel Nicholas pour le Center for Democracy & Technology. Il souligne néanmoins que la publication d’une partie du code source de Twitter ne contrebalance pas la fermeture du Consortium de recherche sur la modération, ni celle des rapports de transparence relatives aux demandes de retraits des autorités ni celle de l’accès à son API pour chercheurs, devenue extrêmement coûteuse.

« Twitter n’a pas exactement ’ouvert son algorithme’ comme certains l’ont dit. Le code est lourdement expurgé et il manque plusieurs fichiers de configuration, ce qui signifie qu’il est pratiquement impossible pour un chercheur indépendant d’exécuter l’algorithme sur des échantillons ou de le tester d’une autre manière. Le code publié n’est en outre qu’un instantané du système de recommandation de Twitter et n’est pas réellement connecté au code en cours d’exécution sur ses serveurs. Cela signifie que Twitter peut apporter des modifications à son code de production et ne pas l’inclure dans son référentiel public, ou apporter des modifications au référentiel public qui ne sont pas reflétées dans son code de production. »

L’algorithme publié par Twitter est principalement son système de recommandation. Il se décompose en 3 parties, explique encore Nicholas :

  • Un système de génération de contenus candidats. Ici, Twitter sélectionne 1500 tweets susceptibles d’intéresser un utilisateur en prédisant la probabilité que l’utilisateur s’engage dans certaines actions pour chaque tweet (c’est-à-dire qu’il RT ou like par exemple).
  • Un système de classement. Une fois que les 1 500 tweets susceptibles d’être servis sont sélectionnés, ils sont notés en fonction de la probabilité des actions d’engagement, certaines actions étant pondérées plus fortement que d’autres. Les tweets les mieux notés apparaîtront généralement plus haut dans le fil d’actualité de l’utilisateur.
  • Un système de filtrage. Les tweets ne sont pas classés strictement en fonction de leur score. Des heuristiques et des filtres sont appliqués pour, par exemple, éviter d’afficher plusieurs tweets du même auteur ou pour déclasser les tweets d’auteurs que l’utilisateur a déjà signalés pour violation de la politique du site.

Le score final est calculé en additionnant la probabilité de chaque action multipliée par son poids (en prenant certainement en compte la rareté ou la fréquence d’action, le fait de répondre à un tweet étant moins fréquent que de lui attribuer un like). Mais Twitter n’a pas publié la probabilité de base de chacune de ces actions ce qui rend impossible de déterminer l’importance de chacune d’elles dans les recommandations qui lui sont servies.

Twitter a également révélé quelques informations sur les autres facteurs qu’il prend en compte en plus du classement total d’un tweet. Par exemple, en équilibrant les recommandations des personnes que vous suivez avec celles que vous ne suivez pas, en évitant de recommander les tweets d’un même auteur ou en donnant une forte prime aux utilisateurs payants de Twitter Blue.

Il y a aussi beaucoup de code que Twitter n’a pas partagé. Il n’a pas divulgué beaucoup d’informations sur l’algorithme de génération des tweets candidats au classement ni sur ses paramètres et ses données d’entraînement. Twitter n’a pas non plus explicitement partagé ses algorithmes de confiance et de sécurité pour détecter des éléments tels que les abus, la toxicité ou les contenus pour adultes, afin d’empêcher les gens de trouver des solutions de contournement, bien qu’il ait publié certaines des catégories de contenu qu’il signale.

 

graphe des relations entre comptes twitter, tr-s nombreux traits bleus entre minuscules avatars de comptes, le tout donne une impression d'inextricable comlexité
« 20120212-NodeXL-Twitter-socbiz network graph » par Marc_Smith; licence CC BY 2.0.

 

Pour Gabriel Nicholas, la transparence de Twitter serait plus utile si Twitter avait maintenu ouverts ses outils aux chercheurs. Ce n’est pas le cas.

Il y a plein d’autres points que l’ouverture de l’algorithme de Twitter a documentés. Par exemple, l’existence d’un Tweepcred, un score qui classe les utilisateurs et qui permet de voir ses publications boostées si votre score est bon, comme l’expliquait Numerama. Ou encore le fait que chaque compte est clustérisé dans un groupe aux profils similaires dans lequel les tweets sont d’abord diffusés avant d’être envoyés plus largement s’ils rencontrent un premier succès… De même, il semblerait qu’il y ait certaines catégories d’utilisateurs spéciaux (dont une catégorie relative à Elon Musk) mais qui servent peut-être plus certaines statistiques qu’à doper la portée de certains comptes comme on l’a entendu (même s’il semble bien y avoir une catégorie VIP sur Twitter – comme il y a sur Facebook un statut d’exception à la modération)…

Ouvrir, mais ouvrir quoi ?

En conclusion de son article, Narayanan pointe vers un très intéressant article qui dresse une liste d’options de transparence pour ceux qui produisent des systèmes de recommandation, publiée par les chercheurs Priyanjana Bengani, Jonathan Stray et Luke Thorburn. Ils rappellent que les plateformes ont mis en place des mesures de transparence, allant de publications statistiques à des interfaces de programmation, en passant par des outils et des ensembles de données protégés. Mais ces mesures, très techniques, restent insuffisantes pour comprendre les algorithmes de recommandation et leur influence sur la société. Une grande partie de cette résistance à la transparence ne tient pas tant aux risques commerciaux qui pourraient être révélés qu’à éviter l’embarras d’avoir à se justifier de choix qui ne le sont pas toujours. D’une manière très pragmatique, les trois chercheurs proposent un menu d’actions pour améliorer la transparence et l’explicabilité des systèmes.

Documenter
L’un des premiers outils, et le plus simple, reste la documentation qui consiste à expliquer en termes clairs – selon différentes échelles et niveaux, me semble-t-il – ce qui est activé par une fonction. Pour les utilisateurs, c’est le cas du bouton « Pourquoi je vois ce message » de Facebook ou du panneau « Fréquemment achetés ensemble » d’Amazon. L’idée ici est de fourbir un « compte rendu honnête ». Pour les plus évoluées de ces interfaces, elles devraient permettre non seulement d’informer et d’expliquer pourquoi on nous recommande ce contenu, mais également, permettre de rectifier et mieux contrôler son expérience en ligne, c’est-à-dire d’avoir des leviers d’actions sur la recommandation.

Une autre forme de documentation est celle sur le fonctionnement général du système et ses décisions de classement, à l’image des rapports de transparence sur les questions de sécurité et d’intégrité que doivent produire la plupart des plateformes (voir celui de Google, par exemple). Cette documentation devrait intégrer des informations sur la conception des algorithmes, ce que les plateformes priorisent, minimisent et retirent, si elles donnent des priorités et à qui, tenir le journal des modifications, des nouvelles fonctionnalités, des changements de politiques. La documentation doit apporter une information solide et loyale, mais elle reste souvent insuffisante.

Les données
Pour comprendre ce qu’il se passe sur une plateforme, il est nécessaire d’obtenir des données. Twitter ou Facebook en ont publié (accessibles sous condition de recherche, ici pour Twitter,  pour Facebook). Une autre approche consiste à ouvrir des interfaces de programmation, à l’image de CrowdTangle de Facebook ou de l’API de Twitter. Depuis le scandale Cambridge Analytica, l’accès aux données est souvent devenu plus difficile, la protection de la vie privée servant parfois d’excuse aux plateformes pour éviter d’avoir à divulguer leurs pratiques. L’accès aux données, même pour la recherche, s’est beaucoup refermé ces dernières années. Les plateformes publient moins de données et CrowdTangle propose des accès toujours plus sélectifs. Chercheurs et journalistes ont été contraints de développer leurs propres outils, comme des extensions de navigateurs permettant aux utilisateurs de faire don de leurs données (à l’image du Citizen Browser de The Markup) ou des simulations automatisées (à l’image de l’analyse robotique de TikTok produite par le Wall Street Journal), que les plateformes ont plutôt eu tendance à bloquer en déniant les résultats obtenus sous prétexte d’incomplétude – ce qui est justement le problème que l’ouverture de données cherche à adresser.

Le code
L’ouverture du code des systèmes de recommandation pourrait être utile, mais elle ne suffit pas, d’abord parce que dans les systèmes de recommandation, il n’y a pas un algorithme unique. Nous sommes face à des ensembles complexes et enchevêtrés où « différents modèles d’apprentissage automatique formés sur différents ensembles de données remplissent diverses fonctions ». Même le classement ou le modèle de valeur pour déterminer le score n’explique pas tout. Ainsi, « le poids élevé sur un contenu d’un type particulier ne signifie pas nécessairement qu’un utilisateur le verra beaucoup, car l’exposition dépend de nombreux autres facteurs, notamment la quantité de ce type de contenu produite par d’autres utilisateurs. »

Peu de plateformes offrent une grande transparence au niveau du code source. Reddit a publié en 2008 son code source, mais a cessé de le mettre à jour. En l’absence de mesures de transparence, comprendre les systèmes nécessite d’écluser le travail des journalistes, des militants et des chercheurs pour tenter d’en obtenir un aperçu toujours incomplet.

La recherche
Les plateformes mènent en permanence une multitude de projets de recherche internes voire externes et testent différentes approches pour leurs systèmes de recommandation. Certains des résultats finissent par être accessibles dans des revues ou des articles soumis à des conférences ou via des fuites d’informations. Quelques efforts de partenariats entre la recherche et les plateformes ont été faits, qui restent embryonnaires et ne visent pas la transparence, mais qui offrent la possibilité à des chercheurs de mener des expériences et donc permettent de répondre à des questions de nature causale, qui ne peuvent pas être résolues uniquement par l’accès aux données.

Enfin, les audits peuvent être considérés comme un type particulier de recherche. À l’heure actuelle, il n’existe pas de bons exemples d’audits de systèmes de recommandation menés à bien. Reste que le Digital Service Act (DSA) européen autorise les audits externes, qu’ils soient lancés par l’entreprise ou dans le cadre d’une surveillance réglementaire, avec des accès élargis par rapport à ceux autorisés pour l’instant. Le DSA exige des évaluations sur le public mineur, sur la sécurité, la santé, les processus électoraux… mais ne précise ni comment ces audits doivent être réalisés ni selon quelles normes. Des méthodes spécifiques ont été avancées pour contrôler la discrimination, la polarisation et l’amplification dans les systèmes de recommandation.

En principe, on pourrait évaluer n’importe quel préjudice par des audits. Ceux-ci visent à vérifier si « la conception et le fonctionnement d’un système de recommandation respectent les meilleures pratiques et si l’entreprise fait ce qu’elle dit qu’elle fait. S’ils sont bien réalisés, les audits pourraient offrir la plupart des avantages d’un code source ouvert et d’un accès aux données des utilisateurs, sans qu’il soit nécessaire de les rendre publics. » Reste qu’il est peu probable que les audits imposés par la surveillance réglementaire couvrent tous les domaines qui préoccupent ceux qui sont confrontés aux effets des outils de recommandations.

Autres moteurs de transparence : la gouvernance et les calculs

Les chercheurs concluent en soulignant qu’il existe donc une gamme d’outils à disposition, mais qu’elle manque de règles et de bonnes pratiques partagées. Face aux obligations de transparence et de contrôles qui arrivent (pour les plus gros acteurs d’abord, mais parions que demain, elles concerneront bien d’autres acteurs), les entreprises peinent à se mettre en ordre de marche pour proposer des outillages et des productions dans ces différents secteurs qui leur permettent à la fois de se mettre en conformité et de faire progresser leurs outils. Ainsi, par exemple, dans le domaine des données, documenter les jeux et les champs de données, à défaut de publier les jeux de données, pourrait déjà permettre un net progrès. Dans le domaine de la documentation, les cartes et les registres permettent également d’expliquer ce que les calculs opèrent (en documentant par exemple leurs marges d’erreurs).

Reste que l’approche très technique que mobilisent les chercheurs oublie quelques leviers supplémentaires. Je pense notamment aux conseils de surveillance, aux conseils éthiques, aux conseils scientifiques, en passant par les organismes de contrôle indépendants, aux comités participatifs ou consultatifs d’utilisateurs… à tous les outils institutionnels, participatifs ou militants qui permettent de remettre les parties prenantes dans le contrôle des décisions que les systèmes prennent. Dans la lutte contre l’opacité des décisions, tous les leviers de gouvernance sont bons à prendre. Et ceux-ci sont de très bons moyens pour faire pression sur la transparence, comme l’expliquait très pertinemment David Robinson dans son livre Voices in the Code.

Un autre levier me semble absent de nombre de propositions… Alors qu’on ne parle que de rendre les calculs transparents, ceux-ci sont toujours absents des discussions. Or, les règles de traitements sont souvent particulièrement efficaces pour améliorer les choses. Il me semble qu’on peut esquisser au moins deux moyens pour rendre les calculs plus transparents et responsables : la minimisation et les interdictions.

La minimisation vise à rappeler qu’un bon calcul ne démultiplie pas nécessairement les critères pris en compte. Quand on regarde les calculs, bien souvent, on est stupéfait d’y trouver des critères qui ne devraient pas être pris en compte, qui n’ont pas de fondements autres que d’être rendus possibles par le calcul. Du risque de récidive au score de risque de fraude à la CAF, en passant par l’attribution de greffes ou aux systèmes de calculs des droits sociaux, on trouve toujours des éléments qui apprécient le calcul alors qu’ils n’ont aucune justification ou pertinence autres que d’être rendu possibles par le calcul ou les données. C’est le cas par exemple du questionnaire qui alimente le calcul de risque de récidive aux Etats-Unis, qui repose sur beaucoup de questions problématiques. Ou de celui du risque de fraude à la CAF, dont les anciennes versions au moins (on ne sait pas pour la plus récente) prenaient en compte par exemple le nombre de fois où les bénéficiaires se connectaient à leur espace en ligne (sur cette question, suivez les travaux de la Quadrature et de Changer de Cap). La minimisation, c’est aussi, comme l’explique l’ex-chercheur de chez Google, El Mahdi El Mhamdi, dans une excellente interview, limiter le nombre de paramètres pris en compte par les calculs et limiter l’hétérogénéité des données.

L’interdiction, elle, vise à déterminer que certains croisements ne devraient pas être autorisés, par exemple, la prise en compte des primes dans les logiciels qui calculent les données d’agenda du personnel, comme semble le faire le logiciel Orion mis en place par la Sncf, ou Isabel, le logiciel RH que Bol.com utilise pour gérer la main-d’œuvre étrangère dans ses entrepôts de logistique néerlandais. Ou encore, comme le soulignait Narayanan, le temps passé sur les contenus sur un réseau social par exemple, ou l’analyse de l’émotion dans les systèmes de recrutement (et ailleurs, tant cette technologie pose problème). A l’heure où tous les calculs sont possibles, il va être pertinent de rappeler que selon les secteurs, certains croisements doivent rester interdits parce qu’ils sont trop à risque pour être mobilisés dans le calcul ou que certains calculs ne peuvent être autorisés.

Priyanjana Bengani, Jonathan Stray et Luke Thorburn, pour en revenir à eux, notent enfin que l’exigence de transparence reste formulée en termes très généraux par les autorités réglementaires. Dans des systèmes vastes et complexes, il est difficile de savoir ce que doit signifier réellement la transparence. Pour ma part, je milite pour une transparence “projective”, active, qui permette de se projeter dans les explications, c’est-à-dire de saisir ses effets et dépasser le simple caractère narratif d’une explication loyale, mais bien de pouvoir agir et reprendre la main sur les calculs.

Coincés dans les boucles de l’amplification

Plus récemment, les trois mêmes chercheurs, passé leur article séminal, ont continué à documenter leur réflexion. Ainsi, dans « Rendre l’amplification mesurable », ils expliquent que l’amplification est souvent bien mal définie (notamment juridiquement, ils ont consacré un article entier à la question)… mais proposent d’améliorer les propriétés permettant de la définir. Ils rappellent d’abord que l’amplification est relative, elle consiste à introduire un changement par rapport à un calcul alternatif ou précédent qui va avoir un effet sans que le comportement de l’utilisateur n’ait été, lui, modifié.

L’amplification agit d’abord sur un contenu et nécessite de répondre à la question de savoir ce qui a été amplifié. Mais même dire que les fake news sont amplifiées n’est pas si simple, à défaut d’avoir une définition précise et commune des fake news qui nécessite de comprendre les classifications opérées. Ensuite, l’amplification se mesure par rapport à un point de référence précédent qui est rarement précisé. Enfin, quand l’amplification atteint son but, elle produit un résultat qui se voit dans les résultats liés à l’engagement (le nombre de fois où le contenu a été apprécié ou partagé) mais surtout ceux liés aux impressions (le nombre de fois où le contenu a été vu). Enfin, il faut saisir ce qui relève de l’algorithme et du comportement de l’utilisateur. Si les messages d’un parti politique reçoivent un nombre relativement important d’impressions, est-ce parce que l’algorithme est biaisé en faveur du parti politique en question ou parce que les gens ont tendance à s’engager davantage avec le contenu de ce parti ? Le problème, bien sûr, est de distinguer l’un de l’autre d’une manière claire, alors qu’une modification de l’algorithme entraîne également une modification du comportement de l’utilisateur. En fait, cela ne signifie pas que c’est impossible, mais que c’est difficile, expliquent les chercheurs. Cela nécessite un système d’évaluation de l’efficacité de l’algorithme et beaucoup de tests A/B pour comparer les effets des évolutions du calcul. Enfin, estiment-ils, il faut regarder les effets à long terme, car les changements dans le calcul prennent du temps à se diffuser et impliquent en retour des réactions des utilisateurs à ces changements, qui s’adaptent et réagissent aux transformations.

Dans un autre article, ils reviennent sur la difficulté à caractériser l’effet bulle de filtre des médias sociaux, notamment du fait de conceptions élastiques du phénomène. S’il y a bien des boucles de rétroaction, leur ampleur est très discutée et dépend beaucoup du contexte. Ils en appellent là encore à des mesures plus précises des phénomènes. Certes, ce que l’on fait sur les réseaux sociaux influe sur ce qui est montré, mais il est plus difficile de démontrer que ce qui est montré affecte ce que l’on pense. Il est probable que les effets médiatiques des recommandations soient faibles pour la plupart des gens et la plupart du temps, mais beaucoup plus importants pour quelques individus ou sous-groupes relativement à certaines questions ou enjeux. De plus, il est probable que changer nos façons de penser ne résulte pas d’une exposition ponctuelle, mais d’une exposition à des récits et des thèmes récurrents, cumulatifs et à long terme. Enfin, si les gens ont tendance à s’intéresser davantage à l’information si elle est cohérente avec leur pensée existante, il reste à savoir si ce que l’on pense affecte ce à quoi l’on s’engage. Mais cela est plus difficile à mesurer car cela suppose de savoir ce que les gens pensent et pas seulement constater leurs comportements en ligne. En général, les études montrent plutôt que l’exposition sélective a peu d’effets. Il est probable cependant que là encore, l’exposition sélective soit faible en moyenne, mais plus forte pour certains sous-groupes de personnes en fonction des contextes, des types d’informations.

Bref, là encore, les effets des réseaux sociaux sont difficiles à percer.

Pour comprendre les effets de l’amplification algorithmique, peut-être faut-il aller plus avant dans la compréhension que nous avons des évolutions de celle-ci, afin de mieux saisir ce que nous voulons vraiment savoir. C’est ce que nous tenterons de faire dans la suite de cet article…




Publier le code source ne suffit pas…

Un court billet où Nicolas Kayser-Bril opère une mise au point : la loi européenne et les grandes entreprises du Web peuvent donner accès au code source, mais ce n’est qu’un facteur parmi d’autres qui s’avère souvent inutile à lui seul…

Article original : The ideology behind publishing Twitter’s source code publié dans le bulletin d’information (en anglais ou allemand)  d’Algorithmwatch auquel on peut s’abonner sur cette page.

Traduction Framalang relue et révisée par l’auteur : Squeeek, goofy, audionuma

L’idéologie derrière la publication du code source de Twitter

par Nicolas Kayser-Bril

Photo noir/blanc de l'auteur, jeune homme brun souriant.
Photo par Julia Bornkessel licence CC-BY 4.0

Une fuite

Le 31 mars, Twitter a publié une partie du code source qui alimente son fil d’actualité. Cette décision a été prise quelques jours après qu’il a été rendu public que de grandes parties de ce code avaient déjà été divulguées sur Github [Gizmodo, 31 mars].

Les 85 797 lignes de code ne nous apprennent pas grand-chose. Les tweets ne contenant pas de liens sont mis en avant. Ceux rédigés dans une langue que le système ne peut pas reconnaître sont rétrogradés – discriminant clairement les personnes qui parlent une langue qui n’est pas reconnue par les ingénieurs californiens. Les Spaces (la fonction de podcasting en direct de Twitter) sur l’Ukraine semblent également être cachés [Aakash Gupta, 2 avril].

Le plus intéressant dans cette affaire reste le billet de blog rédigé par ce qu’il reste de l’équipe d’ingénieurs de Twitter. Il explique bien comment fonctionne un fil d’actualité d’un point de vue technique.

Comment (ne pas) ouvrir le code source

Une entreprise a été pionnière pour rendre son code source public : Twitter. Il y a deux ans, son équipe « Éthique, Transparence et Responsabilité » a publié le code d’un algorithme de recadrage d’images et a organisé une compétition permettant à quiconque d’y trouver d’éventuels biais [AlgorithmWatch, 2021]. Cette équipe a été l’une des premières à être licenciée l’année dernière.

Il ne suffit pas de lire un code source pour l’auditer. Il faut le faire fonctionner (l’exécuter) sur un ordinateur. En ce qui concerne l’Ukraine, par exemple, nous savons seulement que les Spaces Twitter étiquetés « UkraineCrisisTopic » subissent le même traitement que les articles étiquetés « violence » ou « porno ». Mais nous ne savons pas comment cette étiquette est attribuée, ni quels en sont les effets. Il semble que le code de ces fonctionnalités n’ait même pas été rendu public.

Dissimulation

Publier du code informatique sans expliquer comment le faire fonctionner peut être pire qu’inutile. Cela permet de prétendre à la transparence tout en empêchant tout réel audit. Twitter n’est pas la première organisation à suivre cette stratégie.

La Caisse Nationale des Allocations Familiales a publié les 7 millions de lignes du code de son calculateur d’allocations suite à une demande d’informations publiques (demande CADA) [NextINpact, 2018]. On ne pouvait rien en tirer. J’ai fait une demande de communication des « documents d’architecture fonctionnelle », qui sont mentionnés dans des commentaires du code. La CNAF a répondu qu’ils n’existaient pas.

La loi européenne sur les services numériques prévoit que les « chercheurs agréés » pourront accéder aux « données » des très grandes plateformes, y compris éventuellement au code source [AlgorithmWatch, 2022]. Pour que la loi sur les services numériques fonctionne, il est essentiel que les entreprises traitent ces demandes comme le Twitter de 2021, et non comme le Twitter de 2023.

L’idéologie technologiste

Enfin, la focalisation sur le code source est au service d’un projet politique. J’entends souvent dire que le code est le cœur d’une entreprise, que c’est un secret commercial précieusement gardé. C’est faux. Si c’était le cas, les fuites de code source nuiraient aux entreprises. Suite à des intrusions ou des fuites, le code source de Yandex et de Twitch a été publié récemment [ArsTechnica, 2021 et 2023]. À ma connaissance, ces entreprises n’en ont pas souffert.

Le code source n’est qu’un facteur parmi d’autres pour une entreprise du Web. Parmi les autres facteurs, citons les employés, les relations avec des politiques, les procédures internes, la position sur le marché, l’environnement juridique et bien d’autres encore. Mettre le code sur un piédestal implique que les autres facteurs sont sans importance. Les propriétaires de Twitter et de Meta (et ils sont loin d’être les seuls) ont dit très clairement que les ingénieurs étaient beaucoup plus importants que le reste de leurs employé·e·s. Pour eux, tout problème est fondamentalement technique et peut être résolu par du code.

Je suis certain que la publication du code source de Twitter conduira certains technologues à prétendre que le harcèlement en ligne, les agressions et la désinformation peuvent désormais être « corrigés » par une pull request (lorsqu’un contributeur à un projet open source propose une modification du code). Ce serait un pas dans la mauvaise direction.




Le Fediverse n’est pas Twitter, mais peut aller plus loin

Maintenant que Mastodon a suscité l’intérêt d’un certain nombre de migrants de Twitter, il nous semble important de montrer concrètement comment peuvent communiquer entre eux des comptes de Mastodon, PeerTube, Pixelfed et autres… c’est ce que propose Ross Schulman dans ce billet de l’EFF traduit pour vous par Framalang…

 

source : The Breadth of the Fediverse

Traduction Framalang : CLC, Goofy, Henri-Paul

 

L’étendue du Fediverse

par Ross Schulman

Le Washington Post a récemment publié une tribune de Megan McArdle intitulée : « Twitter pourrait être remplacé, mais pas par Mastodon ou d’autres imitateurs ». L’article explique que Mastodon tombe dans le piège habituel des projets open source : élaborer une alternative qui a l’air identique et améliore les choses dont l’utilisateur type n’a rien à faire, tout en manquant des éléments qui ont fait le succès de l’original. L’autrice suggère plutôt que dépasser Twitter demandera quelque chose d’entièrement nouveau, et d’offrir aux masses quelque chose qu’elles ne savaient même pas qu’elles le désiraient.

Nous pensons, contrairement à Megan, que Mastodon (qui fait partie intégrante du Fediverse) offre en réalité tout cela, car c’est un réseau social véritablement interopérable et portable. Considérer que Mastodon est un simple clone de Twitter revient à oublier que le Fediverse est capable d’être ou de devenir la plate-forme sociale dont vous rêvez. C’est toute la puissance des protocoles. Le Fediverse dans son ensemble est un site de micro-blogging, qui permet de partager des photos, des vidéos, des listes de livres, des lectures en cours, et bien plus encore.

Comme beaucoup de gens se font, comme Megan, une fausse idée sur le Fediverse, et comme une image vaut mieux qu’un long discours, voyons comment l’univers plus large d’ActivityPub fonctionne dans la pratique.

Parlons de PeerTube. Il s’agit d’un système d’hébergement de vidéos, grâce auquel les internautes peuvent en suivre d’autres, télécharger des vidéos, les commenter et les « liker ».
Voici par exemple la page de la chaîne principale du projet open source Blender et c’est là que vous pouvez vous abonner à la chaîne…

fenêtre dans la page de peertube.tv où l'on peut s'abonner au canal blender en utilisant son compte activityPub, ici un compte de mastodon

Dans cet exemple nous avons créé un compte Mastodon sur l’instance (le serveur) framapiaf.org. Une fois qu’on clique sur « S’abonner à distance », nous allons sur le compte Mastodon, à partir duquel il nous suffit de cliquer sur « Suivre » pour nous permettre de…suivre depuis Mastodon le compte du PeerTube de Blender.

fenêtre de mastodon dans laquelle on peut confirmer vouloir suivre un canal peertube (de Blender dans cet exemple) en cliquant sur "Suivre"

Maintenant, dès que Blender met en ligne une nouvelle vidéo avec PeerTube, la mise à jour s’effectue dans le fil de Mastodon, à partir duquel nous pouvons « liker » (avec une icône d’étoile « ajouter aux favoris ») la vidéo et publier un commentaire.

… de sorte que le « like » et la réponse apparaissent sans problème sur la page de la vidéo.

un commentaire-réponse posté sur mastodon apparaît sur le canal peertube

Pixelfed est un autre service basé sur ActivityPub prenant la forme d’un réseau social de partage de photographies. Voici la page d’accueil de Dan Supernault, le principal développeur.

On peut le suivre depuis notre compte, comme nous venons de le faire avec la page PeerTube de Blender ci-dessus, mais on peut aussi le retrouver directement depuis notre compte Mastodon si nous connaissons son nom d’utilisateur.

capture : après recherche du nom d’utilisateur « dansup », mastodon retrouve le compte pixelfed recherché

Tout comme avec PeerTube, une fois que nous suivons le compte de Dan, ses images apparaîtront dans Mastodon, et les « likes » et les commentaires apparaîtront aussi dans Pixelfed.

capture d'écran montrant une photo du chat de Dansup publiée sur pixelfed mais qui s'affiche ici sur le compte mastodon que l'on "suit".

Voilà seulement quelques exemples de la façon dont des protocoles communs, et ActivityPub en particulier, permettent d’innover en termes de médias sociaux, Dans le Fediverse existent aussi BookWyrm, une plateforme sociale pour partager les lectures, FunkWhale, un service de diffusion et partage de musique ainsi que WriteFreely, qui permet de tenir des blogs plus étendus, pour ne mentionner que ceux-là.

Ce que garantit le Fediverse, c’est que tous ces éléments interagissent de la façon dont quelqu’un veut les voir. Si j’aime Mastodon, je peux toujours y voir des images de Pixelfed même si elles sont mieux affichées dans Pixelfed. Mieux encore, mes commentaires s’afficheront dans Pixelfed sous la forme attendue.

Les personnes qui ont migré de Twitter ont tendance à penser que c’est un remplaçant de Twitter pour des raisons évidentes, et donc elles utilisent Mastodon (ou peut-être micro.blog), mais ce n’est qu’une partie de son potentiel. La question n’est pas celle du remplacement de Twitter, mais de savoir si ce protocole peut se substituer aux autres plateformes dans notre activité sur la toile. S’il continue sur sa lancée, le Fediverse pourrait devenir un nouveau nœud de relations sociales sur la toile, qui engloberait d’autres systèmes comme Tumblr ou Medium et autres retardataires.

 




Mastodon, c’est chouette

On cause beaucoup de Mastodon en ce moment. Notre dessinateur Gee s’est dit que c’était le moment pour vous en parler, pas spécialement d’un point de vue technique, mais juste pour vous dire ce qui lui plaisait dans ce réseau.

On en profite pour vous rappeler qu’il existe un merveilleux guide de découverte de Mastodon (créé collaborativement par des mastonautes) si vous voulez en savoir plus

Sachez que Gee sera présent au Capitole du Libre avec la team Framasoft à Toulouse ce week-end ! Il y dédicacera les bouquins suivants :

Viendez beaucoup !

Mastodon, c’est pouet chouette

Avec le rachat de Twitter par Elon Musk, une nouvelle vague d’arrivées a atteint Mastodon, le réseau de microblog libre et décentralisé.

En bord de mer, une grosse vague avec plein de gens dedans qui disent : « Coucou, on arriiiiiive ! » Un homme court sur le ponton en criant : « Aaaaah vite, redimensionnez les serveurs ! »

Je ne doute pas que la vague retombera, à commencer parce que Mastodon ne vous manipule pas pour vous rendre accro à son utilisation.

Une image scindée en deux. À gauche, un homme regarde son téléphone : « Ouais, Mastodon c'est sympa, mais j'ai quand même envie de revenir à Twitter… » À droite, le même regarde un sachet de poudre (il a lui-même de la poudre dans le nez) : « Ouais, la farine c'est sympa, mais j'ai quand même envie de revenir à la cocaïne…

Ça fait partie des choses que j’aime sur Mastodon : un design qui tente de désamorcer les comportements malveillants.

Un homme regarde son téléphone, surpris : « Attends, on peut même pas citer un message ? » La Geekette : « Non : si tu veux réagir, tu réponds.  En général, les gens qui citent des messages veulent simplement se mettre en avant au détriment d'autrui, donc on ne le fait pas ici. »

Je pourrais aussi vous parler des CW, les « content warning » (avertissement sur le contenu) qui permettent de masquer un message en précisant juste le sujet en clair.

Deux hommes avec des chapeaux de Schtroumpfs discutent. Le premier, face à son ordinateur : « Mais, Groumpf Grognon, pourquoi tu ne regardes pas le contenu de ce message qui parle de groumpf ? » L'autre, les poings serrés : « Moi j'aime pas le groumpf. »

On peut également flouter les images par défaut, ce qui permet par exemple de commenter une image de film contenant un spoiler en prévenant les gens avant un clic malencontreux.

La Geekette, la langue tirée : « Ouais. Ou poster une image érotique floutée par défaut. » Un homme, choqué : « De kouwa ?! Y'a du sékse ?! » La Geekette : « Oui, mais avec un petit tag NSFW* pour la politesse. »

« Not Safe For Work », ne regardez pas ça au boulot.

Alors bien sûr, ce design qui se veut apaisé (et apaisant) implique aussi de se défaire de certains réflexes de Twitter…

Un homme, blasé, regarde son téléphone : « Mais c'est nul !  J'ai pas accès aux statistiques de vues de mon message ! » La Geekette : « Bah non. C'est pas la course à l'échalote, ici.  Même pour voir le nombre de partages et de likes, il faut cliquer sur le message, c'est pas affiché par défaut. » L'homme : « Mais… et mes shots de dopamine, alors ? »

En même temps, qu’est-ce que c’est reposant, même à un niveau purement technique.

Un homme, détendu allongé sur une chaise longue avec des lunettes de soleil : « C'est pas tous les jours que je vais sur un site avec zéro tracker et zéro pub. » Sur une autre chaise longue, le logiciel uBlock se repose aussi : « Moi, ça me fait des vacances… »

Même les liens sur lesquels vous cliquez ne vous pistent pas, encore une fois contrairement à Twitter.

Gee : « Sur Twitter, vous avez remarqué que le lien affiché n'est pas le même que la vraie destination sur laquelle vous envoie le lien ? » Une image de tweet montre un curseur sur le lien https://ptilouk.net, mais le lien affiché est https://t.co/48ISi6Z34Z. Gee : « C'est parce que tous les liens passent par le domaine t.co qui permet à Twitter de récupérer toujours plus de données comportementales sur vous. »

Après, Mastodon n’est pas non plus un havre de paix et de tranquillité. Le côté microblog encourage toujours les prises de bec et la recherche de la bonne réplique ciselée, au lieu des débats sereins. Même avec une limite de caractères plus haute que sur Twitter.

Un barbu derrière un gros écran cathodique : «Mouais, ceci dit, on s'engueulait déjà en 18 paragraphes de 10 lignes chacun sur les forums phpBB… » Le smiley : « Est-ce que ce ne serait pas encore un cas où le problème se situe entre la chaise et le clavier ? »

On fait également souvent le reproche qu’il n’y a pas d’outil intégré pour faire un « thread », un fil de message continu (il faut répondre manuellement à chaque message).

La Geekette, enthousiaste : « Après, si vous avez tant de trucs à dire d'un coup…  FAITES UN BLOG, BOUDIOU ! »

Pour finir, je ne peux m’empêcher de vous parler de ce que je préfère dans Mastodon, sans aucun doute la killer feature la plus disruptive #StartUpNation, face à laquelle Twitter ne pourra jamais rivaliser : les messages s’y appellent des « pouets ».

Un mec blasé : « Et alors ? » Gee : « Bah c'est rigolo. » Le mec : « Ça fait pas très sérieux. Avec ce genre de bêtise, Mastodon n'ira pas bien loin. J'imagine pas qu'on dise à un community manager « tiens, t'as fait combien de repouets, là ? » Gee : « Tant mieux. »

Oui je sais, la dernière version remplace « pouet ! » par « publier », mais ça restera toujours des pouets dans mon cœur. #TeamPouet

Note : BD sous licence CC BY SA (grisebouille.net), dessinée le 16 novembre 2022 par Gee.

Crédit : Gee (Creative Commons By-Sa)

Et nous vous rappelons qu’il existe un merveilleux guide de découverte de Mastodon et du fédiverse pour vous accompagner sur ce sujet !




De la friture sur le Fediverse ?

Nous vous avons proposé déjà trois articles qui font écho à l’actualité récente autour de Mastodon en voici un 4e, celui d’Aral Balkan, traduit pour vous par Framalang. Le héraut du SmallWeb insiste avec humour sur un point en effet crucial : la taille géante de certaines instances, due à la conception technique même du Fédiverse, risque d’être problématique…

Donc, après :

Voici Is the fediverse about to get Fryed ?

Traduction Framalang :  Claire, Fabrice, goofy, Henri-Paul, jums

Le Fédiverse va-t-il stephenfrire ?

(Ou « Pourquoi chaque pouet est aussi potentiellement une attaque par déni de service »)

par Aral Balkan

bandeau du compte mastodon de Fry, avec sa tête (homme âgé barbu souriant) en médaillon. le compte annonce (au moment de sa capture 5 pouets, 0 abonnements 27 000 abonnés"
Stephen Fry est une célébrité outre-Manche  : écrivain, humoriste, acteur et vedette de la TV (sa page Wikipédia)

 

Stephen est un gros poisson dans une petite mare (oui, j’en ai d’autres en réserve).

Attention : le Fédivers est sur le point de frire. Stephen Fry(re) bien sûr.

À la suite du récent rachat de Twitter par un milliardaire proto-fasciste immature, des gens ont fui2 vers le Fédiverse3. Parmi eux, certains avaient, au moins sur Twitter, des millions de followers, comme Greta Thunberg et, plus récemment, Stephen Fry4

— Eh bien, c’est sûrement une bonne chose, non ? Tout le monde va parler du Fédiverse, de la décentralisation, et peut-être même de ce Small Web dont tu parles tout le temps, Aral, non ?

Eh bien, oui et non… Trop de bonnes choses tue les bonnes choses. Et, dans le Fédiverse actuel, les bonnes choses seraient les « comptes populaires ». En fait, cela pourrait bien être fatal (pour les instances Mastodon). Je vais essayer de détailler dans cet article ce que je veux dire en prenant mon propre compte comme exemple.

Comment tuer un Mastodon(te)

(indice : en étant bavard quand vous êtes populaire)

Inutile de le préciser, je ne suis pas une célébrité.
Et pourtant, dans le Fédiverse, je me retrouve dans une situation un peu unique dans laquelle :

1. J’ai ma propre instance Mastodon, juste pour moi5.
2. Je suis suivi par pas mal de personnes. Plus de 22 000, pour être précis6.
3. Je suis beaucoup de personnes, et j’aime vraiment avoir des conversations avec elles (je pense que c’est ce que les jeunes branchés appellent « l’engagement »).

Malheureusement, la combinaison de ces trois facteurs a créé la tempête parfaite7, ce qui veut dire que désormais, chaque fois que je poste quelque chose qui suscite beaucoup d’engagement, je finis par conduire une attaque par déni de service contre moi-même.

Mastodon : déni de service en tant que service ?

Hier, c’était mon anniversaire.
Et, bien sûr, j’ai posté sur ce sujet depuis mon instance Mastodon.

tête d'Aral qui fait l'andouille sur un pouet de mastodon et demande en anglais : "qui a deux pouces et 46 ans aujourd'hui ?"

J’ai eu pas mal de réponses. Et, pour être poli, j’ai commencé à répondre à tout le monde avec des messages de remerciements. Oh non, mon pauvre naïf ! Qu’est-ce que tu n’avais pas fait ?

Je vais laisser mon ami Hugo Gameiro, qui gère masto.host et héberge mon instance, expliquer ce qui s’est passé ensuite8 :

Vous avez beaucoup d’engagement et cela sollicite beaucoup Sidekiq9.

Prenez, par exemple, votre message d’anniversaire. En plus de demander à des milliers de serveurs de traiter votre demande de réalisation (on appelle ça des « jobs ») pour propager votre message (pour 23 000 abonnés, disons 3 000 serveurs), votre serveur au moment de la création de votre message va créer 3 000 jobs Sidekiq. Et comme votre Sidekiq n’a que 12 threads, traiter 3 000 jobs va prendre du temps puisqu’il ne peut en traiter que 12 à la fois.
Ensuite, pour chaque réponse à ce message, 3 000 jobs sont à nouveau créés, afin que vos abonnés puissent voir votre réponse sans avoir à changer de serveur ou aller sur votre profil. Et puis, si vous répondez à votre réponse, 3 000 jobs supplémentaires sont créés, etc.
Si vous répondez aux 100 réponses que vous avez reçues en 10 minutes (en supposant que l’estimation de mon nombre de serveurs est correcte), vous créez 300 000 jobs Sidekiq. C’est pour cela que ça bouchonne.

Mais qu’est-ce que tout cela veut bien dire, si on omet le jargon technique ?
Eh bien, que je parlais trop en étant trop connu de tous.

tableau de bord de sidekiq avec plusieurs graphiques et des chiffres qui montrent un pic de fréquentation que le logiciel a du mal à traiter
Voilà à quoi ressemble un embouteillage sur Mastodon.

Alors, quelle est la solution ?
Eh bien, il n’y a qu’une chose à faire quand vous vous retrouvez dans ce pétrin : agrandir votre instance Mastodon10. Le problème ? Ça commence à coûter cher.
Avant la dernière migration de Twitter11, je payais environ 280 €/an (un peu plus de 20 €/mois) pour mon instance Mastodon grâce à un partenariat que j’avais avec Hugo depuis le début. Cette semaine, je l’ai agrandie avec un plan à 50 €/mois. Et ce n’est toujours pas assez, comme le montre mon message d’anniversaire, donc Hugo a gentiment suggéré de me proposer un plan sur mesure.
Le problème n’est pas résolu pour autant, il est juste repoussé (sauf si cet article énerve tout le monde, bien sûr).
Heureusement, comme j’ai ma propre instance, la seule personne pénalisée par cette dépense supplémentaire, c’est moi. Mais que se serait-il passé si j’étais sur une instance publique gérée par quelqu’un d’autre ?

Tu déconnes, Elon ?

tweet iroique d'Aral en anglais ; Silicon Vallée : on va rendre les gens dépendants en leur filan des sucreries gratuites pour qu'ils ne se rendent pas compte qu'on les trait comme des vaches à lait / Elon Musk : faisons-les payer 8 dollars par moi pour les sucreries

Si Elon Musk voulait détruire mastodon.social, l’instance phare de Mastodon, il lui suffirait de s’y inscrire12.
Heureusement, Elon n’est pas assez intelligent pour ça.

Je plaisante, bien sûr… Eugen bannirait très probablement son compte dès qu’il le verrait. Mais ça illustre un problème : Elon est facile à bannir. Stephen Fry l’est beaucoup moins. C’est un véritable trésor national pour nous tous. On ne le bannit pas comme ça.
Et pourtant, Stephen peut lui aussi (bien qu’involontairement) coûter très cher aux gens qui gèrent des instances Mastodon, simplement en rejoignant l’une d’elles13..
La solution, pour Stephen tout du moins, est simple : il devrait gérer sa propre instance personnelle.
Ou demander à quelqu’un de le faire à sa place, comme je le fais14.
Gérer sa propre instance apporterait aussi à Stephen un autre bénéfice : il serait automatiquement vérifié. Après tout, si vous parlez à, mettons, @stephen@social.stephenfry.com, vous pouvez être certain que c’est bien lui parce que vous savez qu’il gère son propre domaine.

Des instances personnelles à la rescousse



Mon discours au Parlement européen sur les problèmes avec la Big Tech et les approches différentes que proposent Mastodon, le Fédiverse, et le Small Web.

— Attends, je suis largué… Tu ne viens pas de dire que les instances personnelles étaient une partie du problème ?
— Oui et non : elles le sont et elles ne devraient pas l’être.

Si ActivityPub (le protocole) et Mastodon (un serveur qui adhère à ce protocole) avaient été conçus pour promouvoir la décentralisation, alors avoir plus d’instances sur le réseau ne serait pas un problème. En fait, ça serait même le signe d’un réseau décentralisé sain.
Cependant, ActivityPub et Mastodon ont été conçus de la même manière que la Big Tech / Big Web : pour encourager des services qui hébergent le plus d’utilisateurs15 possible.
Cette architecture est à la fois complexe (ce qui la rend difficile et coûteuse à héberger) et très efficace pour la Big Tech (où les choses sont centralisées et passent à l’échelle verticalement, et où le but est d’avoir / de contrôler / d’exploiter autant d’utilisateurs que possible).
Dans la Big Tech, le coût initial pour passer à l’échelle est subventionné par de nombreuses sociétés de capital-risque (des personnes riches investissant dans de nouveaux business d’extraction et d’exploitation – ce que la Silicon Valley appelle des startups – dans le but de devenir encore plus riches), et ça mène à ces silos géants16 que sont aujourd’hui les Google, Facebook et Twitter.
Toutefois, à la différence de la Big Tech, le but avoué du Fédiverse est de décentraliser les choses, pas de les centraliser. Du coup, comment pourrions-nous atteindre l’opposé des buts de la Big Tech en adoptant leurs architectures de base ?
Lorsque vous adoptez le design de quelque chose, vous héritez aussi des critères de réussite qui ont mené à ce design. Si ces critères de réussite ne correspondent pas à vos objectifs, vous avez un sacré problème.
Pour le dire plus simplement :
N’adoptez pas les critères de réussite de la Big Tech, sinon vous deviendrez la Big Tech.

Ce n’est pas la taille qui compte

Aujourd’hui, il y a une équivalence entre la taille de mastodon.social (l’instance gérée par Eugen) et le succès de Mastodon (le logiciel créé par Eugen). C’est très dangereux. Plus mastodon.social grossit, plus il va ressembler à Twitter.
Je peux presque vous entendre crier : « Mais Aral, c’est fédéré ! Au moins, il n’y a pas de verrous sur mastodon.social ! ».
Et c’est vrai.
Vous savez ce qui est également fédéré ? L’e-mail.
Avez-vous déjà entendu parler de cette petite et vieille instance appelée Gmail ? (Ou peut-être les termes « adopte, étend, étouffe » ?)
Savez-vous ce qui arrive à votre e-mail si Google déclare (à tort ou à raison) que vous êtes un spam ? Personne ne voit votre e-mail.
Vous savez ce qui se passe si mastodon.social bloque votre instance ? Des centaines de milliers de gens (bientôt des millions ?) ne pourront plus décider d’afficher ou non vos messages.
Que se passe-t-il quand votre instance bloque mastodon.social ? Absolument rien.
C’est un réel déséquilibre des puissances.

La décentralisation commence par soi-même

Mastodon est non-lucratif, et je n’ai pas de raison de croire qu’Eugen n’ait pas les meilleures intentions du monde. Et pourtant, la décentralisation commence par se décentraliser soi-même.
C’est dans l’intérêt du Fédiverse que mastodon.social donne le bon exemple en limitant sa taille volontairement.
En fait, ça devrait même être intégré au logiciel. Les instances Mastodon devraient être empêchées de croître au-delà d’une certaine taille. Les instances qui sont déjà trop grosses devraient avoir des moyens d’encourager les gens à migrer vers des plus petites.
En tant que communauté, nous devrions aborder les grandes instances comme des tumeurs : comment pouvons-nous les détruire pour qu’elles ne soient plus un danger pour l’organisme ?
En poussant ce raisonnement, on arrive au concept du Small Web, un internet où nous possédons et maîtrisons notre propre lieu (ou nos propres lieux).

Cliquez sur l’image pour voir une vidéo (sur aperi.tube, une instance PeerTube) : Aral expliquant ce qu’est pour lui le Small Web


Small is beautiful! (Petit c’est mieux) (octobre 2022) : Qu’est-ce que le Small Web et pourquoi en avons-nous besoin ?

 

Cui-cui ?

Je ne dis pas que les protocoles et applications actuels du Fédiverse peuvent, vont, ou même devraient évoluer vers le Small Web17. Pour l’instant, le Fédiverse est un palliatif inestimable qui fournit un lieu plus sûr que les fosses septiques centralisées de la Silicon Valley.

Le temps que durera le palliatif dépendra de notre capacité à résister à la centralisation. Les designs des serveurs et des protocoles qui incitent au passage à l’échelle vertical ne rendront pas forcément cette tâche plus facile. Et pourtant, il y a des moyens de pression sociaux que nous pouvons utiliser pour contrer leurs effets.

La dernière chose qu’on souhaite, c’est qu’une poignée de Zuckerbergs au petit pied gouvernent le Fédiverse. Ou pire encore, que vous deveniez vous-même un de ces mini-Zuckerbergs.

J’aime le fait que le Fédiverse existe. Et j’ai le plus grand respect pour les efforts gargantuesques qui lui sont dédiés. Mais je suis aussi très préoccupé par les décisions prises en termes d’architecture qui incitent à la centralisation, et non à la décentralisation. Je nous implore de reconnaître cela, pour limiter les risques du mieux que nous le pouvons, pour nous efforcer d’apprendre de nos erreurs, et pour faire encore mieux demain.
Gens d’ActivityPub et de Mastodon :
Considérez-moi comme votre canari dans une mine de charbon
« Cui-cui ! Cui-cui ! Cui-cui ! »

 

*Si vous souhaitez soutenir la Small Technology Foundation, qui est sans but lucratif : https://small-tech.org/fund-us




Mastodon, fin de (première) partie ?

L’afflux récent d’inscriptions sur Mastodon, sous forme de vague inédite de cette ampleur, a largement retenti dans les médias.

Beaucoup se sont penchés sur le réseau social fédéré avec une curiosité nouvelle, pour expliquer (parfois de façon maladroite ou fragmentaire, mais c’est habituel18) de quoi il retourne aux nombreux « migrants » qui ont réagi vivement à la prise de contrôle de l’oiseau bleu par E. Musk.

L’événement, car c’en est un tant les réseaux sociaux sont devenus un enjeu crucial, a suscité, et c’est tout à fait sain, beaucoup d’interrogations, mais souvent selon une seule perspective : « Vous venez de l’oiseau qui a du plomb dans l’aile, que pouvez-vous trouver et que devez-vous craindre en vous inscrivant sur Mastodon ? ». Et en effet cela répond plus ou moins à une forte demande.

Cependant il nous est apparu intéressant  d’adopter le temps d’un article une sorte de contre-champ : « que peuvent espérer ou redouter les mastonautes (ben oui on peut les appeler ainsi) avec de massives nouvelles arrivées ? »

C’est ce que propose d’analyser Hugh Rundle dans le billet que nous avons traduit ci-dessous. Il connaît bien Mastodon, dont il administre une instance depuis plusieurs années. Sa position pourra sembler exagérément pessimiste, car il estime qu’il faudra faire le deuil de Mastodon tel qu’on l’a connu depuis les débuts du Fédiverse. Qui sait ce qu’apporteront les prochains mois à la fédération de serveurs minuscules ou obèses qui par leur interconnexion fédèrent des êtres humains, hors de portée du capitalisme de surveillance ? Comme d’habitude, les commentaires sont ouverts et modérés.

Article original sur le blog de l’auteur : Mastodon’s Eternal September begins

Licence CC BY 4.0

L’éternel septembre de Mastodon commence…

par Hugh Rundle

 

Plus personne n’y va. Il y a trop de monde.

Yogi Berra, et alii

Cette fois, on dirait bien que c’est arrivé. Alors que les sites d’information commençaient à annoncer qu’Elon Musk avait finalisé l’achat de Twitter, l’éternel septembre du Fediverse – espéré et redouté en proportions égales par sa base d’utilisateurs existante – a commencé.

Nous avons déjà connu des vagues de nouvelles arrivées – la plus récente au début de cette année, lorsque Musk a annoncé son offre d’achat – mais ce qui se passe depuis une semaine est différent, tant par son ampleur que par sa nature. Il est clair qu’une partie non négligeable des utilisateurs de Twitter choisissent de se désinscrire en masse, et beaucoup ont été dirigés vers Mastodon, le logiciel le plus célèbre et le plus peuplé du Fediverse.

Deux types de fêtes

À Hobart, à la fin des années 1990, il y avait essentiellement trois boîtes de nuit. Elles étaient toutes plus ou moins louches, plus ou moins bruyantes, mais les gens y allaient parce que c’était là que les autres se trouvaient – pour s’amuser avec leurs amis, pour attirer l’attention, pour affirmer leur statut social, etc. Ça, c’est Twitter.

J’avais un ami qui vivait dans une colocation au coin d’un de ces clubs populaires. Il organisait des fêtes à la maison les week-ends. De petites fêtes, juste entre amis avec quelques amis d’amis. Ça, c’est le Fediverse.

Déferlement

Pour ceux d’entre nous qui utilisent Mastodon depuis un certain temps (j’ai lancé mon propre serveur Mastodon il y a 4 ans), cette semaine a été accablante. J’ai pensé à des métaphores pour essayer de comprendre pourquoi j’ai trouvé cela si bouleversant.

C’est censé être ce que nous voulions, non ? Pourtant, ça ressemble à autre chose. Comme lorsque vous êtes assis dans un wagon tranquille, discutant doucement avec quelques amis, et qu’une bande entière de supporters de football monte à la gare de Jolimont après la défaite de leur équipe. Ils n’ont pas l’habitude de prendre le train et ne connaissent pas le protocole. Ils supposent que tout le monde dans le train était au match ou du moins suit le football. Ils se pressent aux portes et se plaignent de la configuration des sièges.

Ce n’est pas entièrement la faute des personnes de Twitter. On leur a appris à se comporter d’une certaine manière. À courir après les likes et les retweets. À se mettre en valeur. À performer. Tout ce genre de choses est une malédiction pour la plupart des personnes qui étaient sur Mastodon il y a une semaine. C’est en partie la raison pour laquelle beaucoup sont venues à Mastodon en premier lieu, il y a quelques années.

Cela signifie qu’il s’est produit un choc culturel toute la semaine, pendant qu’une énorme déferlement de tweetos descendait sur Mastodon par vagues de plus en plus importantes chaque jour. Pour les utilisateurs de Twitter, c’est comme un nouveau monde déroutant, tandis qu’ils font le deuil de leur ancienne vie sur Twitter. Ils se qualifient de « réfugiés », mais pour les habitants de Mastodon, c’est comme si un bus rempli de touristes de Kontiki venait d’arriver, et qu’ils se baladaient en hurlant et en se plaignant de ne pas savoir comment commander le service d’étage. Nous aussi, nous regrettons le monde que nous sommes en train de perdre.

Viral

Samedi soir, j’ai publié un billet expliquant deux ou trois choses sur l’histoire de Mastodon concernant la gestion des nœuds toxiques sur le réseau. Puis tout s’est emballé. À 22 heures, j’avais verrouillé mon compte pour exiger que les abonnés soient approuvés et mis en sourdine tout le fil de discussion que j’avais moi-même créé.

Avant novembre 2022, les utilisateurs de Mastodon avaient l’habitude de dire pour blaguer que vous étiez « devenu viral » si vous obteniez plus de 5 repouets ou étoiles sur un post.

Au cours d’une semaine moyenne, une ou deux personnes pouvaient suivre mon compte. Souvent, personne ne le faisait. Et voilà que mon message recevait des centaines d’interactions. Des milliers. J’ai reçu plus de 250 demandes de suivi depuis lors – tellement que je ne peux pas supporter de les regarder, et je n’ai aucun critère pour juger qui accepter ou rejeter. En début de semaine, je me suis rendu compte que certaines personnes avaient crossposté mon billet sur le Mastodon sur Twitter. Quelqu’un d’autre en avait publié une capture d’écran sur Twitter.

Personne n’a pensé à me demander si je le voulais.

Pour les utilisateurs d’applications d’entreprise comme Twitter ou Instagram, cela peut ressembler à de la vantardise. Le but n’est-il pas de « devenir viral » et d’obtenir un grand nombre d’abonnés ? Mais pour moi, c’était autre chose. J’ai eu du mal à comprendre ce que je ressentais, ou à trouver le mot pour le décrire. J’ai finalement réalisé lundi que le mot que je cherchais était “traumatique”.

En octobre, j’avais des contacts réguliers avec une douzaine de personnes par semaine sur Mastodon, sur 4 ou 5 serveurs différents. Soudain, le fait que des centaines de personnes demandent (ou non) à se joindre à ces conversations sans s’être acclimatées aux normes sociales a été ressenti comme une violation, une agression. Je sais que je ne suis pas le seul à avoir ressenti cela.

Le fait que tous les administrateurs de serveurs Mastodon que je connais, y compris moi-même, aient été soudainement confrontés à un déluge de nouveaux inscrits, de demandes d’inscription (s’ils n’avaient pas d’inscription ouverte), puis aux inévitables surcharges des serveurs, n’a probablement pas aidé. Aus.social a cédé sous la pression, se mettant hors ligne pendant plusieurs heures alors que l’administrateur essayait désespérément de reconfigurer les choses et de mettre à niveau le matériel. Chinwag a fermé temporairement les inscriptions. Même l’instance phare mastodon.social publiait des messages plusieurs heures après leur envoi, les messages étant créés plus vite qu’ils ne pouvaient être envoyés. J’observais nerveusement le stockage des fichiers sur ausglam.space en me demandant si j’arriverais à la fin du week-end avant que le disque dur ne soit plein, et je commençais à rédiger de nouvelles règles et conditions d’utilisation pour le serveur afin de rendre explicites des choses que « tout le monde savait » implicitement parce que nous pouvions auparavant acculturer les gens un par un.

Consentement

Jusqu’à cette semaine, je n’avais pas vraiment compris – vraiment apprécié – à quel point les systèmes de publication des entreprises orientent le comportement des gens. Twitter encourage une attitude très extractive de la part de tous ceux qu’il touche. Les personnes qui ont republié mes articles sur Mastodon sur Twitter n’ont pas pensé à me demander si j’étais d’accord pour qu’ils le fassent. Les bibliothécaires qui s’interrogent bruyamment sur la manière dont ce “nouvel” environnement de médias sociaux pourrait être systématiquement archivé n’ont demandé à personne s’ils souhaitaient que leurs pouets sur le Fediverse soient capturés et stockés par les institutions gouvernementales. Les universitaires qui réfléchissent avec enthousiasme à la manière de reproduire leurs projets de recherche sur Twitter sur un nouveau corpus de pouets “Mastodon” n’ont pas pensé à se demander si nous voulions être étudiés par eux. Les personnes créant, publiant et demandant des listes publiques de noms d’utilisateurs Mastodon pour certaines catégories de personnes (journalistes, universitaires dans un domaine particulier, activistes climatiques…) ne semblaient pas avoir vérifié si certaines de ces personnes se sentait en sécurité pour figurer sur une liste publique. Ils ne semblent pas avoir pris en compte le fait qu’il existe des noms pour le type de personne qui établit des listes afin que d’autres puissent surveiller leurs communications. Et ce ne sont pas des noms sympathiques.

Les outils, les protocoles et la culture du Fediverse ont été construits par des féministes trans et queer. Ces personnes avaient déjà commencé à se sentir mises à l’écart de leur propre projet quand des personnes comme moi ont commencé à y apparaître il y a quelques années. Ce n’est pas la première fois que les utilisateurs de Fediverse ont dû faire face à un changement d’état significatif et à un sentiment de perte. Néanmoins, les principes de base ont été maintenus jusqu’à présent : la culture et les systèmes techniques ont été délibérément conçus sur des principes de consentement, d’organisation et de sécurité communautaires. Bien qu’il y ait certainement des améliorations à apporter à Mastodon en termes d’outils de modération et de contrôle plus fin des publications, elles sont en général nettement supérieures à l’expérience de Twitter. Il n’est guère surprenant que les personnes qui ont été la cible de trolls fascistes pendant la plus grande partie de leur vie aient mis en place des protections contre une attention non désirée lorsqu’elles ont créé une nouvelle boîte à outils pour médias sociaux. Ce sont ces mêmes outils et paramètres qui donnent beaucoup plus d’autonomie aux utilisateurs qui, selon les experts, rendent Mastodon « trop compliqué ».

Si les personnes qui ont construit le Fediverse cherchaient généralement à protéger les utilisateurs, les plateformes d’entreprise comme Twitter cherchent à contrôler leurs utilisateurs. Twitter revendique la juridiction sur tout le « contenu » de la plateforme. Les plaintes les plus vives à ce sujet proviennent de personnes qui veulent publier des choses horribles et qui sont tristes lorsque la bureaucratie de Twitter finit, parfois, par leur dire qu’elles n’y sont pas autorisées. Le vrai problème de cet arrangement, cependant, est qu’il modifie ce que les gens pensent du consentement et du contrôle de nos propres voix. Les universitaires et les publicitaires qui souhaitent étudier les propos, les graphiques sociaux et les données démographiques des utilisateurs de Twitter n’ont qu’à demander la permission à la société Twitter. Ils peuvent prétendre que, légalement, Twitter a le droit de faire ce qu’il veut de ces données et que, éthiquement, les utilisateurs ont donné leur accord pour que ces données soient utilisées de quelque manière que ce soit lorsqu’ils ont coché la case « J’accepte » des conditions de service. Il s’agit bien sûr d’une idiotie complète (les Condition Générales d’Utilisation sont impénétrables, changent sur un coup de tête, et le déséquilibre des pouvoirs est énorme), mais c’est pratique. Les chercheurs se convainquent donc qu’ils y croient, ou bien ils s’en fichent tout simplement.

Cette attitude a évolué avec le nouvel afflux. On proclame haut et fort que les avertissements de contenu sont de la censure, que les fonctionnalités qui ont été délibérément non mises en œuvre pour des raisons de sécurité de la communauté sont « manquantes » ou « cassées », et que les serveurs gérés par des bénévoles qui contrôlent qui ils autorisent et dans quelles conditions sont « excluants ». Aucune considération n’est donnée à la raison pour laquelle les normes et les possibilités de Mastodon et du Fediverse plus large existent, et si l’acteur contre lequel elles sont conçues pour se protéger pourrait être vous. Les gens de Twitter croient au même fantasme de « place publique » que la personne qu’ils sont censés fuir. Comme les Européens du quatorzième siècle, ils apportent la contagion avec eux lorsqu’ils fuient.

Anarchisme

L’ironie de tout cela est que mon « fil de discussion viral » était largement consacré à la nature anarchiste et consensuelle du Fediverse. Beaucoup de nouveaux arrivants ont vu très vite que les administrateurs de leurs serveurs se battaient héroïquement pour que tout fonctionne, et ont donné de l’argent ou se sont inscrits sur un compte Patreon pour s’assurer que les serveurs puissent continuer à fonctionner ou être mis à niveau pour faire face à la charge. Les administrateurs se sont envoyés des messages de soutien privés et publics, partageant des conseils et des sentiments de solidarité. Les anciens partageaient des #FediTips pour aider à orienter les comportements dans une direction positive. Il s’agit, bien sûr, d’entraide.

C’est très excitant de voir autant de personnes expérimenter des outils sociaux en ligne anarchistes. Les personnes intelligentes qui ont conçu ActivityPub et d’autres protocoles et outils Fediverse l’ont fait de manière à échapper à la prédation monopolistique. Le logiciel est universellement libre et open source, mais les protocoles et les normes sont également ouverts et extensibles. Alors que beaucoup seront heureux d’essayer de reproduire ce qu’ils connaissent de Twitter – une sorte de combinaison de LinkedIn et d’Instagram, avec les 4chan et #auspol toujours menaçants – d’autres exploreront de nouvelles façons de communiquer et de collaborer. Nous sommes, après tout, des créatures sociales. Je suis surpris de constater que je suis devenu un contributeur régulier (comme dans « contributeur au code » 😲) à Bookwyrm, un outil de lecture sociale (pensez à GoodReads) construit sur le protocole ActivityPub utilisé par Mastodon. Ce n’est qu’une des nombreuses applications et idées dans le Fediverse élargi. D’autres viendront, qui ne seront plus simplement des « X pour Fedi » mais plutôt de toutes nouvelles idées. Alors qu’il existe déjà des services commerciaux utilisant des systèmes basés sur ActivityPub, une grande partie des nouvelles applications seront probablement construites et exploitées sur la même base d’entraide et de volontariat qui caractérise actuellement la grande majorité du Fediverse.

Chagrin

Beaucoup de personnes ont été enthousiasmées par ce qui s’est passé cette semaine. Les nouveaux arrivants ont vu les possibilités du logiciel social fédéré. Les anciens ont vu les possibilités de la masse critique.

Mais il est important que ce ne soit pas la seule chose qu’on retienne du début de novembre 2022. Mastodon et le reste du Fediverse peuvent être très nouveaux pour ceux qui sont arrivés cette semaine, mais certaines personnes œuvrent et jouent dans le Fediverse depuis presque dix ans. Il existait déjà des communautés sur le Fediverse, et elles ont brusquement changé pour toujours.

J’ai été un utilisateur relativement précoce de Twitter, tout comme j’ai été un utilisateur relativement précoce de Mastodon. J’ai rencontré certains de mes meilleurs amis grâce à Twitter, qui a contribué à façonner mes opportunités de carrière. Je comprends donc et je compatis avec ceux qui ont fait le deuil de leur expérience sur Twitter – une vie qu’ils savent désormais terminée. Mais Twitter s’est lentement dégradé depuis des années – j’ai moi-même traversé ce processus de deuil il y a quelques années et, franchement, je ne comprends pas vraiment ce qui est si différent maintenant par rapport à il y a deux semaines.

Il y a un autre groupe, plus restreint, de personnes qui pleurent une expérience des médias sociaux qui a été détruite cette semaine – les personnes qui étaient actives sur Mastodon et plus largement le Fediverse, avant novembre 2022. La boîte de nuit a un nouveau propriétaire impétueux, et la piste de danse s’est vidée. Les gens affluent vers la fête tranquille du coin, cocktails à la main, demandant que l’on monte le volume de la musique, mettent de la boue sur le tapis, et crient par-dessus la conversation tranquille.

Nous avons tous perdu quelque chose cette semaine. Il est normal d’en faire le deuil.