FramIActu, la revue mensuelle sur l’actualité de l’IA !

Le 30 novembre 2022, la première version publique de ChatGPT apparaissait sur la toile. Presque instantanément, le monde entier découvrit ce nouvel outil, qui semblait alors révolutionnaire.

Dans les bouches de toutes et tous, nous n’entendions plus qu’un terme : Intelligence Artificielle.

S’ensuivit une accélération sans précédent.

Toutes les quelques semaines, une évolution majeure des techniques d’IA était dévoilée. Les géants du numérique, les gouvernements des superpuissances mondiales, tous ont investi rapidement et massivement ce champ de recherche.

À Framasoft, comme pour beaucoup d’autres, l’émergence de l’IA générative fut vécue comme un tsunami.

Seulement deux mois après sa sortie, ChatGPT était déjà utilisé par plus de 100 millions de personnes. C’est le service web au taux d’adoption le plus rapide de l’histoire.

 

Image de type meme.On y voit un tsunami s'abattre sur une personne seule sur la plage. En haut, représentée par le Tsunami, le texte « IA ». En bas, représentée par la personne seule, le texte « Framasoft ».
Le tsunami IA submerge Framasoft. Allégorie.

 

Passées la stupeur et la confusion, nous nous organisâmes, en interne, pour suivre l’actualité délirante de cette technique. Nous voulions mieux comprendre le phénomène et ses implications dans nos vies et il nous fallait, pour cela, suivre attentivement ses évolutions.

Aujourd’hui, nous vous proposons de partager des bouts de cette veille, dans une revue mensuelle.

Celle-ci s’évertuera à, brièvement, mettre en perspective différentes actualités autour de l’IA et ses enjeux dans le rapport entre technologies et société.

Notons que cette revue mensuelle s’intègre dans notre objectif incarné par FramamIA : partager des clés de compréhension de l’IA et de ses implications dans nos vies.

Préparez votre boisson chaude préférée, installez-vous confortablement… bienvenue dans FramIActu !

Le dessin d'un perroquet Ara, avec un remonteur mécanique dans son dos, comme pour les jouets ou les montres. Celui si est assis et semble parler.
Stokastik, la mascotte de FramamIA, faisant référence au perroquet stochastique. Illustration de David Revoy – Licence : CC-By 4.0

Infomaniak est une société suisse proposant des services alternatifs aux géants du Web à travers des offres intéressantes pour le grand public et les entreprises.

En octobre dernier, Infomaniak présentait à la fois son offre d’IA générative à destination de ses publics, mais aussi l’ouverture de leur centre de données dans laquelle les logiciels d’IA sont hébergés.

Celui-ci est présenté comme le plus écologique de Suisse et a été pensé pour revaloriser l’énergie exploitée.

Si cette innovation technique est certes un pas en avant important et pourrait — mais rien n’est sûr — encourager des changements positifs dans le secteur, il n’en est pas moins que la simple création d’un nouveau centre de données pose des questions.

Aucun centre de données n’est écologique.

Donc sa simple construction est à questionner — et peut être approuvée, bien sûr !

De plus, il est courant que ce genre d’avancées techniques provoquent un effet rebond, entraînant progressivement une augmentation du coût environnemental des centres de données : moins un centre de données aura d’impact sur l’environnement, plus on en construira facilement sans se questionner, impactant de fait l’environnement négativement.

 

Trois quarts des personnes privées d’emploi ont recours à l’IA Générative

Une enquête menée par l’Observatoire de l’IA et Emploi (fondé par les associations Diversidays et Konexio, avec le soutien de France Travail et Google.org) indique que trois quarts des personnes privées d’emploi ont recours à des outils d’Intelligence Artificielle Générative pour postuler à des postes.

Cet usage semble donc massif.

Image de type meme. Elle représente le chat du film Astérix et Obélix : Mission Cléopâtre disant « Trois quarts ?! ».

Parmi les raisons expliquées par l’étude, la nécessité, aujourd’hui, d’envoyer en masse des CV et lettres de motivations qui, nous pouvons l’imaginer, sont souvent simplement remplies de banalités que l’IA générative sait très bien formuler, et sans faute typographique, qui plus est !

L’article traite aussi brièvement d’une problématique majeure (qui d’ailleurs est, au moins en partie, responsable de la nécessité de postuler massivement) : l’automatisation des processus de recrutement.

Cette automatisation est d’ailleurs abordée par Hubert Guillaud dans l’infolettre Dans les Algorithmes, dans un article nommé « L’IA ne va pas vous piquer votre job : elle va vous empêcher d’être embauché  ! ».

 

Dans cet article, Martin Clavey fait le point sur les récentes augmentations des besoins en eau et énergie liées à l’IA.

On y découvre notamment la mise en place, au Royaume-Uni, de la première « zone de croissance de l’IA », infrastructure pensée pour offrir un accès privilégié aux ressources en eau et énergie pour les centres de données dédiés à l’IA. L’emplacement choisi pour cette zone accapare un lac de barrage, récemment construit, qui avait initialement pour but de fournir de l’eau potable aux habitant·es du sud-est de l’Angleterre, une des régions du pays les plus vulnérables aux pénuries d’eau.

On imagine assez facilement ces zones essaimer à l’avenir, alors que les conséquences du réchauffement climatique sont de plus en plus ressenties (et particulièrement à travers une raréfaction de l’eau potable).

Mettre la priorité sur la compétitivité dans le secteur de l’IA au détriment d’un des besoins fondamentaux pour une immense partie de la population a donc largement de quoi questionner et souligne, encore une fois, les dangers du système capitaliste.

Image de type meme. Il représente une conversation entre Anakin et Padmé, dans Star Wars 2. Case 1 : Anakin dit « On a construit un nouveau lac de barrage » Case 2 : Padmé, avec un grand sourire, répond « Trop bien ! Il va servir de réserve d'eau potable, hein ? » Case 3 : Anakin la fixe avec un regard sérieux Case 4 : Padmé, inquiète, répète « Il va servir de réserve d'eau potable, hein ? »

La question des conséquences physiques des infrastructures permettant l’IA avait d’ailleurs était abordée lors du festival Le Nuage était sous nos pieds, à Marseille, en novembre dernier.

 

 

Aux États-Unis, à la rentrée 2025, aura lieu l’expérimentation d’une école en ligne, dont l’entité pédagogue sera une IA générative.

Comme souvent dans le discours technophile, cette méthode est supposée apporter un progrès social : l’enfant suivrait un contenu adapté à son niveau, à son rythme, etc.

Unbound Academy Institute, qui propose le dispositif, se vante de permettre aux enfants d’apprendre deux fois plus en moins de temps et de justifier ainsi de pouvoir se passer d’instituteurs et d’institutrices.

Le dispositif inclut cependant, pour le moment, la présence d’adultes pour assister et surveiller les élèves.

Comme on peut le constater depuis l’explosion en popularité des IA génératives, les techniques d’Intelligence Artificielle et notamment génératives tentent de s’introduire dans tous les pans de notre existence.

Hubert Guillaud encore, décrivait, à titre d’exemple, son utilisation dans le Trésor Public.

À chaque fois, les procédés de conception de ces techniques sont opaques et bourrés de biais (dans les jeux de données, dans leur réflexion, etc.). Pourtant, celles-ci sont proposées systématiquement comme les parfaites remplaçantes de toute activité humaine.

On y retrouve le même discours que celui porté par le capitalisme :

  • le progrès technique serait intimement lié au progrès social, et l’un ne peut faire sans l’autre ;
  • nuire à l’innovation technique (en régulant, en la ralentissant, voire en l’empêchant) reviendrait à nuire au progrès social ;
  • être productif, être compétitif, créer de la croissance, serait la seule et unique voie possible pour améliorer les conditions de vie de toutes et tous ;

Pourtant, ce discours semble nier toute réalité, ne serait-ce qu’en prônant l’idée que la croissance économique peut être infinie ou en fantasmant une idéologie bienveillante prégnante chez les tech bros (des hommes aux comportements masculinistes et toxiques, fans de technologie).

 

Le dessin d'un perroquet Ara, avec un remonteur mécanique dans son dos, comme pour les jouets ou les montres. Accroché à son aile gauche, un ballon de baudruche.
Stokastik, la mascotte de FramamIA, faisant référence au perroquet stochastique. Illustration de David Revoy – Licence : CC-By 4.0

Cette première FramIActu se termine !
Nous espérons que vous en avez apprécié la lecture malgré une actualité plutôt… préoccupante !

En attendant la prochaine FramIActu, vous pouvez approfondir vos connaissances sur l’IA en jetant un coup d’œil à FramamIA, notre site conçu pour aider à mieux comprendre cette technique.
Vous pouvez aussi assister à toute notre veille (non-commentée) sur le sujet via notre site de curation dédié !

Si nous pouvons vous proposer cette nouvelle revue mensuelle, c’est grâce à vos dons, Framasoft vivant presque exclusivement grâce à eux !
Pour nous soutenir, si vous en avez les moyens, vous pouvez nous faire un don via le formulaire dédié !

Dans tous les cas, nous nous retrouverons le mois prochain pour un nouveau numéro de FramIActu !




Retours sur les ateliers Nextcloud menés par La Dérivation et l’Établi Numérique

En juin 2024, L’Établi Numérique et la Dérivation annonçaient vouloir organiser des ateliers d’appropriation de Nextcloud, logiciel libre de collaboration. Nextcloud est utilisé par des dizaines de millions de personnes de par le monde. Nous même, à Framasoft, l’utilisons pour Framagenda, Framadrive, et bien entendu Framaspace.

Or, il faut bien reconnaître que Nextcloud est un logiciel difficile à prendre en main, notamment pour les personnes qui le découvre.

Framasoft a donc fait le choix de participer financièrement et techniquement, en soutien à ces ateliers qui nous paraissaient forts utiles. En contrepartie, nous avons demandé aux animateur⋅ices de nous partager publiquement leur expérience. C’est donc ce retour, sous forme d’interview, que vous pouvez lire ci-dessous.


Tout d’abord, est-ce que vous pouvez vous présenter ?

Oui, bien sûr ! Nous sommes trois : Mélissa Richard chargée d’animation numérique pour ritimo, et Romain Renaud et Julie Brillet de la coopérative l’Établi Numérique. Au départ du projet, il y avait aussi Lunar, qui travaillait avec Mélissa au sein de la Dérivation. Tous·tes les quatre avons mobilisé les pratiques d’éducation populaire pour animer formations et ateliers autour des enjeux politiques du numérique et ce, depuis de nombreuses années.

Pourquoi avoir proposé des ateliers Nextcloud ?

Cela fait longtemps que nous militons pour un numérique émancipateur et que nous promouvons les logiciels libres comme un des moyens de sortir de l’emprise du capitalisme de surveillance. Nous utilisons Nextcloud dans un cadre professionnel et militant et avons individuellement développé une expertise sur cet outil, par exemple pour Mélissa en rédigeant la documentation pour Coopaname ou pour Romain en administrant plusieurs serveurs et en accompagnant les personnes utilisatrices.

Nous sommes convaincu·es de deux choses sur Nextcloud :

  • C’est un outil puissant, vraiment adapté au travail collaboratif et qui constitue une alternative intéressante à Google Drive
  • C’est un outil difficile à prendre en main pour une personne néophyte, et qui manque d’ergonomie et d’accessibilité.

Nous avons eu l’impression partagée en 2023 d’être à un moment de bascule. Alors que les problématiques liées aux géants du numérique sont de plus en plus connues, des initiatives réussie dans le champ associatif (Zourit ou Framaligue) et une dynamique poussée par Framasoft (Emancipasso, Framaspace) nous ont fait penser que nos compétences de formation et d’accompagnement seraient utiles.

Comment avez-vous construit ces ateliers ?

Nous avons mis un an à les réfléchir, puisque notre première réunion a eu lieu en visio en juin 2023, puis nous avons alterné des temps de travail en présentiel, en distanciel et en asynchrone pour aboutir à l’organisation de 4 ateliers en juin 2024.

Nous sommes parti·es d’une envie commune pour l’Établi Numérique et la Dérivation de proposer des formations et ateliers autour de Nextcloud, mais en mutualisant nos efforts plutôt qu’en se retrouvant en concurrence. On a commencé avec un partage de nos envies et disponibilités, mais aussi de nos appréhensions et contraintes et on s’est finalement mis d’accord sur la création d’ateliers centrés sur des fonctionnalités du logiciel, qui constitueraient une sorte de parcours de formation.

Lors d’une première journée de travail à Nantes, nous avons continué à travailler en se concentrant sur le public de nos futurs ateliers. Nous avons d’abord identifié différentes étapes de la mise en place d’un Nextcloud dans un collectif, en mettant en regard les besoins de formation ou d’accompagnement avec chaque étape. Nous avons également élaboré une typologie des collectifs concernés. Nous nous sommes concentré⋅es sur un public que nous avons appelé « les éclaireur·ses », c’est-à-dire ces personnes bénévoles ou salariées, convaincues du bien-fondé de l’utilisation de Nextcloud au sein de leur collectif, et qui veulent bien prendre un peu de temps pour se former, afin de pouvoir accompagner les autres bénévoles ou salarié·es. Nous avons plutôt visé des personnes non-informaticiennes, en se disant que des personnes techniques (par exemple administratrices de Nextcloud) auraient plus l’habitude d’être autonomes avec une documentation.

Nous avons ensuite imaginé les besoins de ces personnes éclaireuses, à partir de nos diverses expériences d’utilisation de Nextcloud :

  • En priorité, les notions-clé, indispensables à comprendre : se repérer dans les différentes applications, le partage, les utilisateurices multiples ;
  • Proposer des cas d’usages (« je veux travailler en commission « ) plutôt que des fonctionnalités (« l’application agenda ») ;
  • Savoir comment ranger et comprendre l’arborescence des fichiers;
  • Comment utiliser Nextcloud sur plusieurs périphériques.

Nous avons également établi que ce public cible n’avait pas beaucoup de temps à accorder à la formation sur Nextcloud et avons décidé de partir sur un atelier de 2h en visio. En ce qui concerne le modèle économique, nous avons essayé de trouver un équilibre entre le peu de moyens financiers des public cibles et nos besoins de rémunération. Nous sommes parti·es sur l’idée qu’un atelier de ce type, animé par une personne seule pourrait être payé 250 € HT (300 € TTC) pour des jauges de 6 à 8 personnes. Cela demanderait donc aux collectifs de financer environ 40 € par personne participante. Nous avons par ailleurs réfléchi à comment faire financer ce type d’ateliers par des subventions ou du mécénat. De notre côté, ce tarif est en deçà de nos tarifs habituels, mais l’idée de pouvoir répéter ces ateliers nous permettait d’envisager une rentabilité sur un plus long terme.

Par la suite, nous avons travaillé par binôme sur des déroulés pédagogiques que nous avons ultérieurement mis en commun pour créer un premier prototype d’atelier de prise en main. En parallèle, Framasoft nous a soutenu financièrement à hauteur de 1000 €. Nous avons décidé de nous jeter à l’eau en proposant 4 ateliers gratuits pour tester grandeur nature notre premier déroulé (https://dérivation.fr/evenement/atelier-dappropriation-de-nextcloud/).

Comment avez-vous préparé ces ateliers ?

En amont, Framasoft nous a créé un espace Framaspace qui nous a servi de bac à sable pendant ces ateliers. Nous y avons créé des comptes pour chacune des personnes inscrites, en les groupant par atelier.

Nous avons aussi testé les différents outils de visio à notre disposition. Nous cherchions un outil libre qui ne nécessite pas d’installation de logiciel et qui permette de créer des sous-salles. Nous avons testé BigBlueButton et Jitsi. Nous avons privilégié ce dernier puisque la fonction des sous-salles, ajoutées dans les derniers versions du logiciel, génère moins de frictions côté utilisateur·ices que sur BigBlueButton (où il faut à chaque fois accorder l’autorisation au micro et à la caméra).

Nous avons assez facilement rempli les ateliers avec une communication ciblée dans nos réseaux. Nous avons bien rappelé les pré-requis : avoir déjà utilisé Nextcloud au moins une fois, rejoindre l’atelier depuis un ordinateur, être à l’aise pour utiliser un navigateur Web avec plusieurs onglets et avoir l’habitude de faire des visios (l’utilisation des caméras étant facultative).

Comment concrètement se passaient ces ateliers ?

Nous avons décidé d’animer en binôme chacun des ateliers, pour plus de confort mais aussi avoir des regards croisés sur chaque atelier. La jauge était de 8 personnes participantes, nous avons assez vite augmenté ce nombre car nous avions systématiquement quelques absent·es.

Chaque atelier durait deux heures et se déroulait de la façon suivante :

  • 10 minutes pour accueillir les personnes, vérifier leur accès au framaspace, présenter les animateurices et l’atelier ;
  • 15 minutes de transmission théorique que nous avons au fil du temps réduites à quelques minutes axées uniquement sur la fonction de partage des fichiers ;
  • 40 minutes de jeu de piste pendant lequel les personnes doivent effectuer un certain nombre d’actions (renommer un fichier, ajouter une image dans un dossier, la partager…) listées dans un fichier texte. Chacun·e allait à son rythme et nous aidions en cas de difficulté, y compris en proposant à certain·e personnes d’aller dans une sous-salle de Jitsi avec un·e des animateur·ices en cas de besoin
  • 30 minutes de jeu de rôle pendant lequel nous scindions le groupe en deux dans des sous-salles. Chaque sous-groupe devait organiser un événement pour un collectif imaginaire et utiliser Nextcloud pour ce faire.Le rôle de l’animateur·ice était alors de les guider sur quelques tâches à faire si jamais le groupe patinait un peu, mais en les laissant libres sur les modalités d’organisation.
  • 15 minutes à nouveau avec tout le monde pour partager les réussites et difficultés du jeu de rôles.
  • 10 minutes de bilan général de l’atelier

 

 

Quels ont été les retours ?

Nous avons eu beaucoup de plaisir à animer ces ateliers ! Les méthodes pédagogiques prévues ont fonctionné, les participant·es se sont vraiment pris au jeu et ont été surpris·es par la forme.

  • C’est super que je puisse trifouiller sans risque !
  • Je vais pouvoir encore plus dégoogliser mes pratiques.
  • Aaaah, mais on peut faire ça avec Nextcloud !

 

(Retours de quelques participant·es)

Pour autant, tout n’était pas parfait. Nous avons par exemple découvert certaines limitations techniques que nous ne connaissions pas, il y a eu quelques bugs (mais qui n’en a pas en visio ?) et il est arrivé que la dénomination de certains éléments de Nextcloud prête à confusion.

Par ailleurs, nous nous sommes rendu⋅es compte qu’il serait compliqué d’animer un atelier avec ce déroulé sans co-animation, ce qui venait reposer la question de la rentabilité économique de ce type d’ateliers.

Et maintenant, comment on se forme à Nextcloud ?

Nous n’avons pas reproduit ces ateliers car leur but premier était de tester une méthode d’animation à réutiliser dans une formation plus longue. Notre expérimentation étant concluante, nous allons pouvoir la mettre en œuvre les 15 et 16 avril 2025, dans une formation « Travailler en équipe avec Nextcloud » organisée par ritimo et animée par Romain et Mélissa. Les inscriptions sont ouvertes !

Nous avons également produit d’autres dispositifs d’autoformation, déjà déployés (comme cette vidéo d’onboarding) ou à venir très bientôt sur Framaspace.




Open Terms Archive : rendre transparentes les modifications de CGU

Les CGU (« Conditions Générales d’Utilisation »), c’est long, c’est en langage juridique… Bref, c’est chiant !

Du coup, quasiment personne ne les lit. Et c’est problématique. Car il s’agit du contrat qui vous lie à la plateforme.

Nous avions d’ailleurs fait l’expérience pour un premier avril il y a quelques années à Framasoft : nos CGU ont contenu, pendant quelques jours, une clause comme quoi tout⋅e utilisateur⋅ice de nos services acceptait de nous offrir son âme pour une période indéfinie. Autant vous dire qu’on les a toujours, ces plus de 50 000 âmes collectées, même si on ne sait plus trop où on les a rangées. 🤔 😅

 

L'artiste Dima Yarovinsky devant les versions imprimées de CGU de différentes plateformes
L’artiste Dima Yarovinsky devant les versions imprimées de CGU de différentes plateformes.

 

Avec les consolidations des positions de Trump, d’Elon Musk et d’autres, la fascisation du web (en tout cas celle de ses grandes plateformes) se révèle au grand jour de manière de plus en plus décomplexée. Ainsi, début janvier 2025, c’est Meta (maison mère de Facebook, Instagram et WhatsApp) qui a réécrit la section « discours haineux » de ses standards de la communauté, élargissant ainsi considérablement le contenu autorisé sur ses plateformes Facebook, Instagram et Threads.

Bien entendu, la presse (et pas que) en a largement parlé. Mais pour bien en parler, il faut pouvoir objectiver ces changements : qu’est-ce qui a été supprimé ? Qu’est-ce qui a été ajouté ? Dans quel contrat ? À quelle date ?
Et là, souvent, ça devient compliqué à suivre.

Heureusement, l’initiative « Open Terms Archive » vise à rendre cela plus transparent, en traçant ces modifications de contrat de la même façon qu’on peut tracer les modifications de code d’un logiciel sur une forge.

L’équipe de ce projet (qui, en toute honnêteté, était demeuré en dehors de nos radars) a accepté de répondre à nos questions. Merci à elles et eux !

Framasoft : Commençons par le début : c’est quoi Open Terms Archive ?

Équipe Open Terms Archive : Open Terms Archive est un commun numérique dont l’objet est de rendre transparentes les conditions d’utilisation et autres politiques des services digitaux. Souvent, les grandes plateformes (réseau social, vente en ligne, rencontre…) profitent d’une grande opacité dans leurs conditions d’utilisation. Nous permettons aux régulateurs, aux associations d’utilisateurs, activistes, journalistes, organismes de recherche etc. de suivre facilement les évolutions de ces documents et ainsi repérer en temps réel les modifications importantes.

Open Terms Archive organise les services suivis en collections. Les collections sont créées et maintenues par des groupes ayant un intérêt commun pour suivre les conditions d’utilisation de services dans des industries, langues et juridictions spécifiques. Chaque collection rassemble plusieurs services, et au sein de chaque service on peut suivre plusieurs types de documents contractuels. Par exemple, la collection Platform Governance Archive s’intéresse aux principaux médias sociaux, comme Instagram ou X (ancien Twitter). Pour chaque service, plusieurs types de documents contractuels sont suivis, comme les standards de la communauté, les conditions générales d’utilisation et la notice de traitement des données personnelles, entre autres.

Page d'accueil du site Open Terms Archive
Page d’accueil du site Open Terms Archive

 

L’initiative Open Terms Archive n’est pas sans rappeler celle de « Terms of Service, Didn’t Read » – Vous connaissiez ce projet ? Quelles différences identifiez-vous entre les deux ?

Nous travaillons avec ToS;DR depuis le début d’Open Terms Archive ! ToS;DR est un outil à destination des utilisateurs finaux, qui a pour objectif de faire noter par la foule le respect des utilisateurs par les services en ligne. Les conditions d’utilisation et autres documents contractuels sont la source de ces notes. ToS;DR s’appuie depuis quelques mois sur Open Terms Archive pour collecter les documents qui sont ensuite notés. La bascule depuis le moteur historique vers Open Terms Archive a été financée par une bourse du fonds européen NGI Zero Entrust.

Qui est derrière OTA ? Comment fonctionnez-vous ?

Open Terms Archive est un commun numérique incubé au sein de l’incubateur de services numériques du ministère des affaires étrangères. Ce projet est notamment financé par la direction du numérique du ministère, et soutenu par l’ambassadeur pour le numérique. Il est en cours d’autonomisation pour s’établir en tant qu’organisation de la société civile en 2025, probablement sous la forme d’une association loi 1901. Open Terms Archive est également en partie financé par des fonds européens tels que NGI et des fondations comme Reset.tech. Tout notre budget est public et transparent.

De même, l’ensemble de l’équipe d’Open Terms Archive est présentée sur notre site web. Cette équipe construit et déploie le logiciel et accueille le travail des bénévoles et des partenaires qui créent et maintiennent les collections. Sans eux, Open Terms Archive ne collecterait pas grand-chose !

Récemment, OTA a pris une position claire concernant le fait que Meta (Facebook, Instagram, Whatsapp) retirait un certain nombre de protections concernant les discours haineux sur ses réseaux. Pouvez vous nous en dire plus ?

Open Terms Archive fait apparaître les modifications des CGU de Meta. En rouge, les suppressions, en vert, les ajouts. On peut y lire "Nous autorisons les allégations de maladie mentale ou d’anormalité lorsqu’elles sont fondées sur le genre ou l’orientation sexuelle, compte tenu du discours politique et religieux sur le transgendérisme et l’homosexualité
Open Terms Archive fait apparaître les modifications des CGU de Meta. En rouge, les suppressions, en vert, les ajouts. On peut y lire « Nous autorisons les allégations de maladie mentale ou d’anormalité lorsqu’elles sont fondées sur le genre ou l’orientation sexuelle, compte tenu du discours politique et religieux sur le transgendérisme et l’homosexualité (ligne 1346) ». Source : fichier git en ligne.

 

Open Terms Archive ne prend pas de position. Tous nos mémos sont uniquement des descriptions aussi neutres que possible des changements qui sont détectés, pour les rendre plus compréhensibles par le grand public. Ces mémos sont rédigés par des contributeurs tiers ou exceptionnellement par l’équipe elle-même, en suivant des règles de rédaction claires. Nous tenons à maintenir cette neutralité, car il est important pour nous de pouvoir collaborer avec l’industrie pour la standardisation des formats des documents contractuels.

La diffusion de ces mémos par les individus et partenaires peut ensuite s’accompagner d’un message plus orienté, qui leur revient. Dans le cas spécifique des changements des standards de la communauté de Meta, nous avons fait le choix de ne pas hésiter à laisser les membres de l’équipe diffuser eux-mêmes des messages non neutres, en raison de l’importance des changements et du contexte général de transformation très rapide des politiques des big tech depuis l’élection de Donald Trump aux États-Unis.

À moyen/long terme, comment envisagez-vous l’avenir de OTA ?

Avant tout, nous espérons que les données produites seront exploitées par les acteurs capables d’influencer les plateformes pour qu’elles respectent plus leurs utilisateurs : les régulateurs, les parlementaires, les associations de protection des consommateurs, et les journalistes. C’est ce que nous expliquons dans notre modèle d’impact.

Nous espérons bien évidemment couvrir un nombre croissant de services, de juridictions, de langues, et de types de documents contractuels, mais la collecte de ces données est d’abord un moyen de renforcer la capacité de ceux qui disposent d’un pouvoir réel face aux grands acteurs du numérique. Des projets qui s’appuieraient sur nos API seraient également très bienvenus à cette fin !

L’autonomisation d’Open Terms Archive, prévue cette année, constitue une étape clé dans le développement de notre organisation. Nous envisageons de nous établir en tant qu’association loi 1901 pour continuer à promouvoir la transparence des plateformes numériques et consolider nos actions en tant qu’acteur de l’intérêt général. Pour réussir cette transformation, nous nous appuyons sur nos partenaires actuels et souhaitons en développer de nouveaux.

Identifiez-vous des besoins (financiers, humains, autres) qui pourrait vous aider à atteindre votre objectif ? Peut-on vous aider (et si oui comment) ?

En premier lieu, nous cherchons toujours des personnes pour contribuer à l’amélioration du suivi des documents existants ou à l’ajout de nouveaux documents. Cela peut se faire facilement pour les personnes ayant des compétences techniques type développement web, ou même sans. De nombreuses collections pourraient bénéficier d’un peu d’aide, comme par exemple la collection des principaux services français, celle des applications de rencontre ou encore celle des services publics français. Nous organisons des rendez-vous mensuels en visio pour commencer à contribuer 🙂 Rejoignez notre communauté pour obtenir de l’aide !

Au-delà du suivi des documents, les analyser et produire des mémos pour traduire les changements détectés en des articles compréhensibles par le grand public est tout aussi important ! Là encore, notre documentation explique comment faire et rejoindre notre communauté vous aidera à démarrer 😃

Il est également possible et utile de contribuer financièrement à la maintenance de ces collections : les dons permettent de payer les serveurs et le travail d’un community manager technique qui prend en charge les relectures des contributions pour en garantir la qualité.

 

Soutenir Open Terms Archive sur OpenCollective
Soutenir Open Terms Archive sur OpenCollective

 

La question financière reste évidemment critique pour maintenir l’activité de l’équipe cœur et garantir ainsi la disponibilité et l’évolution du logiciel, le support, l’adoption et la valorisation des données pour faire évoluer la gouvernance des plateformes. Nous cherchons donc en permanence des partenaires et des financeurs. Si vous connaissez des organisations intéressées, faites-nous signe (contact@opentermsarchive.org) !

Dernière question, traditionnelle : y a-t-il une question que l’on ne vous a pas posée ou un élément que vous souhaiteriez ajouter ?

Open Terms Archive est reconnu comme Digital Public Good (« bien commun numérique ») par la DPGA, une initiative de l’ONU pour distinguer des logiciels libres avec une gouvernance ouverte qui participent à accomplir les objectifs de développement durable. On avait envie de partager cette initiative car elle est alignée avec nos valeurs, elle met en avant d’autres beaux outils, et qu’elle nous a bien aidé en nous permettant par exemple d’être distingué comme outil de lutte contre les manipulations de l’information lors du Sommet du Prix Nobel 2023 ! Si vous opérez des logiciels qui répondent à ces critères, on vous encourage à vous en rapprocher !




Open Source, l’IA ?

Cet article est une republication, avec l’accord de l’auteur, Hubert Guillaud. Il a été publié en premier le 04 juin 2024 sur le site Dans Les Algorithmes sous licence CC BY-NC-SA.


Avatar de Hubert Guillaud
Hubert Guillaud

 

On parle beaucoup des données d’entraînements de l’IA générative, mais sans exactement comprendre ce que ces données d’entraînement recouvrent. Et pour cause : les grands modèles de l’IA générative ne communiquent pas sur les données d’entraînements qu’ils utilisent et, du fait de la taille de ces jeux de données, la compréhension de leurs failles et limites, est difficile à saisir. Cette semaine, on vous invite à saisir les limites de l’IA dite « open source » en regardant comment ces jeux de données sont utilisés et comment ils agissent.

Mettez votre casque de spéléologue et plongez dans une des grandes bases d’images qui façonnent l’IA, Laion 5B !

 

 

 

 

Les progrès ultrarapides de l’IA semblent de plus en plus reposer sur l’open source, c’est-à-dire sur le fait que des milliers de personnes participent à sa conception et que les progrès des uns puissent être rapidement assimilés pour renforcer le progrès des autres. L’open source semble même promettre de devenir la principale modalité de régulation des IA, produisant une gouvernance de facto, purement technique, comme s’en inquiétait le chercheur Bilel Benbouzid il y a quelques mois – au risque de dévitaliser toutes les autres modalités de gouvernance disponibles !

Le problème, c’est que cette approche par l’open source relève bien plus d’un mode de collaboration distribué que de la définition canonique de l’open source. Elle repose sur une définition mouvante, changeante, à géométrie variable, estime le journaliste scientifique Edd Gent pour la Technology Review. Chaque acteur semble pouvoir adapter le concept à ses propres besoins et, plus que permettre les contributions d’innombrables acteurs, l’open source semble de plus en plus consolider la domination des principaux acteurs du secteur. Le problème n’est pas les grands principes fondamentaux de l’open source, balisés depuis longtemps, que leurs applications pratiques. La plupart des grands acteurs de l’IA publient leurs modèles en open source, enfin, sur le papier… Car ces modèles sont-ils vraiment en open source ? Llama 2 de Meta et Gemini de Google, sont tous deux publiés avec des licences qui restreignent ce que les utilisateurs peuvent faire avec ces modèles, ce qui est un anathème vis-à-vis des principes de l’open source, qui interdit l’imposition de toute restriction basée sur les cas d’utilisation. Si les modèles sont accessibles et réutilisables, nombre d’informations sur leurs fonctionnements ne le sont pas, comme les données d’entraînements, les poids donnés à ces données ou encore les mesures prises pour atténuer leurs biais ou leurs réponses.

Le concept de l’open source a été conçu pour garantir que les développeurs puissent utiliser, étudier, modifier et partager des logiciels sans restrictions. Mais ces concepts clés ne se traduisent pas parfaitement du logiciel à l’IA, explique Stefano Maffulli de l’Open source initiative (OSI), notamment du fait de la très grande imbrication des systèmes entre eux. L’un des grands obstacles à la publication ouverte est lié aux grands nombres d’ingrédients qui entrent dans la composition des modèles d’IA actuels, qui peuvent aller du code source, à l’accès au modèle entraîné, à ses données d’entraînement, aux codes utilisés pour prétraiter ces données… et plus encore à des traitements provenant d’autres IA. C’est un peu « comme si on avait défini des libertés fondamentales, sans que les mécanismes qui permettent d’exercer ces droits ne soient clairs ». Pour l’instant, l’accès aux modèles d’IA générative alimente l’innovation, mais si les grandes entreprises changent de politique, elles pourraient refermer ces accès et impacter toutes les applications qui reposent sur ces modèles.

Ouvert, fermé, semi-ouvert… mais qu’attend-on de l’IA open source ?

Dans ces accès plus ou moins ouverts, toujours partiels, les données constituent de loin le plus gros point de friction. Toutes les grandes sociétés d’IA ont simplement publié des modèles pré-entraînés, sans donner accès aux ensembles de données sur lesquels ils avaient été formés. Ce qui restreint sérieusement les possibilités de modification et d’étude des modèles et les déqualifie pour être qualifié d’open source.

L’accès à des données de formation de haute qualité et ouvertes constitue à la fois le goulot d’étranglement de la recherche en IA et l’avantage concurrentiel de chaque modèle. Cette conception restrictive de l’open source assure à la fois une forme de bonne réputation et de l’autre, permet à ces entreprises d’économiser des milliards en coûts de développement tout en permettant d’améliorer la qualité de leurs systèmes en développant des écosystèmes puissants autour de leurs solutions, comme le pointaient récemment des économistes de Harvard, à l’image d’Android de Google qui a permis à l’entreprise d’obtenir une position dominante dans le domaine du smartphone. L’open source permet de standardiser très rapidement les développements et facilite l’intégration de nouvelles solutions.

Sarah Myers West, codirectrice de l’AI Now Institute, rappelle que la plupart des projets d’IA open source ne sont pas très ouverts, même si des barrières structurelles plus profondes, notamment en termes de puissance économique des acteurs, de quantité de données ou de puissance de calcul entrent également en compte. Pour la chercheuse, il y a également un manque de clarté sur ce qu’on attend de l’IA open source : est-ce de renforcer la sécurité ? La responsabilité ? De favoriser l’écosystème ? La concurrence ? Ou le monopole des plus grands acteurs ?…

Pour l’OSI, les questions sur l’utilisation ne doivent pas concerner la communauté open source. Pourtant, le débat est bien là. Penser que la technologie est neutre du moment qu’elle est open source alors que ses enjeux, comme l’éthique, sont hors de portée des principes de l’open source, tient du mythe explique Zuzanna Warso, responsable de la recherche à Open Future.

En 2022, des chercheurs ont introduit les licences d’IA responsables (RAIL) qui sont similaires aux licences open source, mais incluent des clauses pouvant restreindre des cas d’utilisation spécifique, explique Danish Contractor qui a œuvré à leur mise en place. 28% des modèles d’IA open source utiliseraient les licences RAIL. La licence Google attachée à Gemmi énumère également des cas d’utilisation interdits. Le Allen Institute for AI a développé des licences ImpACT qui restreignent la redistribution des modèles et des données en fonction de leurs risques potentiels… Avec le danger que la multiplication de licences spécifiques génèrent des systèmes incompatibles entre eux et freinent l’ouverture actuelle…

Le débat n’est pas sans rappeler celui sur la démultiplication des licences libres qu’on avait évoquées il y a quelques années, qui interrogeait déjà l’éthique comme l’économie du libre.

Suite à un atelier sur la responsabilité des modèles ouverts, un récent travail d’un aréopage de chercheurs s’est penché sur l’impact social de l’ouverture des modèles de fondation. Selon ces chercheurs, les risques liés à l’utilisation de ces modèles proviennent principalement du fait que les développeurs abandonnent le contrôle sur qui peut les utiliser lorsqu’ils sont publiés en open source. Ils proposent de les analyser selon une grille des risques potentiels et invitent leurs développeurs à clarifier les responsabilités entre les développeurs et les utilisateurs de ces modèles et les régulateurs à accélérer sur l’évaluation des risques.

Le risque, à défaut de publier leurs données d’entraînements, c’est que les règles de fonctionnement se démultiplient selon les outils, selon des modalités plus translucides que transparentes, à l’image d’OpenAI, qui a dévoilé récemment certaines des règles de fonctionnement de son chatbot qui tiennent plus de règles de comportements pour ceux qui l’utilisent comme pour le chatbot… Par exemple, afin qu’il ne donne pas de solutions toutes faites, mais guide l’utilisateur pour l’inciter à les trouver lui-même. Bref, l’enjeu de l’open source se brouille à mesure que celle-ci devient de plus en plus une modalité de publication en clair-obscur qu’une assurance de transparence totale et entière.

Le nœud gordien des données d’entraînement

L’enjeu de l’ouverture des données d’entraînement semble rester au cœur du problème, car tant qu’on ne sait pas sur quoi s’entraînent les modèles, difficile de saisir leurs lacunes.

Si aucun modèle d’IA n’a pour l’instant listé précisément depuis quelles données leurs modèles sont formés, l’on sait qu’une importante ressource pour plusieurs d’entre eux (notamment pour Google et Meta) repose sur Common Crawl, un répertoire de données géant qui se présente comme « libre et ouvert ». Le problème, c’est que nombre de contenus de Common Crawl ne sont ni libres ni ouverts, mais scrappés, aspirés depuis l’internet sans avoir obtenu le consentement des acteurs qui les ont produits. Dans cet immense répertoire du web, on trouve à la fois Wikipédia, de grands sites de presse ou des livres piratés… Si le droit d’auteur n’y est pas respecté, c’est parce que sous couvert du « fair use » américain – cet usage raisonnable des contenus soumis au droit d’auteur – le droit d’auteur comporte des exceptions, comme celui de pouvoir utiliser des contenus sous droits pour en produire autre chose mais sans y donner accès… Ce qui laisse à penser que, pour l’instant, le droit d’auteur n’est pas vraiment un obstacle au déploiement l’IA. C’est cet « usage raisonnable » que les éditeurs d’IA mobilisent pour capter des contenus sur lesquels ils n’ont pas les droits, même si on constate désormais que pour se prémunir et s’assurer de résultats à jour, les acteurs de l’IA générative se mettent à proposer des compensations financières aux éditeurs de presse, notamment, pour accéder à des contenus à jour et de qualité, permettant d’améliorer les réponses de leurs IA.

Dans une enquête approfondie sur Common Crawl, la fondation Mozilla rappelle que ce scrapping d’internet est né en 2007 avec pour ambition de mettre à disposition un immense répertoire comme seules les grandes entreprises du net avaient alors accès. Le but de Common Crawl n’était pas de produire une IA responsable, mais simplement de fournir des données massives. Ainsi, Common Crawl ne supprime pas les discours de haine qu’il amasse, ni les contenus sous droits… Il moissonne sans aucune autre préoccupation. Common Crawl ne contient ni l’intégralité du web ni même un échantillon « représentatif » de celui-ci. Sa couverture linguistique est très anglophone et un nombre croissant de domaines refusent désormais leur indexation (comme Facebook ou le New York Times, même si on trouve des versions anciennes du New York Times dans Common Crawl). Si on cherche à l’utiliser comme source pour former une IA générative, Common Crawl doit être utilisé avec prudence et beaucoup utilisent des versions filtrées ou produisent des filtres – trop souvent simplistes… Pour Mozilla, Common Crawl devrait pourtant travailler à mieux mettre en évidence les limites et biais de sa base. Mozilla invite d’ailleurs les créateurs d’IA à travailler plus ouvertement sur les questions de filtrages de données qui se font trop souvent à la serpe.

Capture d'écran de la page web de l'analyse de l'impact de Common Crawl par Mozilla.
« Des données d’entraînements pour le prix d’un sandwich », l’analyse de l’impact de Common Crawl par Mozilla.

 

Comme le montrent les limites de Common Crawl, l’enjeu à produire un répertoire de données d’entraînement libre et ouvert reste entier. Le lancement récent de Common Corpus, un corpus de textes pour l’IA relevant entièrement du domaine public, coordonné par la startup française Pleias, apporte enfin une base de données d’entraînement responsable, rapporte Wired. Certes, le modèle ne donne pas accès à des contenus récents puisque ses contenus de sources libres de droit, mais cela pourra être ajouté par des accords de gré à gré avec des éditeurs, voire des accords de gestion collective avec des représentants de la presse ou de l’édition.

La question de la transparence des données d’entraînement progresse donc… à petit pas, sans que le législateur ne se soit hélas saisi de cette demande récurrente pour l’imposer. Mais même en imposant la transparence des données d’entraînement, il faut comprendre que ce qu’elles représentent n’est pas si simple à faire parler.

Comprendre les limites des données d’entraînement : l’exemple de Laion-5B

Le programmeur et data journalist Christo Buschek et l’artiste Jer Thorp ont publié une analyse dans une forme très visuelle de l’un des jeux d’entraînement phare de l’IA générative : la base d’images Laion-5B. Laion-5B est un très grand ensemble (5B signifie 5 billions c’est-à-dire 5 milliards) open source d’images légendées de texte extraits d’Internet, conçu pour les grands modèles d’IA. Il a été publié en 2022 par Laion, une organisation allemande à but non lucratif. Midjourney et Stable Diffusion, deux des grands modèles de l’IA générative d’images, sont, par exemple, en partie entraînés sur Laion-5B (même si on ne connaît pas toutes les sources de leurs données d’entraînement) et les contenus qui forment Laion-5B sont en partie extraits de Common Crawl.

La base d’image de Laion-5B contient donc des images en provenance du web, mais certains sites web y sont plus représentés que d’autres. C’est le cas de Pinterest par exemple, qui propose 155 millions d’images (avec leurs légendes), soit environ 1/40e des contenus de la base. 140 millions d’images (2,4%) viennent de Shopify, la plateforme pour créer des sites de commerce en ligne. 72 millions viennent de SlidePlayer, une plateforme de partage de présentations PowerPoint. Si ces sites sont très représentés dans Laion, c’est parce qu’ils hébergent beaucoup d’images et également parce que leurs images sont souvent décrites, via des légendes ou la balise ALT, une balise de description des images initiée pour améliorer l’accessibilité des sites web en permettant d’avoir une description de celles-ci pour ceux qui ne peuvent pas les voir. On estime que moins de 40% des images sur le web ont cette balise renseignée, mais pour ces 3 sites, le pourcentage est bien plus élevé (SlidePlayer ajoute des balises ALT en utilisant les textes des présentations, Pinterest pousse ses utilisateurs à renseigner leurs images pour gérer leurs collections et sur Shopify, les vendeurs les renseignent pour améliorer leur référencement). Reste que ces descriptions n’en sont pas toujours, on le comprend avec l’exemple de SlidePlayer qui automatise une description d’image avec du texte qui ne lui correspond pas nécessairement. « La balise ALT décrit bien plus ce que le propriétaire du site veut que l’algorithme lise de son image que ce que les humains y voient », soulignent Buschek et Thorp. Par exemple, dans Shopify, la description d’une image de lunettes va avoir tendance à décrire le produit, plus que la personne qui les porte. Au final, ces descriptions contiennent peu d’informations sur la façon dont les humains voient le monde et bien plus sur la façon dont les moteurs de recherche voient le monde. Il s’agit d’ensembles de données fortement façonnés par les logiques commerciales.

Image d'illustration des problèmes d'étiquetage, extraite de l’analyse de Laion par Christo Buschek et Jer Thorp.On voit une photo de femme en maillot et lunettes de soleil à gauche, et l'Alt Text généré à droite, indiquant : "Heart Shaped Sunnies - Chynna Dolls Swimwear"
Le texte de la balise ALT qui décrit l’image de gauche extraite d’un magasin de Shopify ne décrit pas vraiment l’image… Il balise uniquement le produit « Lunettes de soleil en forme de cœur, maillots de bain Chynna Dolls ». Image extraite de l’analyse de Laion par Christo Buschek et Jer Thorp.

 

Un élément clé de la construction de LAION-5B consiste à sélectionner des images et des légendes associées dans Common Crawl, ou l’attribut ALT correspondrait le plus au contenu de l’image. Pour cela, les développeurs de Laion ont utilisé un réseau neuronal d’OpenAI, CLIP, qui permet d’obtenir un score de similarité entre l’image et sa balise – ce score de similarité étant lui-même produit depuis une comparaison avec des images légendées d’ImageNet, un des projets fondateurs de l’IA.

Rappelons qu’ImageNet initié dès 2006 par celle devenue la responsable de l’IA à Stanford, la professeure Fei-Fei Li, a été la première grande base de données d’images labellisées par des travailleurs du clic grâce à l’utilisation du Mechanical Turk d’Amazon, selon des catégorisations réductionnistes et problématiques, comme le dénonçait la chercheuse Kate Crawfordmontrant que les descriptions d’images regorgeaient de stéréotypes et d’absurdités.

Buschek et Thorp ont alors regardé les images exclues et incluses par Laion. Visiblement la similarité est forte quand il y a un texte dans l’image qui correspond à la balise (comme pour l’image d’un panneau « stop » avec une balise de texte correspondant). Comme souvent dans les distributions, les scores de similarité sont très inégalement répartis et un petit changement dans la limite de similarité basse choisie par Laion pour incorporer ou non des images conduit à ajouter ou supprimer des centaines de millions d’images. Dans ce score de similarité entre le texte et l’image, l’essentiel des images ont en fait une assez mauvaise note. Très peu d’images obtiennent un score au-dessus de 0,5 (sur un score allant de -1 à 1) : cela n’arrive que pour 22 645 images sur 5,85 milliards ! Les taux de similarité retenus semblent surtout l’avoir été pour donner de l’ampleur à la base, plus que pour s’assurer de la qualité des descriptions. Laion reste un jeu de données purement construit pour l’IA générative, massif plus que de qualité. Les balises descriptives des images demeurent donc souvent de très mauvaise qualité, comme si l’important était surtout que la balise ALT contienne du texte.

Ce que montrent ces exemples en tout cas, c’est le rôle majeur de l’intrication des modèles entre eux : Laion est lui-même créé sur des modèles qui ne sont ni ouverts ni inspectables, comme le langage detector de Google (qui permet de détecter la langue d’un texte) ou le Clip d’OpenAI. « Les omissions, les biais et les angles morts de ces modèles et ensembles de formation empilés façonnent tous les nouveaux modèles et nouveaux ensembles de formation qui en résultent. » « Il y a des modèles au-dessus des modèles et des ensembles de formation au-dessus des ensembles de formations », expliquent les chercheurs. Les biais et défaillances de chacun s’y imbriquent en cascades.

Les deux chercheurs ont bien sûr observé les données de Laion-5B. Le problème, c’est que Laion-5B n’existe pas : c’est un gigantesque ensemble d’entraînement qui se décompose en plusieurs sous-ensembles. Il y a un sous-ensemble où le texte a été identifié algorithmiquement grâce au modèle de détection de la langue de Google comme de l’anglais, qui contient 2,3 milliards de paires images-textes. Un autre de 2,6 milliards qui contient du texte autre que l’anglais, et un dernier de 1,27 milliards d’images ou la langue n’a pas pu être détectée. Les images par langues sont donc peu représentatives de la population qui la parle. Mais quand on regarde des ensembles de données sur certaines langues, on se rend compte que l’étiquetage n’est pas toujours dans la langue spécifiée et que bien souvent, les textes sensés être dans une autre langue sont en fait en anglais… En fait, la détection de langue sur quelques mots peut avoir bien des ratés, et visiblement, les 3 grands ensembles de Laion-5B en regorgent. Bien souvent, les balises ALT ne sont en effet renseignées que de quelques mots que les systèmes de détection de langue peinent à classer.

Laion a créé d’autres sous-ensembles d’association images-textes spécifiques. C’est le cas de Laion-Aesthetics, un ensemble d’images dites de « haute qualité visuelle ». Midjourney et Stable Diffusion utilisent un résultat affiné de ce sous-ensemble pour générer une image. Ce modèle a été créé depuis 3 sources : 15 000 images de logos ainsi que 2 ensembles d’images jugées visuellement attrayantes par des humains. 238 000 images proviennent d’images de synthèses produites par des IA génératives et notées par des communautés d’utilisateurs qui les échangent sur Discord et rassemble les images les mieux notées. Un forum Discord où les utilisateurs sont majoritairement occidentaux, instruits et fortunés ce qui fait que leur appréciation n’est pas sans biais. Un dernier ensemble de données provient du site dpchallenge.com, un forum de concours de photos, où là aussi une poignée d’évaluateurs notent les images que les participants, surtout américains, s’échangent. A l’aide de ces images, les développeurs de Laion ont produit un modèle qui produit un score esthétique des images qui permet d’améliorer l’esthétique des images générées. Une autre vérité est ainsi révélée : « Les concepts de ce qui est et de ce qui n’est pas visuellement attrayant peuvent être influencés de manière démesurée par les goûts d’un très petit groupe d’individus et par les processus choisis par les créateurs d’ensembles de données pour organiser les ensembles de données ». « Le tout petit façonne le géant », résument les chercheurs, pour dire que l’avis d’une poignée de participants à un forum obscur joue un rôle majeur dans le développement esthétique de l’IA générative ! L’esthétique de l’IA générative dépend donc de trois ploucs du Midwest qui façonnent le design du futur !

Comme l’expliquent les chercheurs, les faiblesses de Laion qu’ils mettent à jour sont visibles parce que Laion publie ses données en open source. Non seulement les modèles comportent d’innombrables biais, mais, on le comprend, l’écosystème repose sur des biais structurels que la « curation statistique amplifie ». En décembre, des chercheurs de l’Observatoire internet de Stanford ont identifié plus de 3000 images sous la catégorie abus sexuel sur enfants dans Laion-5B. Depuis, Laion-5B n’est plus disponible au téléchargement et les développeurs disent travailler à résoudre le problème. Cela n’empêche pas que d’innombrables copies soient disponibles.

Cet exemple permet de saisir plusieurs limites et problèmes de l’IA. La forte intrication des biais des modèles qui s’alimentent les uns les autres. La très faible qualité des modèles, qui tient surtout de qualités statistiques globales, assez fragiles. Et enfin, le fait que l’open source ne garantit rien de particulier, si ce n’est la disponibilité des jeux de données. Le caractère open source de Laion-5B ne permet finalement que d’entrapercevoir les problèmes que tous les jeux d’entraînement non ouverts invisibilisent.

La qualité plutôt que la quantité ?

L’analyse de Buschek et Thorp entre dans le cadre du programme de recherche Knowing Machines, – piloté par Kate Crawford, l’auteure de l’excellent Contre-Atlas de l’intelligence artificielle – qui vise à développer des méthodologies et des outils critiques pour analyser les données d’entraînement et de formation des modèles de l’apprentissage automatique.

Parmi les très riches contributions qu’on trouve sur Knowing Machines, signalons par exemple une rapide étude qui s’est intéressée au droit d’auteur dans Laion en regardant le matériel copyrighté dans la base de données et montre que la question est très mal traitée, notamment parce que nombre d’images peuvent être labellisées par un copyright faussement attribué, comme quand le fournisseur d’une image numérique s’attribue une œuvre du domaine publique. « Il ne fait aucun doute que de nombreuses images de Laion sont protégées par le droit d’auteur. Mais répondre à la question de savoir exactement quelles images et dans quelle mesure leur utilisation constitue une violation s’avère plus compliqué, en particulier lorsque les informations de droit d’auteur sur les images sont manquantes, obsolètes ou erronées », ce qui est généralement et globalement le cas.

Dans Knowing Machines on trouve également une passionnante enquête sur les créateurs de jeux de données, une autre sur la constitution d’une base de données d’images très spécifique mais de haute qualité, celles résultantes de l’observation des oiseaux, où les bases de données se construisent en opposition à la logique extractiviste du Big data, proche des riches réflexions du Féminisme des données. On y trouve également un ensemble de réflexions sur les enjeux juridiques de l’IA.

Mais surtout, Kate Crawford y signe une très intéressante mise en perspective. Elle rappelle que ces dernières années, le déploiement de l’IA s’est construit sur des données de plus en plus massives. Les données de formation et d’entraînement des modèles sont passées d’une échelle relativement petite à des ensembles massifs, à peu près aveugles à toute curation. En 2003, la base Caltech 101 comptait moins de 10 000 images. En 2010, ImageNet approchait les 14 millions d’images. En 2022, Laion-5B compte plus de 5 milliards d’images récupérées sur le Web, avec leurs légendes de texte correspondantes. En avril 2023, CommonPool de Laion a été lancé avec 12,8 milliards de paires image-texte. Nous arrivons à un point où l’ensemble du territoire d’Internet est devenu la carte de l’IA.

« Il existe une idée fausse largement répandue selon laquelle tout cela fonctionne bien, et par conséquent, comprendre ce que contiennent les données d’entraînement n’a pas d’importance », rappelle Crawford. Et en effet, la puissance des outils de génération de textes ou d’images fait toujours l’impasse sur leurs lacunes et leurs défaillances, comme si elles tenaient du bug plutôt que de la fonctionnalité. Nous sommes dans un moment où, dans la course à la production, seule la taille compte. Toutes les autres considérations et problèmes liés aux données d’entraînement, ce qu’elles représentent et comment elles représentent le monde, sont passées sous silence.

Or, prévient Crawford, les données de formation comptent plus que jamais. « Elles déterminent les limites du connu et de l’inconnu ». « Elles codent les visions du monde ». Il est donc essentiel de comprendre comment les données sont utilisées dans ces systèmes. Or, l’accent mis sur l’échelle et l’inattention au contexte conduit à créer un « jeu d’ingénieurs », où l’enjeu ne consiste qu’à produire de nouveaux modèles sur la base du plus grand nombre de données possibles. Peu importe d’où elles proviennent, de quoi il s’agit ou qui les ont assemblés et pourquoi ! Les résultats de cette course conduisent à produire des stéréotypes raciaux, de genre ou de classe profondément inscrits dans ces machines, dont il n’est pas sûr qu’on puisse s’extraire.

Pourtant, malgré les exemples qui s’accumulent… tout le monde continue de détourner le regard, comme si ces biais n’étaient pas importants. Or, à mesure qu’elle est rendue productive, l’IA générative se révèle bien plus biaisée que nous le sommes. Elle accentue et déforme nos stéréotypes au risque d’entraver tout progrès dans les représentations, comme le pointait une enquête de Bloomberg qui montrait comment Stable Diffusion amplifiait les stéréotypes de race et de genre. Comme le pointait Algorithm Watch, si certains générateurs d’images produisent des stéréotypes plus problématiques que d’autres, tous échouent en matière de diversité. Une enquête du Washington Post de novembre, montrait quant à elle que quand ces systèmes sont invités par exemple à illustrer des bénéficiaires de services sociaux, ils représentent massivement des personnes de couleurs alors qu’en fait, aux États-Unis, 63% des bénéficiaires des services sociaux sont blancs (contre seulement 27% de noirs). Pire, comme le montrait une étude sur le classement des images dans les grands modèles de l’IA générative, plus les modèles augmentent en taille, plus l’essentialisation raciste est exacerbée.

Bien sûr, l’enjeu consiste alors à corriger ces effets, comme a tenté de le faire Google avec Gemini. Mais en insérant des correctifs invisibles aux prompts pour qu’ils introduisent de la diversité, Gemini s’est pris les pieds dans les polémiques, en étant accusé de produire des images de papes, de vikings ou de pères fondateurs de l’Amérique noirs. Les IA génératives sont par nature sujettes aux stéréotypes puisqu’elles doivent générer des images les plus communément associées à un mot, selon les représentations largement importées de données américaines et européennes.

Dans The Atlantic, Chris Gilliard estime que l’IA générative n’est pas conçue pour refléter la réalité. Il rappelle également que ces problèmes de déformations de la réalité ne datent pas des IA génératives, mais sont plus anciens. Safiya Noble dans son livre, Algorithms of Oppression avait déjà montré que les programmes de ciblages publicitaires avaient des effets à grande échelle sur certaines communautés plutôt que d’autres. Voilà longtemps que l’on a compris que les systèmes techniques reproduisaient et perpétuaient les préjugés racistes. Ces problèmes n’ont jamais été résolus, mais bien plutôt occultés, comme quand, en 2015, Google a ôté l’étiquette gorille de sa base d’image parce qu’elle avait étiqueté ainsi une photo de personnes de couleurs. Par précaution, près de 10 ans plus tard, on ne peut toujours pas chercher de gorilles sur Google Photo !

« Des représentations de nazis noirs et l’étiquetage raciste des personnes noires sont les deux faces d’une même médaille », explique Gillard. Les résultats racistes de l’IA sont le plus souvent attribués à de mauvaises données et au manque de données suffisamment diversifiées. De l’autre côté, l’extrême droite critique l’IA parce qu’elle serait trop corrigée, « lobotomisée », c’est-à-dire corrigée pour paraître plus universaliste qu’elle n’est. Pour Gillard, nous tourner vers l’IA générative pour obtenir une représentation est une illusion où s’immisce une machinerie qui écrase la réalité et la reconstitue sous des formes qui ne peuvent pas en être.

 

Exemples de propositions d’images de papes, de vikings et de nazis proposés par Gemini…

 

Mais le problème est assurément plus profond. Une récente étude menée par Valentin Hofmann montrait par exemple que selon la manière dont on leur parle, les grands modèles de langage ne font pas les mêmes réponses. Si on utilise des variantes d’anglais afro-américain par exemple, les réponses de l’IA générative sont bien plus négatives que si on utilise un anglais plus châtié ! Elles attribuent des emplois moins prestigieux à ces locuteurs, ou condamnent à des peines plus lourdes des personnes qui parlent l’afro-américain si les IA sont amenées à juger quelqu’un depuis les mots qu’ils prononcent. L’augmentation de la taille des modèles leur permet de mieux comprendre l’anglais afro-américain et d’être plus attentifs aux préjugés explicites, mais pas aux préjugés dialectaux. Au contraire, c’est comme si on exacerbait l’écart entre stéréotypes cachés et manifestes et qu’on apprenait aux LLM à dissimuler superficiellement le racisme qu’ils entretiennent à un niveau plus profond, comme l’a fait, visuellement, Gemini. Au final, les modèles linguistiques renforcent les préjugés des stéréotypes raciolinguistiques. Mais surtout, prévient le chercheur, les utilisateurs confondent la diminution des préjugés manifestes avec le signe que le racisme des LLM serait résolu. Il est probable que les préjugés dialectaux s’étendent à mesure que les modèles saisissent mieux les différences d’expressions. Cet effet est très bien mis en avant par un test récemment publié par Bloomberg utilisant ChatGPT. Le testing était particulièrement simple. Les journalistes ont demandé à ChatGPT de classer des CV dont le seul élément qui changeait était le nom des personnes. Sans surprise, les CV avec des noms à consonance afro-américaine étaient à chaque fois les plus mal classés !

Ces exemples nous permettent d’identifier une autre grande lacune du manque d’ouverture des modèles. Non seulement ils ne publient pas leurs données d’entrainements, mais ils ne documentent pas non plus les corrections qu’ils produisent et donc nous empêchent de comprendre les limites de ces corrections. En empêchant certaines commandes (les prompts !) ou en les corrigeant par devers l’action de l’utilisateur, comme l’a fait Gemini avec ses correctifs invisibles, ils rendent assurément l’amélioration des modèles plus difficile. Et ce d’autant que bien des corrections introduites sont très souvent frustres, comme l’expliquait la chercheuse Ksenia Ermoshina en observant le filtrage et la censure des IA génératives d’images russes. Bien souvent, ces mesures de corrections et de filtrages restent bricolées, très perfectibles, à l’image de la disparition du terme gorille de Google Photo. Et c’est un endroit où l’on aurait certainement un grand besoin de travaux communs et partagés.

Kate Crawford et Trevor Paglen avaient mis en place l’ImageNet Roulette (le projet n’est plus disponible) pour permettre aux gens de voir les problèmes que produisaient les logiques de classification, ces balises accolées aux images pour les décrire. Étudier les données pour saisir les idéologies qu’elles portent, leurs points de vue, les préjudices qu’elles incarnent et concentrent et que les systèmes d’IA reproduisent est devenu primordial. Pour Crawford, il faut développer de nouvelles méthodes d’enquêtes et de productions. C’est tout l’enjeu du programme Knowing Machines qu’elle a lancé.

Reste que la question de savoir quelles sont les données utilisées, comment sont-elles pondérées et filtrées –  des enjeux rappelés par tous les chercheurs qui œuvrent à l’éthique des systèmes –  doivent encore beaucoup progresser pour dépasser des modèles bien plus translucides que transparents et s’assurer de leur responsabilité. Ce qui est sûr, c’est que ce n’est pas en mettant ces problèmes sous le tapis de l’efficacité des calculs qu’on résoudra les défaillances massives des machines à amplifier les biais que nous sommes en train de construire. Au contraire. La question de rendre disponible les données d’entraînements des modèles, de discuter des modalités de correction et de l’imbrication des calculs reste un enjeu majeur dont le régulateur devrait se saisir. Nous n’en sommes pas encore là, hélas.




Framasoft rejoint HIATUS, la coalition critique de l’IA

Le sujet de l’intelligence artificielle est omniprésent dans les discours médiatiques et politiques. Et il serait difficile de nier que ses impacts sur nos vies n’ont, eux, rien d’artificiels. Qu’il s’agisse d’écologie, de surveillance, d’économie, de santé, d’éducation, de médias, de politique étrangère, ou bien évidemment d’informatique, l’IA percute de plein fouet tous ces sujets, au nom de… au nom de quoi, en fait ?

À Framasoft, nous sommes soucieuses et soucieux de ne pas réduire la « lutte contre l’IA » à une simple lutte contre une technologie. C’est pourquoi nous annoncions en décembre dernier à la fois le site Framamia afin de partager avec vous nos clés de compréhension critiques autour de l’IA, mais aussi le prototype d’une application smartphone, Lokas, avec pour objectif de ne pas camper une position exclusivement intellectuelle, et apporter une contribution « manipulable » afin d’élargir le champ des questions concrètes auxquelles les utilisateur⋅ices de l’IA peuvent se retrouver confrontées.

Car aucune technologie n’est neutre, évidemment. Et l’IA non seulement n’échappe pas à cette règle, mais sert souvent de bouc-émissaire technique, détournant notre regard du véritable problème : le mobile qui anime les entreprises et les gouvernements qui ont tout intérêt à nous imposer cette technologie.

Car au fond, ce n’est pas l’IA que nous détestons ici, c’est le capitalisme débridé qui l’anime, telle une marionnette.

C’est pourquoi Framasoft a participé à la rédaction du manifeste fondateur de « Hiatus », une coalition composée d’une diversité d’organisations de la société civile française qui entendent résister au déploiement massif et généralisé de l’intelligence artificielle.

« L’IA contre les droits humains, sociaux et environnementaux »

Tout concourt à ériger le déploiement massif de l’intelligence artificielle en priorité politique. Prolongeant les discours qui ont accompagné l’informatisation depuis plus d’un demi-siècle, les promesses abondent pour conférer à l’IA des vertus révolutionnaires et imposer l’idée que, moyennant la prise en compte de certains risques, elle serait nécessairement vecteur de progrès. C’est donc l’ensemble de la société qui est sommée de s’adapter pour se mettre à la page de ce nouveau mot d’ordre industriel et technocratique. Partout dans les services publics, l’IA est ainsi amenée à proliférer au prix d’une dépendance technologique accrue. Partout dans les entreprises, les managers appellent à recourir à l’IA pour « optimiser » le travail. Partout dans les foyers, au nom de la commodité et d’une course insensée à la productivité, nous sommes poussés à l’adopter.

Pourtant, sans préjuger de certaines applications spécifiques et de la possibilité qu’elles puissent effectivement répondre à l’intérêt général, comment ignorer que ces innovations ont été rendues possible par une formidable accumulation de données, de capitaux et de ressources sous l’égide des multinationales de la tech et du complexe militaro-industriel ? Que pour être menées à bien, elles requièrent notamment de multiplier la puissance des puces graphiques et des centres de données, avec une intensification de l’extraction de matières premières, de l’usage des ressources en eau et en énergie ?

Comment ne pas voir qu’en tant que paradigme industriel, l’IA a d’ores et déjà des conséquences désastreuses ? Qu’en pratique, elle se traduit par l’intensification de l’exploitation des travailleurs et travailleuses qui participent au développement et à la maintenance de ses infrastructures, notamment dans les pays du Sud global où elle prolonge des dynamiques néo-coloniales ? Qu’en aval, elle est le plus souvent imposée sans réelle prise en compte de ses impacts délétères sur les droits humains et l’exacerbation des discriminations telles que celles fondées sur le genre, la classe ou la race ? Que de l’agriculture aux métiers artistiques en passant par bien d’autres secteurs professionnels, elle amplifie le processus de déqualification et de dépossession vis-à-vis de l’outil de travail, tout en renforçant le contrôle managérial ? Que dans l’action publique, elle agit en symbiose avec les politiques d’austérité qui sapent la justice socio-économique ? Que la délégation croissante de fonctions sociales cruciales à des systèmes d’IA, par exemple dans le domaine de la santé ou l’éducation, risque d’avoir des conséquences anthropologiques, sanitaires et sociales majeures sur lesquelles nous n’avons aujourd’hui aucun recul ?

Or, au lieu d’affronter ces problèmes, les politiques publiques menées aujourd’hui en France et en Europe semblent essentiellement conçues pour conforter la fuite en avant de l’intelligence artificielle. C’est notamment le cas de l’AI Act adopté par l’Union européenne et présenté comme une réglementation efficace alors qu’elle cherche en réalité à promouvoir un marché en plein essor. Pour justifier cet aveuglement et faire taire les critiques, c’est l’argument de la compétition géopolitique qui est le plus souvent mobilisé. À longueur de rapports, l’IA apparaît ainsi comme le marchepied d’un nouveau cycle d’expansion capitaliste, et l’on propose d’inonder le secteur d’argent public pour permettre à l’Europe de se maintenir dans la course face aux États-Unis et à la Chine.

Ces politiques sont absurdes, puisque tout laisse à penser que le retard de l’Europe dans ce domaine ne pourra pas être rattrapé, et que cette course est donc perdue d’avance. Surtout, elles sont dangereuses dans la mesure où, loin de constituer la technologie salvatrice souvent mise en avant, l’IA accélère au contraire le désastre écologique, renforce les injustices et aggrave la concentration des pouvoirs. Elle est de plus en plus ouvertement mise au service de projets autoritaires et impérialistes. Non seulement le paradigme actuel nous enferme dans une course technologique insoutenable, mais il nous empêche aussi d’inventer des politiques émancipatrices en phase avec les enjeux écologiques.

La prolifération de l’IA a beau être présentée comme inéluctable, nous ne voulons pas nous résigner. Contre la stratégie du fait accompli, contre les multiples impensés qui imposent et légitiment son déploiement, nous exigeons une maîtrise démocratique de cette technologie et une limitation drastique de ses usages, afin de faire primer les droits humains, sociaux et environnementaux.

Premiers signataires :

  • Annick Hordille, membre du Nuage était sous nos pieds
  • Baptiste Hicse, membre de Stop Micro
  • Camille Dupuis-Morizeau, membre du conseil d’administration de Framasoft
  • David Maenda Kithoko, président de Génération Lumière
  • Denis Nicolier, co-animateur de Halte au contrôle numérique
  • Emmanuel Charles, co-président de ritimo
  • Éléonore Delatouche, fondatrice de Intérêt à agir
  • Judith Allenbach, présidente du Syndicat de la Magistrature
  • Judith Krivine, présidente du Syndicat des avocats de France (SAF)
  • Julie Le Mazier, co-secrétaire nationale de l’Union syndicale Solidaires
  • Julien Lefèvre, membre de Scientifiques en rébellion
  • Marc Chénais, directeur de L’Atelier Paysan
  • Nathalie Tehio, présidente de la LDH (Ligue des droits de l’Homme)
  • Olivier Petitjean, co-fondateur de L’Observatoire des multinationales
  • Raquel Radaut, porte-parole de La Quadrature du Net
  • Sandra Cossart, directrice de Sherpa
  • Soizic Pénicaud, membre de Féministes contre le cyberharcèlement
  • Sophie Venetitay, secrétaire générale du SNES-FSU
  • Stéphen Kerckhove, directeur général d’Agir pour l’environnement
  • Thomas Thibault, président du Mouton Numérique
  • Vincent Drezet, porte parole d’Attac France
  • Yves Mary, cofondateur et délégué général de Lève les yeux

 

Liste complète des organisations premières signataires à retrouver sur : https://hiatus.ooo

 




Se libérer du technocolonialisme

Chez Framasoft, nous travaillons activement à créer des clés de compréhension sur les enjeux du numérique.

Ces enjeux sont vastes, multiples, parfois complexes à saisir.
C’est d’autant plus vrai depuis la surmédiatisation de l’Intelligence Artificielle (IA) et la popularisation de services comme ChatGPT, Copilot ou Gemini.

Alors quand, au détour des internets, Hubert Guillaud, journaliste et spécialiste des systèmes techniques et numériques, décortique les ouvrages scientifiques qui traitent de l’IA, ça nous interpelle, ça nous fascine…

Cet article est une republication, avec l’accord de l’auteur. Il a été publié en premier le 30 septembre 2024 sur le site Dans Les Algorithmes sous licence CC BY-NC-SA.


 

Avatar de Hubert Guillaud
Hubert Guillaud

Si les grandes entreprises de la tech sont devenues des empires, c’est bien que nous avons été colonisés par leurs déploiements techniques. Dans Data Grab, Ulises A. Mejias et Nick Couldry explorent ce que signifie le grand accaparement de nos données. Qu’est-ce que le technocolonialisme et comment faire advenir les luttes pour l’indépendance dont nous avons besoin ?

 

 

 

 

 

 

 

En cartographiant la logique profondément coloniale de nos technologies, avec Anatomy of AI et Calculating Empires, Kate Crawford et Vladan Joker ont attiré notre attention sur le caractère extractiviste sans précédent des technologies numériques, construites depuis « les logiques du capital, du maintien de l’ordre et de la militarisation » qui accélèrent les asymétries de pouvoir existantes. Dans leur nouveau livre, Data Grab : the new colonialism of Big Tech (and how to fight back)  (Pillage de données : le nouveau colonialisme des Big Tech (et comment le combattre), WH Allen, 2024, non traduit),  Ulises A. Mejias et Nick Couldry interrogent la métaphore technocoloniale. Peut-on dire que la technologie procède d’un colonialisme ? Et si c’est le cas, alors comment nous en libérer ?

 

Explorer, étendre, exploiter, exterminer : une continuité

A la fin de leur précédent livre, The costs of connection (Stanford University Press, 2019) Mejias et Couldry en appelaient déjà à « décoloniser internet » de l’emprise des multinationales qui le dominent. Mais derrière la formule qui fait florès, peut-on vraiment affirmer que le colonialisme technologique repose sur les mêmes caractéristiques que le colonialisme d’hier ?

Le colonialisme, historique, repose d’abord sur un accaparement sans précédent des terres, des biens, des ressources, des personnes, dont les effets, les conséquences et les répercussions continuent encore aujourd’hui. Il repose sur un quadriptyque, expliquent les chercheurs : « explorer, étendre, exploiter, exterminer ». Comparativement, l’accaparement des données semble bien anodin. Pourtant, estiment les chercheurs, ce technocolonialisme partage beaucoup de caractéristiques avec son ancêtre. D’abord, il est comme lui global et se déroule à très large et très vaste échelle. Mais surtout, il « prolonge et renouvelle cet héritage de dépossession et d’injustice » commencé avec la colonisation. En 1945, un habitant de la planète sur trois était dépendant de l’ordre colonial. Aujourd’hui, un habitant de la planète sur trois a un compte Facebook, comparent un peu rapidement les auteurs. Les contextes et impacts sont différents, mais l’échelle du déploiement de la domination des Big Tech rappelle nécessairement cette histoire, estiment-ils. Le pouvoir de Meta par exemple contribue à une diffusion étendue de la désinformation qui a conduit jusqu’à des violences génocidaires et des interférences politiques.

Le colonialisme s’est toujours justifié par sa mission civilisatrice, visant non seulement à contrôler les corps, mais également les esprits et les consciences, comme l’ont fait dans le passé l’Eglise et la Science. Et les Big Tech aussi se targuent d’une mission civilisatrice. La mission civilisatrice, les motifs économiques, l’exercice du pouvoir et l’introduction de technologies spécifiques façonnent l’histoire du colonialisme. Par le passé, la mission civilisatrice s’est toujours faite par le déploiement de nouvelles force de surveillance, de discrimination, d’exploitation. Et c’est également ce qu’on retrouve aujourd’hui avec l’extension de la surveillance au travail, la généralisation de la reconnaissance faciale, du scoring, ou l’exploitation des travailleurs du clic du monde entier. Comme le dit le philosophe Achille Mbembe dans Sortir de la grande nuit : Essai sur l’Afrique décolonisée (2010) : « Notre époque tente de remettre au goût du jour le vieux mythe selon lequel l’Occident seul a le monopole de l’avenir. »

Couverture du livre de Ulises A. Mejias et Nick Couldry, Data Grab.
Couverture du livre de Ulises A. Mejias et Nick Couldry, Data Grab.

Le colonialisme de données est « un ordre social dans lequel l’extraction continue de données génère des richesses massives et des inégalités à un niveau global ». Ce nouvel ordre social repose un nouveau contrat social où le progrès nécessite de remettre nos données aux entreprises, sans condition. Certes, les grandes entreprises de la tech ne nous proposent pas de nous réduire en esclavage et le fait de refuser leurs services ne conduit pas à l’extermination. Reste que le pillage de données n’est pas le fait de quelques entreprises malhonnêtes, mais se produit à tous les niveaux. L’exemple le plus éclairant est certainement l’IA générative qui a eu besoin de collecter toutes les données possibles pour alimenter ses moteurs. Une sorte de prédation généralisée motivée pour le bien de l’humanité. Pour Mejias et Couldry, chausser les lunettes du colonialisme pour regarder la prédation en cours permet surtout de faire apparaître les similarités entre le colonialisme historique et le technocolonialisme, qui reposent, l’un comme l’autre sur l’appropriation de ressources et qui se justifie toujours pour servir un but plus grand (le progrès économique). Ce pillage est toujours imposé par une alliance entre les Etats et les entreprises. Il a toujours des effets désastreux sur l’environnement et il renforce toujours les inégalités, entre des élites extractivistes et des populations exploitées. Enfin, cette prédation se justifie toujours par des alibis : un narratif civilisationnel.

La numérisation de nos existences implique un profond changement dans les relations de pouvoir dans lesquelles nous sommes pris. Le capitalisme ne peut pas être compris sans le rôle qu’a joué le colonialisme dans son expansion, rappellent les chercheurs. « Le capitalisme a une dimension coloniale, non pas par accident, mais par conception ». Et l’exploitation est une fonction des opérations routinières de nos outils numériques. Le colonialisme des données exploite nos existences mêmes. Comme le disait Achille Mbembe dans Brutalisme : « nous sommes le minerai que nos objets sont chargés d’extraire ».

Piller, c’est déposséder sans égard pour les droits de ceux qu’on dépossède

Ce pillage de données transforme déjà en profondeur tous les aspects de nos vies : l’éducation, la santé, les lieux de travail, la consommation, la production… La grande différence que l’on pourrait faire entre le colonialisme historique et ce nouveau colonialisme, c’est que la violence physique semble y être largement absente. En fait, estiment les chercheurs, la violence est devenue plus symbolique. Le pillage lui-même est devenu sans friction, puisqu’il suffit d’accepter les conditions d’utilisation pour qu’il se déploie. Cela ne signifie pas pour autant que toute violence ait disparu. L’enjeu colonial, d’extraction et de dépossession, lui, continue. Il signifie toujours déposséder l’autre sans égard pour ses droits. La justification est d’ailleurs toujours la même : « rendre ce qui est pillé plus productif », selon une définition de la productivité qui correspond aux intérêts du pilleur. Quant à l’exploitation du travail humain, elle n’a pas disparu, comme le rappellent les travailleurs du clic. Cette exploitation est toujours aussi intensive en technologie, nécessite toujours des outils très spécifiques et spécialisés et bénéficie d’abord à ceux à qui ils appartiennent, à l’image des plateformes d’IA qui bénéficient d’abord à ceux qui les proposent et les exploitent.

« L’exploitation des données est une continuation de la violence coloniale via d’autres moyens ». Elle produit toujours de la discrimination et de la perte d’opportunité pour ceux qui en sont les victimes, selon des logiques de classification sociales. Les distinctions de « classe, de genre, de race ont toujours été instrumentées pour créer le mythe que ces différences avaient besoin d’être gérées et organisées par la rationalité occidentale ». Le colonialisme des données renouvelle la mission historique du colonialisme via de nouveaux moyens que sont les systèmes de prise de décision automatisés, les plateformes… dont les effets « sont plus subtils et difficiles à tracer qu’avant ». La discrimination s’inscrit désormais dans nos outils numériques, comme le montrait Virginia Eubanks dans Automating Inequality, en inscrivant les inégalités dans des plateformes profondément asymétriques. L’extraction de données permet d’attacher les personnes à des catégories. Les systèmes de scoring déterminent des scores qui reflètent et amplifient les discriminations forgées par le colonialisme.

Les deux auteurs ont des mots assez durs sur la science occidentale, rappelant qu’elle naît en partie pour la gestion coloniale (la botanique, la zoologie, l’anthropologie…). Qu’elle invente des techniques et des outils (la carte, les rapports, les tableaux…) pas seulement au profit de la science, mais bien également en coordination avec l’expansion économique et militaire. Cette science a été très vite appliquée pour surveiller, contrôler et gérer les populations colonisées. La Big Science et les Big Techs aujourd’hui sont toujours au service de relations de pouvoir asymétriques. Or, rappellent les chercheurs, le colonialisme des données à besoin de nous. « Sans nos données, il ne fonctionne pas ». Nous participons à notre propre exploitation.

La donnée a une caractéristique particulière cependant. C’est un bien non-rival. Elle peut-être copiée et réutilisée sans fin. Cela n’empêche pas qu’elle soit exploitée dans des territoires de données très spécifiques que sont les plateformes, interreliées, qui imposent leurs propres lois depuis les codes qu’elles produisent. Ce nouveau monde de données dirige nos activités vers des canaux numériques qui sont entièrement sous le contrôle des entreprises qui les proposent. Si les données sont un bien non-rival, ce qu’elles capturent (nous !) est bien une ressource finie.

Pour les deux chercheurs, l’exploitation des données est née en 1994, quand Lou Montulli, employé de Netscape, invente le cookie. En 30 ans, les structures de pouvoir du net ont domestiqué la surveillance en avantage commercial via une machinerie numérique tentaculaire, comme le montrait Soshana Zuboff. Les ordinateurs ont été placés au cœur de toute transaction, comme l’expliquait Hal Varian, l’économiste en chef de Google dès 2013. Tout ce qui est personnel ou intime est devenu un terrain d’exploitation. Nous sommes au cœur de territoires de données où le monde des affaires écrit les contrats, en les présentant comme étant à notre bénéfice. Nous sommes cernés par des relations d’exploitation de données qui maximisent l’extraction d’une manière particulièrement asymétrique. Une forme d’hypernudge qui optimise nos comportements pour servir les objectifs des collecteurs. Ce colonialisme n’opère pas que dans le domaine de la publicité ciblée, rappellent les auteurs, elle s’étend aux finances personnelles, à l’agriculture de précision, à l’éducation, la santé, le travail… selon des logiques d’opacité (on ne sait pas exactement quelles données sont collectées), d’expansionnisme (les données d’un secteur servent à d’autres), d’irresponsabilité (sans rendre de comptes) et dans une conformité juridique très incertaine. La gestion des humains est devenue rien d’autre que la gestion d’une base de données, au risque d’y délaisser les plus vulnérables. Ces systèmes ravivent les inégalités du vieil ordre colonial.

La mission civilisatrice des données : produire notre acceptation

Dans un chapitre sur la mission civilisatrice des données, les deux chercheurs expliquent que celle-ci repose d’abord sur la commodité. Elle repose également sur une narration connectiviste, quasi religieuse, qui invisibilise la surveillance qu’elle active en suggérant que l’extraction de données est inévitable. Qu’elle doit être continue, profonde, totale. Ce narratif met de côté tous les problèmes que cette extraction génère, comme le fait qu’elle divise les gens, les épuise, les traumatise… On oublie que la connexion limite plus qu’elle augmente la diversité. « Les plateformes plus que les gens, décident quelles connexions sont plus avantageuses pour elles », à l’image des recommandations qu’elles produisent sans qu’on ait notre mot à dire, qu’importe la polarisation ou la radicalisation qu’elles produisent. La viralité est le modèle économique. Nous sommes le jeu auquel joue l’algorithme.

Ce storytelling impose également un autre discours, celui que l’IA serait plus intelligente que les humains. Comme le microscope a participé au succès de l’impérialisme (soulignant le lien entre la méthode scientifique et l’entreprise coloniale comme moyen de réduire et d’abstraire le monde naturel en objets capables d’être gérés), l’IA est l’outil pour rendre l’extraction de données inévitable. D’un outil pour comprendre le monde, la méthode scientifique est aussi devenue un processus pour éliminer l’opposition à la gestion coloniale. Couldry et Mejias rappellent pourtant que la science n’a pas servi qu’un sombre objectif colonial, mais que l’abstraction scientifique et le développement technologique qu’elle a produit a accompagné l’extractivisme colonial. Le narratif sur l’intelligence de l’IA, comme l’explique Dan McQuillan dans Resisting AI, sert à opacifier ses effets. Il nous pousse à croire que l’optimisation statistique serait le summum de la rationalité, qu’il permettrait justement d’éliminer nos biais quand il ne fait que les accélérer. Pour les deux chercheurs, l’IA discriminatoire et opaque par essence sert d’abord et avant tout à dissimuler les limites de la rationalité, à la parer de neutralité, à automatiser la violence et la discrimination qu’elle produit. L’IA n’est que la nouvelle étape d’une production coloniale de connaissance qui prend toutes les productions humaines pour générer une connaissance qui nous est présentée comme son apothéose, quand elle est avant tout un moyen de s’assurer la continuité de l’appropriation des ressources.

Si le discours civilisationnel fonctionne, c’est d’abord parce que ce narratif renforce la hiérarchie des pouvoirs et vise à verrouiller la position des dominés comme dominés. Il colonise l’imagination de ce que doit être le futur : un avenir connecté, un avenir que l’on doit accepter, un avenir normal et inaltérable. Ce que ce narratif vise à produire, c’est notre acceptation. Il n’y a pas d’alternative !

La nouvelle classe coloniale

La surveillance se porte bien, comme le pointent les chiffrages du site Big Tech sells War. La sécurité, la défense et la surveillance sont désormais largement aux mains des grandes entreprises de la tech. Le pire colonialisme d’hier ressemble à celui d’aujourd’hui. Et comme hier, il implique l’existence d’une véritable classe coloniale. Celle-ci ne porte plus le casque blanc. Elle opère à distance, dans les bureaux feutrés de quelques grandes entreprises. Mejias et Couldry rappellent qu’à la grande époque, la Compagnie britannique des Indes orientales était une entreprise commerciale de 250 000 employés gérés depuis Londres par une équipe de 35 à 159 employés seulement. Uber, avec 32 000 employés coordonne les opérations de 5 000 0000 de livreurs et chauffeurs pour quelque 131 millions d’utilisateurs.

La classe coloniale de la donnée naît dès le milieu des années 80 dans les entreprises qui proposent les premières cartes de crédit et qui se mettent à collecter des données sur les consommateurs pour cela. Leur but ? Distinguer les consommateurs afin de trouver les plus fidèles. Dans les années 90, ces conceptions commencent à essaimer dans les théories de gestion. Couplées aux data sciences, elles donneront naissance aux Big data, c’est-à-dire aux théories de l’exploitation des données qu’incarnent les plus grandes entreprises de la tech. Amazon incarne l’explorateur, celui qui conquiert de nouveaux territoires pour l’extraction depuis le commerce de détail. Google et Apple, les expansionnistes de la donnée qui dominent de vastes empires de services et d’infrastructures cherchant à pousser toujours plus loin leurs emprises. Facebook est l’exploiteur le plus systémique des données. Les deux auteurs dressent rapidement les évolutions extractivistes des grands acteurs de la tech et de bien d’autres. Nous sommes désormais cernés par une infrastructure d’extraction, dominée par une bureaucratie d’acteurs, qui n’est pas sans rappeler la bureaucratie de l’administration coloniale. Celle-ci est dominée par la figure du data scientist, miroir de l’administrateur colonial, qui œuvre dans tous les domaines d’activité. Qu’ils oeuvrent pour Palantir, Salesforce ou LexisNexis, ils façonnent l’Etat algorithmique, transforment la nature même du gouvernement par de nouvelles formes de connaissance et de contrôle, dans un rapprochement dont on peine à prendre la mesure 6500 agences publiques américaines utilisent Amazon Cloud Services. Partout, la technologie est devenue la modalité d’action sur la société. Partout, la technologie est convoquée pour optimiser les financements publics et notamment réduire les dépenses par un profilage toujours plus intensif des administrés en y appliquant partout des calculs probabilistes pour améliorer leur rentabilité, changeant profondément la nature du bien public et la conception de l’Etat providence. Pour ces acteurs, tout ce qui peut être utilisé le sera, simplement parce qu’il est disponible. Toutes les données sont collectées et sont rendues productives du fait même de leur disponibilité. La précision, l’exactitude ou la justice sont sans conséquences, tant que les données produisent des résultats.

S’inspirer des résistances anticoloniales

La critique de l’extractivisme colonial est nourrie. Les données, par nature, sont des objets sans contexte. L’historien et politicien Eric Williams, auteur de Capitalisme et esclavage (1930), a pourtant rappelé que la révolution industrielle qui a survalorisé l’innovation occidentale n’aurait pas été possible sans les ressources tirées de la colonisation. Pour lui, le capitalisme n’aurait pas pu se développer sans le colonialisme et sans la sujétion au travail, notamment par l’esclavage. Le sociologue péruvien, Anibal Quijano a parlé lui de « colonialité » du pouvoir pour parler des liens entre capitalisme et racisme, qui ne se sont pas achevés avec la décolonisation, mais se sont prolongés bien au-delà. Pour résister à la colonialité, Quijano invite à développer une rationalité et une connaissance débarrassée des idées de hiérarchies et de discrimination. Pour lui, la connaissance par exemple se construit bien plus par la diversité des perspectives que par le rejet de la diversité sous un prétexte rationaliste. Pour Mejias et Couldry, la connaissance que produit le Big Data est une connaissance depuis le point de vue des institutions qui les produisent, pas des gens et encore moins des gens depuis leur grande diversité. En cela, elle perpétue les caractéristiques de la science occidentale et la rend profondément colonialiste.

Sylvia Wynter est une autre chercheuse que les auteurs convoquent pour nous aider à trouver un autre rapport à la connaissance, à la science et à la rationalité. Pour elle, nous devons résister à la vision dominante de la science occidentale pour promouvoir une vision plus inclusive. Pour elle, nous avons besoin d’un mode de pensée sur la donnée qui inclut plus de gens et de perspectives, à l’image de ce que répètent les data scientists les plus critiques des perspectives technologiques comme Safiya Noble, Timnit Gebru ou les sociologues Ruha Benjamin, Virginia Eubanks… C’est également les perspectives que défendent Catherine D’Ignazio et Lauren Klein depuis le féminisme de données. C’est le même point de vue qu’exprime le philosophe Achille Mbembe quand il dénonce la continuité du colonialisme par d’autres moyens et nous invite à ne plus voir dans l’occident le centre de gravité du monde, dénonçant l’expansion de l’IA, comme le devenir artificiel de l’humanité. C’est le même enjeu qu’exprime Naomi Klein quand elle dénonce le capitalisme du désastre, qui utilise celui-ci pour créer des opportunités pour exploiter les populations les plus vulnérables. Pour Klein, l’extractivisme est lié au colonialisme qui ne voit le monde que comme une terre de conquête, plutôt que notre maison commune. Un extractivisme qui s’étend dans la plus grande impunité.

Les deux chercheurs terminent leur essai par des exemples de résistance qui peuvent paraître, comme souvent, bien fragiles face au rouleau compresseur de l’extractivisme des données. Pour eux, « le colonialisme de données n’est pas un problème facile à réparer ». On ne peut pas l’effacer d’une loi ou d’une nouvelle technologie… Ils nous invitent cependant à apprendre des résistances anticoloniales passées et de celles qui continuent de se déployer aujourd’hui, comme des résistances locales contre le déploiement des technologies de reconnaissance faciale, comme le propose la coalition Reclaim your Face. Dans de nombreuses industries de la tech, les travailleurs tentent de se syndiquer, non sans difficultés. D’autres montent des mouvements pour résister à l’extractivisme, comme No Tech for ICE, le mouvement qui s’oppose à l’usage des technologies par les agences d’immigration américaines ou No Tech for Apartheid qui s’oppose aux technologies de surveillance des Palestiniens ou Our Data Bodies, qui s’oppose aux technologies de surveillance sur les communautés pauvres et racisées américaines. Quand les Big Tech sont partout, c’est à chacun d’entre nous de résister, expliquent-ils en invitant à boycotter les plateformes, à éteindre ou déposer nos téléphones, comme le propose le Luddite Club des adolescents newyorkais. Mais nous devons aussi radicalement réimaginer la façon dont on utilise les données, comme nous y invite la penseuse argentine Veronica Gago, auteure de La puissance féministe, qui invite à s’extraire des zones d’extractivisme ou encore Ivan Illich qui nous invitait à construire une société conviale, faite d’outils responsables par lesquels les humains contrôleraient les technologies qu’ils utilisent.

Ils nous invitent d’ailleurs à nous défaire des réponses technologiques. Les solutions sont également sociales, politiques, culturelles, éducatives et légales… Et elles doivent se connecter aux gens et aux luttes. Mejias et Couldry nous invitent à travailler ces systèmes en demandant des droits et des régulations, comme l’a fait le RGPD en Europe. Il nous faut protester contre les pratiques extractivistes, oeuvrer avec les autorités pour exiger des transformations concrètes, oeuvrer avec d’autres organisations pour changer l’allocation des financements, exiger des sanctions et des boycotts, mobiliser les citoyens sur ces enjeux, soutenir la taxation des entreprises de la tech, exiger des garanties pour protéger les citoyens, comme le proposent People vs Big Tech. Mais il faut aussi oeuvrer contre les systèmes et développer de nouveaux outils politiques permettant de refuser le colonialisme sur nos données en œuvrant pour le développement de plateformes plus locales que globales. Si choisir un colonisateur national plutôt qu’un service global ne règle pas la question, Mejias et Couldry nous invitent à trouver les moyens de rendre l’extractivisme des données inacceptable. A la suite de Ben Tarnoff, ils nous invitent à imaginer comment nationaliser l’internet et développer à la suite des travaux de Trebor Scholz, des plateformes coopératives. Ils nous invitent à renverser le discours dominant en relayant les critiques à l’égard des systèmes algorithmiques, à partager les histoires édifiantes des victimes des calculs, et à soutenir les organisations qui œuvrent en ce sens. Ils nous invitent à redéfinir la frontière entre ce que nous voulons et ce que nous ne voulons pas. « La crise du colonialisme des données exige notre participation mais sans notre approbation consciente. Elle ne nous confronte pas à la disparition des glaciers ou des forêts tropicales (même si le colonialisme des données vient avec des coûts environnementaux très significatifs), mais à des environnements sociaux appauvris organisés dans un seul but : l’extraction de données et la poursuite du profit. Et c’est un problème, car résoudre la crise environnementale et toutes les crises auxquelles nous sommes confrontés nécessite une collaboration sociale renforcée. Si nos environnements sociaux sont contrôlés par les États et les entreprises, il y a un risque que nous soyons manipulés pour servir leurs intérêts plutôt que les nôtres, ce qui pourrait saper les politiques collectives dont nous avons réellement besoin ». C’est aux colonisés d’agir. Il n’y a rien à attendre des colonisateurs de données. « L’extraction de données est le dernier stade d’un projet qui vise à gouverner le monde dans l’intérêt des puissants. Il nous faut inventer un monde où la donnée est quelque chose que les communautés contrôlent pour les buts qu’elles ont elles-mêmes choisis ». L’IA ne nous sauvera pas. Elle n’est « qu’un mécanisme de plus pour continuer à faire de l’argent et pour transformer le monde en espaces impénétrables que nous ne comprenons pas et sur lesquels nous n’avons aucun contrôle » et qui agit sur nos chances d’accès à des ressources cruciales (prêts, éducation, santé, protection sociale, travail…). Les données discriminent. Les tisser dans des algorithmes et des systèmes toujours plus complexes qui amplifient les biais ne générera que des systèmes de pouvoir encore plus inégaux. Ces systèmes exigent notre transparence la plus totale alors qu’eux-mêmes sont de plus en plus opaques, comme le disaient Ryan Calo et Danielle Citron. Si nous ne démantelons pas ces structures de pouvoir, le colonialisme de données produira de nouvelles injustices, pas leur disparition.

*

Si les perspectives critiques que tirent Mejias et Couldry sont intéressantes, on reprochera néanmoins à leur essai d’être plus philosophique que pragmatique. Les deux chercheurs peinent à documenter concrètement la prédation dont nous sommes l’objet, alors que les exemples ne manquent pas. Leurs propositions conclusives donnent un peu l’impression qu’ils nous invitent à prolonger la lutte, sans documenter justement le coût de la connexion. Leurs recommandations s’inscrivent dans un dictionnaire des luttes bien établies sans parvenir à proposer des leviers sur lesquels celles-ci pourraient converger. Dans leur radicalité, on pourrait s’attendre à ce que leurs propositions le soient également, permettant de construire des objectifs plus ambitieux, comme l’interdiction de la collecte de données, l’interdiction de leurs croisements, l’interdiction des inférences et de la segmentation des publics… On aurait pu attendre d’un livre sur le pillage des données qu’il soit plus radical encore, qu’il nous invite à combattre « la traite » dont nous sommes l’objet par le rétablissement de nos droits, comme l’abolition de l’esclavage ou l’indépendance ont été les leviers décisifs permettant d’envisager de mettre fin au colonialisme. Mejias et Couldry nous offrent une métaphore qui ouvre des perspectives, mais qui semblent bien moins mobilisables qu’on l’attendait.

MAJ du 4/10/2024 : Sur Mais où va le web, Irénée Régnauld revient sur le livre de l’anthropologue Payal Arora, From pessimism to to promise, qui offre un contrepoint au technocolonialisme de Mejias et Couldry. « Pour beaucoup, la peur d’être anonyme et perdu est plus grande que celle d’être surveillé. »




Grâce à vous Framasoft peut décoller en 2025… et outiller celles et ceux qui changent le monde !

Il ne reste plus que quelques heures pour faire un don à Framasoft, renforcer notre budget 2025, et bénéficier d’une réduction sur les impôts de 2024…

Ce modèle solidaire de la contribution et du soutien permet à notre association d’exister… mais aussi de compléter le travail de nombreuses initiatives qui, elles aussi, changent le monde à leur niveau.

🎈 Framasoft a 20 ans🎈 : Contribuez pour financer une 21e année !

Grâce à vos dons (défiscalisables à 66 %), l’association Framasoft agit depuis 20 ans pour faire avancer le Web éthique et convivial. Retrouvez un focus sur certaines de nos actions en 2024 sur le site Soutenir Framasoft.

➡️ Lire la série d’articles de cette campagne (nov. – déc. 2024)

Faisons de 2025 une bonne année !

À l’heure où nous écrivons ces lignes, le palier des 200 000 € de dons est dépassé : merci à celles et ceux qui ont déjà contribué !

C’est, pour nous, un sacré soulagement : ces dons vont nous assurer de pouvoir poursuivre les services Dégooglisons Internet et le maintien de PeerTube en 2025, pérenniser le poste de Wicklow (qui a réalisé cette année l’application Lokas et surtout l’application PeerTube pour mobiles), et stabiliser l’équipe réduite de Framasoft.

Dès lors, tous les dons qui nous rapprochent du palier « idéal » des 400 000 € nous permettront de faire plus, de faire mieux en 2025.

Illustration - des mascottes ont planté une flopée de ballons qui prennent la forme du logo Framasoft. Le lopin de terre s'est détaché, et ils flottent dans le ciel nocture en faisant la fête.
Illustration de David Revoy – Licence : CC-By 4.0

Ce ne sont ni les envies, ni les projets qui manquent pour 2025 (et au delà !)

Nous voulons promouvoir Framaspace et en faciliter l’adoption afin d’équiper des milliers d’associations en plus. Nous souhaitons renouveler ou rénover des logiciels derrière certains de nos services les plus utiles (mais vieillissants).

Nous voulons continuer de sensibiliser autour de l’enjeu de l’IA, et démontrer concrètement (comme avec Lokas) que les conséquences désastreuses de cette industrie sont des choix, des choix politiques, pris sans le consentement des citoyennes.

Nous avons envie de voir comment appliquer la low-technicisation, et ses valeurs de résilience, sobriété, autonomie, paisibilité… à des outils pratiques et agréable qui répondent à un besoin réel.

Bref, nous avons envie de continuer à apporter notre pierre aux Communs numériques. Des Communs qui offrent, à celles et ceux qui créent des bulles d’air hors du Capitalisme de Surveillance, des outils numériques efficaces, et à la hauteur de leurs valeurs.

Aider Framasoft à faire plus et mieux en 2025

Contributions et solidarités : un cercle vertueux qui sert à toustes

Nous l’avons répété chaque semaine depuis le début de cette campagne : Framasoft fonctionne grâce à un modèle solidaire

  • 8000 donatrices en 2023 ;
  • plus de 2 millions de bénéficiaires chaque mois ;
  • votre don (défiscalisable à 66 %) peut bénéficier à 249 autres personnes.

Si une personne « suffit » pour financer les outils Framasoft de 250… cela veut dire que 249 autres peuvent contribuer à d’autres solidarités.

La première de ces solidarités, c’est d’offrir de la gratuité à l’entrée. Tout le monde n’a pas les moyens de payer pour un Framaforms, pour faire développer un PeerTube, pour ouvrir un cloud Framaspace à son collectif naissant, ou pour une conférence sur les dangers des GAFAM.

D’ailleurs, tout le monde ne voit pas encore l’intérêt de financer de tels outils en payant des hébergeurs de confiance plutôt qu’en payant avec des morceaux de sa vie et de ses interactions avec les autres.

Offrir la gratuité d’outils numériques éthiques à ces personnes là, c’est leur offrir la possibilité d’en expérimenter l’intérêt sans se sentir discriminées par le porte monnaie.

Dégooglisons Internet - Image CC BY-SA David Revoy
Dégooglisons Internet – Illustration de David Revoy – Licence : CC-By 4.0

Mais surtout, nous savons qu’un grand nombre de bénéficiaires de nos services font des dons… non pas à Framasoft, mais à d’autres associations, structures et initiatives amies, que l’on côtoie parfois dans un archipel de collaborations, et avec qui on partage des valeurs fondamentales.

Nous le savons, car les membres de Framasoft participent aussi à cette économie du don.

C’est la force de ce modèle solidaire : votre don bénéficie à plus de personnes que juste vous, et ces personnes peuvent à leur tour contribuer à une autre initiative, qui vous servira.

Contribuer au modèle solidaire de Framasoft

Parmi les membres de Framasoft, on donne à…

Alors c’est super tard, et super difficile comme exercice, parce qu’on sait qu’on va oublier du monde et s’en vouloir…

Mais nous préférons proposer une liste imparfaite plutôt que de ne pas vous donner des idées, si vous cherchez à qui donner d’ici la fin de l’année (ou en 2025, hein : ça marche aussi !).

Sachez que parmi nos membres (personnellement et donc hyper subjectivement), nous aussi on donne… Entre autres, on donne à…

Libertés, Communs et numérique

  • l’April, association pour la défense et la promotion du logiciel libre ;
  • Open Food Facts, pour un commun indépendant qui décrypte ce qu’il y a dans nos assiettes ;
  • Open Street Map France, pour un commun qui fait l’Histoire en dessinant la géographie ;
  • La Contre-Voie, association qui héberge des services web et sensibilise au numérique éthique ;
  • YesWiki, association au service du logiciel libre pour créer des sites communautaires et collaboratifs ;
  • Wikimédia France, l’association des contributions aux projets autour de la Wikipédia Francophone ;
  • InterHop, pour le développement de communs numériques de la santé ;
  • Exodus Privacy, association qui évalue et popularise le niveau de vie privée des applications android ;
  • Internet Archive, pour la préservation et l’archivage de l’internet ;
  • GCompris, logiciel libre éducatif pour les enfants de 2 à 10 ans ;
  • Thunderbird, le client mail libre qu’on ne présente plus ;
  • Abuledu-fr, pour créer et promouvoir des outils numériques libres et éthiques à vocation pédagogique ;
  • La Digitale pour concevoir et développer des outils numériques libres pour les enseignantes et les enseignants ;
  • Flus, logiciel libre pour trier et partager sa veille digitale sans captation de l’attention ;
  • Codeberg, organisation sans but lucratif allemande pour le partage de code et le soutien des communs :

 

Résistances, empouvoirement et justices

 

Journalistes, artistes : cultiver les libertés

  • Au Poste ! Média indépendant qui défend les libertés publiques (et utilise et promeut des outils Libres) ;
  • Blast Info, autre média indépendant et citoyen, qui lui aussi co-diffuse ses contenus sur PeerTube ;
  • Next, web média indépendant sur les évolutions du numérique ;
  • David Revoy, artiste du web-comic libre Pepper & Carrot (et des belles illustration pour Framasoft <3)
  • Gee, alias Ptilouk, auteur du blog BD Grise-Bouille, de jeux vidéos, le tout sous licences libres !
  • Hacking Social, autrices et vidéastes popularisant la psychologie sociale, et l’auto défense contre les autoritarismes ;
  • Khaganat, association pour la création d’un univers libre afin d’y créer des histoires, œuvres, jeux vidéos ;
  • Lent Ciné, association de production et diffusion d’œuvres audiovisuelles libres ;
  • Les designers éthiques, qui œuvrent pour aider à produire un numérique émancipateur durable et désirable ;
  • Libre à toi, association de la radio Cause Commune (radio promouvant les Communs) ;
  • Dogmazic, plateforme de partage de musique sous licence libre ;

illustration où des animaux mascottes de projets framasoft rassemblent des ballons sur deux piquets au sol. Les ballons prennent la forme d'un 20 géant.
Illustration de David Revoy – Licence : CC-By 4.0

Le défi (presque gagné) : 20 000 fois 20 € de dons pour les 20 ans de Framasoft !

Framasoft est financée par vos dons ! Chaque tranche de 20 euros de dons sera un nouveau ballon pour célébrer 20 ans d’aventures et nous aider à continuer et décoller une 21e année.

Jauge de dons de Framasoft au 30 décembre 2024, à 268 890 €

 

À l’heure où nous publions, nous avons collecté 268 890 € sur notre objectif de campagne. Il ne reste plus que quelques heures pour convaincre les copaines et récolter de quoi faire décoller Framasoft.

(Et on rappelle que Framasoft étant reconnue d’intérêt général, c’est le dernier jour pour faire un don dont 66 % peuvent être déduits de vos impôts sur les revenus 2024)

Rendez-vous ce soir : défi relevé ?

🎈🎈🎈Relever le défi avec Framasoft🎈🎈🎈




Framasoft en chiffres, édition 2024

Quel est l’impact concret des actions de notre association ? C’est la question à laquelle nous aimons répondre en fin d’année (cf. chiffres 2022, chiffres 2023) : prendre le temps de chiffrer nos actions est essentiel pour réaliser le service que l’on peut rendre aux autres. En route pour les Framastats 2024 !

🎈 Framasoft a 20 ans🎈 : Contribuez pour financer une 21ième année !

Grâce à vos dons (défiscalisables à 66 %), l’association Framasoft agit depuis 20 ans pour faire avancer le Web éthique et convivial. Retrouvez un focus sur certaines de nos actions en 2024 sur le site Soutenir Framasoft.

➡️ Lire la série d’articles de cette campagne (nov. – déc. 2024)

Du côté de nos services en ligne…

Plus de 1,8 million de personnes naviguent sur nos sites internet chaque mois : c’est trois fois plus de visites que n’en reçoit la Tour Eiffel, chaque mois ! C’est assez fou (et très motivant) d’imaginer que ce que nous faisons est utile à tant de monde.

Et service par service, ça donne quoi ?

Framadate

Framadate permet de créer des mini-sondages, notamment pour trouver le bon créneau de rendez-vous. Et en chiffres, Framadate c’est :

  • 37 403 780 visites en 2024, soit 5 millions de plus qu’en 2023
  • 1,246 million de sondages hébergés en 2024 (sensiblement équivalent à 2023)

Graphique présentant l'évolution des visites sur Framadate
Graphique présentant l’évolution des visites sur Framadate

Framapad

Framapad permet de rédiger à plusieurs sur un même document. Framapad est sans doute l’un des plus gros services Etherpad au monde avec :

  • 601 800 pads hébergés actuellement, soit 92 000 de plus qu’en 2023
  • Plusieurs millions de pads hébergés depuis le lancement du service
  • 337 650 comptes sur MyPads (+ 28 000 par rapport à 2023)
  • Plus de 5 millions de visites en 2024

Graphique présentant la répartition des pads selon nos instances Framapad (pads annuels, bimestriels, hebdomadaires, semestriels, mensuels et comptes Mypads)
Graphique présentant la répartition des pads selon nos instances Framapad (pads annuels, bimestriels, hebdomadaires, semestriels, mensuels et comptes Mypads)

 

Framalistes et Framagroupes

Framalistes et Framagroupes permettent de créer des listes de discussion par email. Le serveur de Framalistes étant arrivé au maximum de ses capacités, nous avons ouvert Framagroupes en juin 2023, pour continuer à proposer ce service que nous trouvons indispensable. Framalistes et Framagroupes sont certainement les plus gros serveurs de listes de discussion (hors géants du Web) qui existent, avec :

  • Plus d’1,3 million d’utilisateurs et utilisatrices, soit 200 000 de plus qu’en 2023
  • 69 180 listes ouvertes, soit 5 280 de plus qu’en 2023
  • Environ 300 000 mails envoyés en moyenne par jour ouvré

Framaforms

Framaforms permet de créer simplement des questionnaires en ligne. Framaforms en chiffres c’est :

  • 867 000 visites par mois
  • 597 859 formulaires actuellement hébergés
  • 194 216 formulaires créés cette année (22 000 de plus qu’en 2023)

Graphique présentant l'évolution des visites sur Framaforms (ça grimpe !)
Graphique présentant l’évolution des visites sur Framforms (ça grimpe !)

Framacalc

Framacalc permet de créer des tableurs collaboratifs. C’est peut-être là encore la plus grosse base Ethercalc au monde avec :

  • 4 632 215 visites en 2023
  • 212 000 calcs hébergés

Graphique présentant l'évolution des visites sur Framacalc
Graphique présentant l’évolution des visites sur Framacalc

Framateam

Framateam est un service de tchat, et permet une organisation d’équipe par canaux. C’est probablement l’une des plus grosses instances Mattermost publique au monde avec :

  • 163 730 utilisateurs et utilisatrices sur le service (dont 6 197 se connectent tous les jours), soit 15 000 de plus qu’en 2023
  • 31 703 équipes qui s’organisent
  • 184 537 canaux de discussions (20 000 de plus que l’an passé)
  • Plus de 6 millions de messages échangés cette année (et presque 50 millions depuis le lancement du service)

Statistiques de Framateam, notre instance Mattermost
Statistiques de Framateam, notre instance Mattermost

Framagit

Framagit est une forge logicielle, où développeurs et développeuses peuvent publier leur code et contribuer à celui des autres. Framagit est probablement un des plus gros serveurs Gitlab publics de France avec :

  • 76 945 projets hébergés
  • 53 072 utilisateurs et utilisatrices
  • 10 615 forks
  • 161 156 issues
  • 103 153 Merge requests
  • 1,9 million de notes

Capture écran du tableau d'accueil de Framagit
Capture écran du tableau d’accueil de Framagit

Capture écran du tableau d'accueil de Framagit
Capture écran du tableau d’accueil de Framagit

Framacarte

Framacarte permet de créer des cartes géographiques en ligne. Et en chiffres, c’est :

  • 3 161 967 visites en 2023
  • 8 764 utilisateurs et utilisatrices (+ 2 074 en un an)
  • 196 978 cartes hébergées (+ 16 476 en un an)

Graphique présentant l'évolution des visites sur Framacarte
Graphique présentant l’évolution des visites sur Framacarte

Framatalk

Framatalk permet de créer ou rejoindre un salon de vidéoconférence. Et en chiffres, c’est :

  • 121 765 visites en 2024
  • 27 200 visioconférences hébergées en 2024, soit en moyenne 75 conférences actives pour 200 participant⋅es par jour ouvré

Graphique présentant l'évolution des visites sur Framatalk (remarquez cet énorme pic pendant l'année des confinements !)
Graphique présentant l’évolution des visites sur Framatalk (remarquez cet énorme pic pendant l’année des confinements !)

Framindmap

Framindmap permet de créer des cartes mentales. En chiffres, Framindmap c’est :

  • 282 379 visites en 2024
  • 1,36 1,13 million de cartes mentales hébergées, soit 223 000 cartes créées en 2024
  • 588 584 utilisateurs et utilisatrices, soit 100 000 de plus qu’en 2023

Graphique présentant l'évolution des visites sur Framindmap
Graphique présentant l’évolution des visites sur Framindmap

 

Framavox

Framavox permet à un collectif de se réunir, débattre et prendre des décisions, dans un seul endroit. Framavox est probablement une des plus grosses instances existantes de l’excellent logiciel Loomio, avec :

  • 128 938 utilisateurs et utilisatrices, soit 9 000 de plus qu’en 2023
  • 136 067 visites en 2024
  • 13 388 communautés, ce qui fait plus de 1 000 nouvelles communautés accueillies

Framavox – Illustration de David Revoy

Framagenda

Framagenda permet de créer des calendriers en ligne. Et en chiffres, c’est :

  • près de 300 000 calendriers
  • plus de 130 000 utilisateurices

Framaspace

Framaspace est un environnement de travail collaboratif pour les petites associations et collectifs. En chiffres, c’est :

  • 1 627 associations et petits collectifs qui ne s’organisent pas chez Google
  • 777 nouveaux espaces ouverts en 2024
  • 16 serveurs (dédiés et machines virtuelles) pour 640 To d’espace disque provisionné
  • Plus de 800 000 fichiers hébergés

Une licorne déguisée en cosmonaute (avec une passoire sur la tête) marche sur les nuages et souffle des bulles. Dans ces bulles, on retrouve des cubes symbolisant le travail en commun (dossiers, boite à outils, livres, machine à écrire, boulier, etc.).
Framaspace – Illustration de David Revoy

PeerTube

PeerTube est une alternative aux plateformes vidéo. Et en chiffres c’est :

  • 422 000 utilisateurs et utilisatrices, soit 122 000 de plus qu’en 2023
  • 922 000 vidéos
  • 1 062 instances publiques
  • 509 000 commentaires sur les vidéos, contre 200 000 l’an passé, soit une multiplication par 2,5 !
  • 443 millions de vues, soit 2 fois plus que l’an passé (on compte une vue à partir de 10 secondes sur la vidéo)
  • 503 To de fichiers
  • 411 issues résolues en 2024 (sur 4 842 issues traitées au total)
  • 441 591 visites sur JoinPeerTube.org
  • 1 nouvelle application smartphone !

Statistiques PeerTube des 3 derniers mois de 2023 : instances, utilisateurices, commentaires, vidéos, vues et poids des vidéos

Mobilizon

Mobilizon est l’alternative que nous proposons aux groupes et événements Facebook. En chiffres, c’est :

Mobilizon – Illustration de David Revoy

Framadrive

Framadrive, service de stockage de documents, n’est plus ouvert aux inscriptions, mais fonctionne toujours ! Et en chiffres, c’est :

  • Plus de 10 millions de fichiers
  • Près de 5 000 utilisateurs et utilisatrices
  • 2,6 To d’espace disque utilisé

Framapiaf

Framapiaf, installation du logiciel de micro-bloging Mastodon, n’est plus ouvert aux nouvelles inscriptions mais reste bien actif. En chiffres, c’est :

  • 1 400 utilisateurs et utilisatrices s’étant connecté·es dans les 30 derniers jours
  • 2 597 813 messages postés depuis la mise en place de l’instance.

Dorlotons Dégooglisons – Illustration de David Revoy

Infrastructure technique

Framasoft est, à notre connaissance, le plus gros hébergeur associatif de services en ligne au monde. Et a priori, ce modèle de fonctionnement associatif n’existe nulle part ailleurs ! En chiffres :

  • 63 serveurs et 63 machines virtuelles qui hébergent nos services en ligne (soit 5 serveurs physiques de plus qu’en 2024)
  • 0,7 tonne équivalent CO2 pour la consommation électrique annuelle de notre infrastructure technique (notre hébergeur Hetzner utilisant des énergies renouvelables hydroélectriques et éoliennes)
  • 1 admin sys à temps plein et 2 personnes tech en soutien
  • 1 personne au support à temps plein

Je participe au financement des Framaservices

 

L’association et les communs culturels

Les services en ligne que nous mettons à disposition du public ne sont pas les seuls à occuper nos journées. Voilà quelques chiffres concernant d’autres actions que nous avons menées à bien cette année.

Dessin dans le style d'un jeu vidéo de combat, où s'affronte l'éléphant et le piaf de Dégooglisonse et le monstre de Google Suite.
C’est grâce à vos dons que Espéhef et Ahèmvé font face à Hydrooffice ! Illustration de David Revoy

En interne

  • Framasoft c’est 25 membres bénévoles et 9 salarié⋅es
  • 45 interventions en 2024, en présentiel et/ou en ligne sur le numérique, les communs culturels et leurs enjeux
  • Plus de 102 articles publiés sur le Framablog en 2024
  • La parution de notre premier ouvrage de notre maison d’édition Des Livres en Communs : L’amour en Commun

Les projets partagés

  • 1 128 notices sur l’annuaire Framalibre, soit 31 de plus que l’an passé
  • 51 prestataires (30 de plus qu’en 2023) en capacité d’accompagner des associations dans leur émancipation numérique recensés sur le site emancipasso.org
  • La participation à la réunion de clôture du projet ECHO Network
  • La transmission de la coordination après 8 années d’animation du collectif CHATONS regroupant actuellement 96 hébergeurs alternatifs

Je soutiens les actions de Framasoft

Le défi : 20 000 fois 20 € de dons pour les 20 ans de Framasoft !

Framasoft est financée par vos dons ! Chaque tranche de 20 euros de dons sera un nouveau ballon pour célébrer 20 années d’aventures et nous aider à continuer et décoller une 21e année.

illustration où des animaux mascottes de projets framasoft rassemblent des ballons sur deux piquets au sol. Les ballons prennent la forme d'un 20 géant.
Illustration de David Revoy – Licence : CC-By 4.0

À ce jour, nous avons dépassé le pallier des 200 000 €, qui nous assure de pouvoir maintenir l’existant (en équipe réduite) en 2025.

Tout ce qui nous rapprochera du pallier idéal des 400 000 € nous permettra de pouvoir accueillir de nouvelles forces, améliorer des services web, s’attaquer à de nouveaux enjeux… bref de décoller en 2025.

Il nous reste 4 jours pour convaincre les copaines et récolter de quoi faire décoller Framasoft.

Alors : défi relevé ?

🎈 Je soutiens la 21e année de Framasoft 🎈