L’IA Open Source existe-t-elle vraiment ?

À l’heure où tous les mastodontes du numérique, GAFAM comme instituts de recherche comme nouveaux entrants financés par le capital risque se mettent à publier des modèles en masse (la plateforme Hugging Face a ainsi dépassé le million de modèles déposés le mois dernier), la question du caractère « open-source » de l’IA se pose de plus en plus.

Ainsi, l’Open Source Initiative (OSI) vient de publier une première définition de l’IA Open-Source, et la Linux Foundation (dont le nom peut prêter à confusion, mais qui ne représente surtout qu’une oligarchie d’entreprises du secteur) s’interroge également sur le terme.

Au milieu de tout cela, OpenAI devient de manière assez prévisible de moins en moins « open », et si Zuckerberg et Meta s’efforcent de jouer la carte de la transparence en devenant des hérauts de l’« IA Open-Source », c’est justement l’OSI qui leur met des bâtons dans les roues en ayant une vision différente de ce que devrait être une IA Open-Source, avec en particulier un pré-requis plus élevé sur la transparence des données d’entraînement.

Néanmoins, la définition de l’OSI, si elle embête un peu certaines entreprises, manque selon la personne ayant écrit ce billet (dont le pseudo est « tante ») d’un élément assez essentiel, au point qu’elle se demande si « l’IA open source existe-t-elle vraiment ? ».

Note : L’article originel a été publié avant la sortie du texte final de l’OSI, mais celui-ci n’a semble t-il pas changé entre la version RC1 et la version finale.

L’IA Open Source existe-t-elle vraiment ?

Par tante, sous licence CC BY-SA (article originel).
Une traduction Framalang par tcit et deux contributeur·ices anonymes.
Photo de la bannière par Robert Couse-Baker.

 

 

L’Open Source Initiative (OSI) a publié la RC1 (« Release Candidate 1 » signifiant : cet écrit est pratiquement terminé et sera publié en tant que tel à moins que quelque chose de catastrophique ne se produise) de la « Définition de l’IA Open Source ».

D’aucuns pourraient se demander en quoi cela est important. Plein de personnes écrivent sur l’IA, qu’est-ce que cela apporte de plus ? C’est la principale activité sur LinkedIn à l’heure actuelle. Mais l’OSI joue un rôle très particulier dans l’écosystème des logiciels libres. En effet, l’open source n’est pas seulement basé sur le fait que l’on peut voir le code, mais aussi sur la licence sous laquelle le code est distribué : Vous pouvez obtenir du code que vous pouvez voir mais que vous n’êtes pas autorisé à modifier (pensez au débat sur la publication récente de celui de WinAMP). L’OSI s’est essentiellement chargée de définir parmi les différentes licences utilisées partout lesquelles sont réellement « open source » et lesquelles sont assorties de restrictions qui sapent cette idée.

C’est très important : le choix d’une licence est un acte politique lourd de conséquences. Elle peut autoriser ou interdire différents modes d’interaction avec un objet ou imposer certaines conditions d’utilisation. La célèbre GPL, par exemple, vous permet de prendre le code mais vous oblige à publier vos propres modifications. D’autres licences n’imposent pas cette exigence. Le choix d’une licence a des effets tangibles.

Petit aparté : « open source » est déjà un terme un peu problématique, c’est (à mon avis) une façon de dépolitiser l’idée de « Logiciel libre ». Les deux partagent certaines idées, mais là où « open source » encadre les choses d’une manière plus pragmatique « les entreprises veulent savoir quel code elles peuvent utiliser », le logiciel libre a toujours été un mouvement plus politique qui défend les droits et la liberté de l’utilisateur. C’est une idée qui a probablement été le plus abimée par les figures les plus visibles de cet espace et qui devraient aujourd’hui s’effacer.

Qu’est-ce qui fait qu’une chose est « open source » ? L’OSI en dresse une courte liste. Vous pouvez la lire rapidement, mais concentrons-nous sur le point 2 : le code source :

Le programme doit inclure le code source et doit permettre la distribution du code source et de la version compilée. Lorsqu’une quelconque forme d’un produit n’est pas distribuée avec le code source, il doit exister un moyen bien connu d’obtenir le code source pour un coût de reproduction raisonnable, de préférence en le téléchargeant gratuitement sur Internet. Le code source doit être la forme préférée sous laquelle un programmeur modifierait le programme. Le code source délibérément obscurci n’est pas autorisé. Les formes intermédiaires telles que la sortie d’un préprocesseur ou d’un traducteur ne sont pas autorisées.
Open Source Initiative

Pour être open source, un logiciel doit donc être accompagné de ses sources. D’accord, ce n’est pas surprenant. Mais les rédacteurs ont vu pas mal de conneries et ont donc ajouté que le code obfusqué (c’est-à-dire le code qui a été manipulé pour être illisible) ou les formes intermédiaires (c’est-à-dire que vous n’obtenez pas les sources réelles mais quelque chose qui a déjà été traité) ne sont pas autorisés. Très bien. C’est logique. Mais pourquoi les gens s’intéressent-ils aux sources ?

Les sources de la vérité

L’open source est un phénomène de masse relativement récent. Nous avions déjà des logiciels, et même certains pour lesquels nous ne devions pas payer. À l’époque, on les appelait des « Freeware », des « logiciels gratuits ». Les freewares sont des logiciels que vous pouvez utiliser gratuitement mais dont vous n’obtenez pas le code source. Vous ne pouvez pas modifier le programme (légalement), vous ne pouvez pas l’auditer, vous ne pouvez pas le compléter. Mais il est gratuit. Et il y avait beaucoup de cela dans ma jeunesse. WinAMP, le lecteur audio dont j’ai parlé plus haut, était un freeware et tout le monde l’utilisait. Alors pourquoi se préoccuper des sources ?

Pour certains, il s’agissait de pouvoir modifier les outils plus facilement, surtout si le responsable du logiciel ne travaillait plus vraiment dessus ou commençait à ajouter toutes sortes de choses avec lesquelles ils n’étaient pas d’accord (pensez à tous ces logiciels propriétaires que vous devez utiliser aujourd’hui pour le travail et qui contiennent de l’IA derrière tous les autres boutons). Mais il n’y a pas que les demandes de fonctionnalités. Il y a aussi la confiance.

Lorsque j’utilise un logiciel, je dois faire confiance aux personnes qui l’ont écrit. Leur faire confiance pour qu’ils fassent du bon travail, pour qu’ils créent des logiciels fiables et robustes. Qu’ils n’ajoutent que les fonctionnalités décrites dans la documentation et rien de caché, de potentiellement nuisible.

Les questions de confiance sont de plus en plus importantes, d’autant plus qu’une grande partie de notre vie réelle repose sur des infrastructures numériques. Nous savons tous que nos infrastructures doivent comporter des algorithmes de chiffrement entièrement ouverts, évalués par des pairs et testés sur le terrain, afin que nos communications soient à l’abri de tout danger.

L’open source est – en particulier pour les systèmes et infrastructures critiques – un élément clé de l’établissement de cette confiance : Parce que vous voulez que (quelqu’un) soit en mesure de vérifier ce qui se passe. On assiste depuis longtemps à une poussée en faveur d’une plus grande reproductibilité des processus de construction. Ces processus de compilation garantissent essentiellement qu’avec le même code d’entrée, on obtient le même résultat compilé. Cela signifie que si vous voulez savoir si quelqu’un vous a vraiment livré exactement ce qu’il a dit, vous pouvez le vérifier. Parce que votre processus de construction créerait un artefact identique.

Logo du projet Reproducible builds
Le projet Reproducible builds cherche à promouvoir la reproductibilité des systèmes libres, pour plus de transparence.
Le projet est notamment financé par le Sovereign Tech Fund.

 

Bien entendu, tout le monde n’effectue pas ce niveau d’analyse. Et encore moins de personnes n’utilisent que des logiciels issus de processus de construction reproductibles – surtout si l’on considère que de nombreux logiciels ne sont pas compilés aujourd’hui. Mais les relations sont plus nuancées que le code et la confiance est une relation : si vous me parlez ouvertement de votre code et de la manière dont la version binaire a été construite, il me sera beaucoup plus facile de vous faire confiance. Savoir ce que contient le logiciel que j’exécute sur la machine qui contient également mes relevés bancaires ou mes clés de chiffrement.

Mais quel est le rapport avec l’IA ?

Les systèmes d’IA et les 4 libertés

Les systèmes d’IA sont un peu particuliers. En effet, les systèmes d’IA – en particulier les grands systèmes qui fascinent tout le monde – ne contiennent pas beaucoup de code par rapport à leur taille. La mise en œuvre d’un réseau neuronal se résume à quelques centaines de lignes de Python, par exemple. Un « système d’IA » ne consiste pas seulement en du code, mais en un grand nombre de paramètres et de données.

Un LLM moderne (ou un générateur d’images) se compose d’un peu de code. Vous avez également besoin d’une architecture de réseau, c’est-à-dire de la configuration des neurones numériques utilisés et de la manière dont ils sont connectés. Cette architecture est ensuite paramétrée avec ce que l’on appelle les « poids » (weights), qui sont les milliards de chiffres dont vous avez besoin pour que le système fasse quelque chose. Mais ce n’est pas tout.

Pour traduire des syllabes ou des mots en nombres qu’une « IA » peut consommer, vous avez besoin d’une intégration, une sorte de table de recherche qui vous indique à quel « jeton » (token) correspond le nombre « 227 ». Si vous prenez le même réseau neuronal mais que vous lui appliquez une intégration différente de celle avec laquelle il a été formé, tout tomberait à l’eau. Les structures ne correspondraient pas.

Représentation d'une puce informatique sous la forme d'un cerveau.
Image sous CC BY par Mike MacKenzie & Liam Huang

Ensuite, il y a le processus de formation, c’est-à-dire le processus qui a créé tous les « poids ». Pour entraîner une « IA », vous lui fournissez toutes les données que vous pouvez trouver et, après des millions et des milliards d’itérations, les poids commencent à émerger et à se cristalliser. Le processus de formation, les données utilisées et la manière dont elles le sont sont essentiels pour comprendre les capacités et les problèmes d’un système d’apprentissage automatique : si vous voulez réduire les dommages dans un réseau, vous devez savoir s’il a été formé sur Valeurs Actuelles ou non, pour donner un exemple.

Et c’est là qu’est le problème.

L’OSI « The Open Source AI Definition – 1.0-RC1 » exige d’une IA open source qu’elle offre quatre libertés à ses utilisateurs :

  1. Utiliser le système à n’importe quelle fin et sans avoir à demander la permission.
  2. Étudier le fonctionnement du système et inspecter ses composants.
  3. Modifier le système dans n’importe quel but, y compris pour changer ses résultats.
  4. Partager le système pour que d’autres puissent l’utiliser, avec ou sans modifications, dans n’importe quel but.

Jusqu’ici tout va bien. Cela semble raisonnable, n’est-ce pas ? Vous pouvez inspecter, modifier, utiliser et tout ça. Génial. Tout est couvert dans les moindre détails, n’est-ce pas ? Voyons rapidement ce qu’un système d’IA doit offrir. Le code : Check. Les paramètres du modèle (poids, configurations) : Check ! Nous sommes sur la bonne voie. Qu’en est-il des données ?

Informations sur les données : Informations suffisamment détaillées sur les données utilisées pour entraîner le système, de manière à ce qu’une personne compétente puisse construire un système substantiellement équivalent. Les informations sur les données sont mises à disposition dans des conditions approuvées par l’OSI.

En particulier, cela doit inclure (1) une description détaillée de toutes les données utilisées pour la formation, y compris (le cas échéant) des données non partageables, indiquant la provenance des données, leur portée et leurs caractéristiques, la manière dont les données ont été obtenues et sélectionnées, les procédures d’étiquetage et les méthodes de nettoyage des données ; (2) une liste de toutes les données de formation accessibles au public et l’endroit où les obtenir ; et (3) une liste de toutes les données de formation pouvant être obtenues auprès de tiers et l’endroit où les obtenir, y compris à titre onéreux.
Open Source Initiative

Que signifie « informations suffisamment détaillées » ? La définition de l’open source ne parle jamais de « code source suffisamment détaillé ». Vous devez obtenir le code source. Tout le code source. Et pas sous une forme obscurcie ou déformée. Le vrai code. Sinon, cela ne veut pas dire grand-chose et ne permet pas d’instaurer la confiance.

La définition de l’« IA Open Source » donnée par l’OSI porte un grand coup à l’idée d’open source : en rendant une partie essentielle du modèle (les données d’entraînement) particulière de cette manière étrange et bancale, ils qualifient d’« open source » toutes sortes de choses qui ne le sont pas vraiment, sur la base de leur propre définition de ce qu’est l’open source et de ce à quoi elle sert.

Les données d’apprentissage d’un système d’IA font à toutes fins utiles partie de son « code ». Elles sont aussi pertinentes pour le fonctionnement du modèle que le code littéral. Pour les systèmes d’IA, elles le sont probablement encore plus, car le code n’est qu’une opération matricielle générique avec des illusions de grandeur.

L’OSI met une autre cerise sur le gâteau : les utilisateurs méritent une description des « données non partageables » qui ont été utilisées pour entraîner un modèle. Qu’est-ce que c’est ? Appliquons cela au code à nouveau : si un produit logiciel nous donne une partie essentielle de ses fonctionnalités simplement sous la forme d’un artefact compilé et nous jure ensuite que tout est totalement franc et honnête, mais que le code n’est pas « partageable », nous n’appellerions pas ce logiciel « open source ». Parce qu’il n’ouvre pas toutes les sources.

Une « description » de données partiellement « non partageables » vous aide-t-elle à reproduire le modèle ? Non. Vous pouvez essayer de reconstruire le modèle et il peut sembler un peu similaire, mais il est significativement différent. Cela vous aide-t-il d’« étudier le système et d’inspecter ses composants » ? Seulement à un niveau superficiel. Mais si vous voulez vraiment analyser ce qu’il y a dans la boîte de statistiques magiques, vous devez savoir ce qu’il y a dedans. Qu’est-ce qui a été filtré exactement, qu’est-ce qui est entré ?

Cette définition semble très étrange venant de l’OSI, n’est-ce pas ? De toute évidence, cela va à l’encontre des idées fondamentales de ce que les gens pensent que l’open source est et devrait être. Alors pourquoi le faire ?

L’IA (non) open source

Voici le truc. À l’échelle où nous parlons aujourd’hui de ces systèmes statistiques en tant qu’« IA », l’IA open source ne peut pas exister.

De nombreux modèles plus petits ont été entraînés sur des ensembles de données publics explicitement sélectionnés et organisés. Ceux-ci peuvent fournir toutes les données, tout le code, tous les processus et peuvent être appelés IA open-source. Mais ce ne sont pas ces systèmes qui font s’envoler l’action de NVIDIA.

Ces grands systèmes que l’on appelle « IA » – qu’ils soient destinés à la génération d’images, de texte ou multimodaux – sont tous basés sur du matériel acquis et utilisé illégalement. Parce que les ensembles de données sont trop volumineux pour effectuer un filtrage réel et garantir leur légalité. C’est tout simplement trop.

Maintenant, les plus naïfs d’entre vous pourraient se demander : « D’accord, mais si vous ne pouvez pas le faire légalement, comment pouvez-vous prétendre qu’il s’agit d’une entreprise légitime ? » et vous auriez raison, mais nous vivons aussi dans un monde étrange où l’espoir qu’une innovation magique et / ou de l’argent viendront de la reproduction de messages Reddit, sauvant notre économie et notre progrès.

L’« IA open source » est une tentative de « blanchir » les systèmes propriétaires. Dans leur article « Repenser l’IA générative open source : l’openwashing et le règlement sur l’IA de l’UE », Andreas Liesenfeld et Mark Dingemanse ont montré que de nombreux modèles d’IA « Open-Source » n’offrent guère plus que des poids de modèles ouverts. Signification : Vous pouvez faire fonctionner la chose mais vous ne savez pas vraiment ce que c’est.

Cela ressemble à quelque chose que nous avons déjà eu : c’est un freeware. Les modèles open source que nous voyons aujourd’hui sont des blobs freeware propriétaires. Ce qui est potentiellement un peu mieux que l’approche totalement fermée d’OpenAI, mais seulement un peu.

Certains modèles proposent des fiches de présentation du modèle ou d’autres documents, mais la plupart vous laissent dans l’ignorance. Cela s’explique par le fait que la plupart de ces modèles sont développés par des entreprises financées par le capital-risque qui ont besoin d’une voie théorique vers la monétisation.

L’« open source » est devenu un autocollant comme le « Commerce équitable », quelque chose qui donne l’impression que votre produit est bon et digne de confiance. Pour le positionner en dehors du diabolique espace commercial, en lui donnant un sentiment de proximité. « Nous sommes dans le même bateau » et tout le reste. Mais ce n’est pas le cas. Nous ne sommes pas dans le même bateau que Mark fucking Zuckerberg, même s’il distribue gratuitement des poids de LLM parce que cela nuit à ses concurrents. Nous, en tant que personnes normales vivant sur cette planète qui ne cesse de se réchauffer, ne sommes avec aucune de ces personnes.

Photo d'un sticker où il est marqué « Open-Source Fuck Yeah ».
Les libristes adorent pourtant les stickers. Image sous CC BY-SA par Kirsten Comandich.

Mais il y a un autre aspect à cette question, en dehors de redorer l’image des grands noms de la technologie et de leurs entreprises. Il s’agit de la légalité. Au moins en Allemagne, il existe des exceptions à certaines lois qui concernent normalement les auteurs de LLM : si vous le faites à des fins de recherche, vous êtes autorisé à récupérer pratiquement n’importe quoi. Vous pouvez ensuite entraîner des modèles et publier ces poids, et même s’il y a des contenus de Disney là-dedans, vous n’avez rien à craindre. C’est là que l’idée de l’IA open source joue un rôle important : il s’agit d’un moyen de légitimer un comportement probablement illégal par le biais de l’openwashing : en tant qu’entreprise, vous prenez de l’« IA open source » qui est basée sur tous les éléments que vous ne seriez pas légalement autorisé à toucher et vous l’utilisez pour construire votre produit. Faites de l’entraînement supplémentaire avec des données sous licence, par exemple.

L’Open Source Initiative a attrapé le syndrome FOMO (N.d.T : Fear of Missing Out) – tout comme le jury du prix Nobel. Elle souhaite également participer à l’engouement pour l’« IA ».

Mais pour les systèmes que nous appelons aujourd’hui « IA », l’IA open source n’est pas possible dans la pratique. En effet, nous ne pourrons jamais télécharger toutes les données d’entraînement réelles.

« Mais tante, nous n’aurons jamais d’IA open source ». C’est tout à fait exact. C’est ainsi que fonctionne la réalité. Si vous ne pouvez pas remplir les critères d’une catégorie, vous n’appartenez pas à cette catégorie. La solution n’est pas de changer les critères. C’est comme jouer aux échecs avec les pigeons.

 




Un créateur passe de DC (Comics) à DP (Domaine Public)

Bill Willingham, fort mécontent de son éditeur DC Comics, décide de porter toutes ses Fables dans le Domaine Public. Il s’en explique dans un communiqué de presse du 14 septembre.

En édition, le modèle auquel nous sommes conformé·es, c’est qu’une personne qui souhaite avoir un revenu de sa plume confie le fruit de son labeur à un tiers, l’éditeur, qui se chargera de le faire fructifier et qui reversera en échange de cet accord encadré par contrat une partie des revenus générés à l’artiste. C’est ce que le droit d’auteur standard défend comme modèle.

Sauf que la réalité est bien loin de cette jolie fiction et les relations conflictuelles qui naissent au sein de l’industrie ne sont pas rares. Auteurs et autrices sont fréquemment confronté·es à des soucis avec leur « partenaire » : retards de paiements, mensonges sur les tirages, obfuscation des résultats de vente, obligation de participation gratuite au marketing, non-respect des souhaits initiaux, abus au sein des clauses contractuelles.

Bref, il arrive que le capitalisme basé sur la propriété intellectuelle ne puisse s’empêcher de traiter auteurs et autrices comme tous ses fournisseurs : comme des quantités négligeables dont il faut extraire le plus de valeur possible tout en minimisant au maximum les contreparties, quitte à profiter d’un rapport de force favorable pour ne pas honorer ses accords ou en le faisant de façon abusive. Et, comme le prouve l’histoire ci-dessous, la réaction des artistes tend parfois à la radicalité.

Nous ne pouvons déterminer exactement quelles seront les conséquences juridiques (et pratiques quant à l’usage de son univers) des décisions de Bill Willingham, surtout qu’elles prennent place en milieu anglo-saxon où la propriété intellectuelle ne relève pas des mêmes cadres juridiques qu’en France (soumise à la convention de Berne), mais il nous semblait intéressant de traduire le billet où il exprime son ras-le-bol et sa décision d’autant plus surprenante qu’il s’est toujours considéré comme un conservateur, politiquement parlant.

Vous trouverez au bas de cet article des liens qui exposent la situation des auteurs en France (spoiler alert : c’est pas brillant…).

— Yann Kervran

Publication originale : Willingham Sends Fables Into the Public Domain avec quelques éléments de cette auto-interview : More About Fables in the Public Domain

Traduction Framalang : goofy, Henri-Paul, JLuc, Julien / Sphinx

 

Bill Willingham élève Fables dans le domaine public

entre un lion et un lionceau, une jeune femme endormie, de nombreux papîllons bleu sur le fond orange. des "bulles" bleues portent les lettres du mot "Fables"

 

À compter du 15 septembre 2023, la propriété de la BD Fables, ce qui inclut tous les personnages et les séries dérivées, entre dans le domaine public. Ce qui appartenait intégralement au seul Bill Willingham est désormais la propriété de tout le monde et pour toujours. C’est chose faite et comme vous le diront la plupart des spécialistes, une fois que c’est fait, pas de retour en arrière possible. Ce n’est ni possible ni envisageable.

— Pourquoi avoir fait ça ?

Pour plusieurs de raisons. Voilà un certain temps que j’y réfléchis. Donc, sans ordre particulier :

1. Sous l’angle pratique : quand j’ai signé mon premier contrat d’édition en tant qu’auteur-créateur avec DC Comics, l’entreprise était dirigée par des hommes et des femmes honnêtes et intègres. La plupart interprétaient les détails du contrat de façon équitable et transparente. Il arrivait immanquablement que des problèmes apparaissent et nous réglions ça comme des femmes et des hommes raisonnables. Depuis lors, au cours d’une vingtaine d’années à peu près, ces personnes sont parties ou ont été virées pour être remplacées par un ballet renouvelé d’inconnus sans intégrité mesurable, qui dorénavant choisissent d’interpréter chaque détail du contrat dans le seul intérêt de DC Comics et ses filiales. À une époque la propriété des Fables était entre de bonnes mains, mais maintenant, avec l’usure et le remplacement des personnels, la propriété des Fables est tombée entre de mauvaises mains.

Comme je n’ai pas les moyens d’intenter un procès à DC Comics pour les contraindre à respecter la lettre et l’esprit de nos accords de longue date, et puisque même si je gagnais un procès ça me coûterait des sommes d’argent pharamineuses et des années de ma vie (j’ai 67 ans donc pas d’années à perdre), j’ai décidé de suivre une autre voie et de combattre sur un autre front, inspiré par les principes de la guerre asymétrique.

J’ai choisi de l’offrir à tout le monde. Si je n’ai pas pu empêcher Fables de tomber entre de mauvaises mains, c’est au moins une façon de faire en sorte qu’elles tombent également entre de nombreuses bonnes mains. Puisque je crois sincèrement qu’il y a encore davantage de bonnes personnes que de mauvaises dans le monde, je considère cela comme une forme de victoire.

2. Sous l’angle philosophique : au cours de la dernière décennie, mes réflexions sur la manière de réformer les lois sur les marques et le droit d’auteur dans ce pays (et dans d’autres, je suppose) ont subi une transformation radicale. Les lois actuelles sont un méli-mélo d’accords sous la table et contraires à l’éthique visant à maintenir les marques et les droits d’auteur entre les mains de grandes entreprises, qui peuvent largement se permettre d’acheter les résultats qu’elles souhaitent.

Dans mon modèle idéal de réforme radicale de ces lois, j’aimerais qu’une propriété intellectuelle soit la propriété de son créateur d’origine pendant une période pouvant aller jusqu’à vingt ans à compter de la première publication, puis qu’elle tombe dans le domaine public pour que tous puissent l’utiliser. Cependant, à tout moment avant l’expiration de cette période de vingt ans, vous, le propriétaire de la propriété intellectuelle, pouvez la vendre à une autre personne physique ou morale, qui peut en avoir l’usage exclusif pendant une durée maximale de dix ans. C’est ainsi maintenant et il ne peut alors pas être revendu. Cela entre dans le domaine public. Toute propriété intellectuelle peut-elle être conservée à usage exclusif au maximum pendant une trentaine d’années au maximum, et pas plus, sans exception.

Bien sûr, si je dois croire à des idées aussi radicales, quel genre d’hypocrite serais-je si je ne les mettais pas en pratique ? Fables est mon bébé depuis une vingtaine d’années maintenant. Il est temps de laisser tomber. C’est mon premier test de ce processus. Si cela fonctionne, et je ne vois aucune raison légale pour laquelle cela ne fonctionnerait pas, d’autres propriétés viendront à l’avenir. Étant donné que DC, ou tout autre personne morale, n’est pas réellement propriétaire de l’œuvre, ils n’ont pas leur mot à dire dans cette décision.

— Qu’est-ce que DC Comics vous a fait au juste pour provoquer ça ?

Trop de choses pour les lister de manière exhaustive, mais voici les points essentiels. Pendant toutes ces années où j’ai été en affaires avec DC Comics, que ce soit avec Fables ou d’autres propriétés intellectuelles, DC a toujours violé ses accords avec moi. En général sur des points mineurs, comme d’oublier de me demander mon avis sur les artistes pour de nouvelles histoires, ou pour les images de couverture, les formats des nouvelles collections, etc.

À cette époque, quand on les appelait pour ça, ils répondaient à chaque fois : « Désolé, on vous a encore oublié, c’est passé entre les mailles du filet. Ils ont utilisé si souvent cette expression « passer entre les mailles » comme un automatisme que j’ai fini par leur interdire de l’employer encore. Ils sont souvent en retard pour la déclaration des royalties et les sous-estiment souvent, ce qui me force à les poursuivre pour qu’ils paient le reste de ce qu’ils me doivent.

Dernièrement, leurs pratiques sont devenues plus que pénibles, débouchant sur une espèce de confrontation. Pour commencer, ils ont essayé de m’extorquer la propriété de Fables. Lorsque Mark Doyle et Dan Didio (tout deux bons professionnels et licenciés par DC depuis) m’avaient approché avec le projet de republier Fables pour son 20e anniversaire, pendant les négociations contractuelles pour ces nouvelles parutions, leurs négociateurs juridiques ont tenté d’imposer comme condition que le travail soit réalisé comme prestataire1, transférant de fait, et irrévocablement, la propriété à DC.

Lorsque ça n’a pas fonctionné, leur excuse a été : « Désolé, nous n’avons pas lu votre contrat avant ces négociations, nous pensions que nous en étions propriétaires ».
Plus récemment, lors de discussions pour tenter de résoudre ces différends, les personnes de DC ont admis que leur interprétation de notre accord de publication et de l’accord subséquent sur les droits des médias, étaient qu’ils pouvaient faire ce que bon leur semble avec cette propriété intellectuelle. Ils pourraient changer les histoires ou les personnages à leur convenance. Ils n’auraient aucune obligation de protéger l’intégrité et la valeur de la propriété intellectuelle, d’eux-mêmes ou de parties tierces (Telltale Games par exemple) et qu’ils pourraient radicalement modifier les personnages, le cadre, le prologue de l’histoire (je suis tombé sur le script (texte) qu’ils avaient essayé de me cacher il y a quelques années). Comme une telle licence d’utilisation n’avait pas été négociée dans notre accord de publication initial, ils ne me devraient pas non plus d’argent s’ils fournissaient des droits d’usages de Fables à de tierces parties.

Puis, après avoir capitulé sur certains points lors de réunions téléphoniques suivantes, promettant de me payer l’argent qu’ils me devaient pour avoir fourni une licence de Fables à Telltale Games, dans le cadre de notre nouvel accord, ils sont revenus sur leur parole et m’ont proposé de me payer le montant comme « honoraires de consultant », ce qui leur évitait d’admettre qu’ils me devaient cet argent, tout en incluant un accord de confidentialité m’empêchant de dire quoi que ce soit de négatif à propos de Telltale ou de la licence.

On pourrait encore continuer longtemps ainsi. Il y a tant d’autres, mais comme je l’ai dit, il s’agit là de quelques points saillants. À ce moment-là, comme je n’étais pas d’accord avec toutes leurs nouvelles interprétations de nos accords de longue date, nous étions en conflit. Ils m’ont pratiquement mis au défi de les poursuivre en justice pour faire valoir mes droits, sachant que ce serait une procédure longue, débilitante et coûteuse. Au lieu de cela, j’ai commencé à envisager d’autres solutions.

— Êtes-vous inquiet de savoir ce que DC va faire maintenant ?

Non. Je leur ai donné des années pour faire ce qu’il fallait. J’ai essayé de les raisonner, mais on ne peut pas raisonner ceux qui ne sont pas raisonnables. Ils ont utilisé ces années pour faire des promesses lénifiantes, mentir sur leur volonté de résoudre le problème et faire traîner les choses le plus longtemps possible. Je leur ai donné l’occasion de renégocier les contrats de fond en comble, en formulant les choses sans ambiguïté, et ils ont ignoré cette offre. Je leur ai donné l’occasion, à deux reprises, de simplement déchirer nos contrats et de nous séparer, mais ils ont ignoré ces offres. J’ai essayé de passer par-dessus leur tête, de traiter directement avec leurs nouveaux maîtres et peut-être de trouver quelqu’un disposé à traiter de bonne foi, mais ils ont bloqué toute tentative en ce sens. (Je vous mets au défi d’essayer de demander à n’importe quel responsable de DC Comics d’indiquer à qui il rend compte dans la hiérarchie de l’entreprise). Quoi qu’il en soit, sans leur donner de détails, je les ai prévenus des mois à l’avance que ce moment allait arriver. Je leur ai dit que ce que j’allais faire serait « à la fois légal et éthique ». Et maintenant, c’est arrivé.

Notez que mes contrats avec DC Comics sont toujours en vigueur. Je n’ai rien fait pour les rompre et je ne peux pas y mettre fin unilatéralement. Je ne peux toujours pas publier les bandes dessinées Fables par l’intermédiaire de quelqu’un d’autre que DC Comics. Je ne peux toujours pas autoriser un film Fables par l’intermédiaire de quelqu’un d’autre que DC Comics. Je ne peux pas non plus concéder de licence pour des jouets, des boîtes à lunch ou quoi que ce soit d’autre. Ils doivent toujours me payer pour les livres qu’ils publient. Et je n’abandonne pas les autres sommes qu’ils me doivent. D’une manière ou d’une autre, j’ai l’intention d’obtenir mes 50 % de l’argent qu’ils me doivent depuis des années pour le jeu Telltale et d’autres projets.

De toutes façons, les nouveaux propriétaires à 100 % de Fables n’ont jamais signé de tels contrats.

Pour le meilleur et pour le pire, DC et moi sommes enchaînés par un mariage malheureux, peut-être pour toujours.
Mais pas vous.

Si ma compréhension de la loi est correcte (et je préfère vous dire que la loi sur le copyright est un bazar, intentionnellement vague et trouble et qu’il n’y a pas deux avocats, même ceux spécialisés sur les lois des marques et du copyright, qui tomberaient d’accord sur ces sujets), vous avez le droit de créer vos propres films, dessins animés Fables, de publier vos libres Fables, de fabriquer vos jouets Fables, de faire ce que bon vous semble avec cette propriété, car c’est de la vôtre dont il s’agit.

Mark Buckingham est libre d’écrire sa propre version de Fables (et j’espère de tout mon cœur qu’il le fera). Steve Leialoha est libre d’écrire sa version de Fables (que j’aimerais beaucoup voir), etc. Vous n’avez pas besoin de ma permission (mais vous pouvez avoir mon aval ma bénédiction, selon votre projet). Vous n’avez pas besoin de la permission de DC ou de qui que ce soit d’autres. Vous n’avez jamais signé les accords que j’ai signés avec DC Comics.

Je possède toujours 100% de Fables. Mais maintenant, chaque homme, chaque femme et chaque enfant du monde, ainsi que tous ceux qui naîtront jusqu’à la fin des temps, possèdent également 100 % de Fables. Ce n’est pas une propriété divisée entre nous tous, c’est une propriété multipliée à l’infini entre nous tous. Plutôt cool, non ? Chaque personne possède Fables en totalité et peut décider elle-même de ce qu’elle veut en faire, le cas échéant. C’est un peu comme le miracle de la multiplication des pains et des poissons, métaphoriquement parlant, bien sûr. Quel que soit le nombre de participants, il y en a assez pour tout le monde.

J’ai eu l’immense joie et le plaisir de vous proposer les récits de Fables pendant les vingt dernières années. J’ai hâte de voir ce que vous allez en faire.

image de l'auteur : devant un monstre menaçant ses enfants (angle gauche), une créature féminine farouche(au centre) armée d'une longue épée lui dit que sur ce qu'elle a de plus sacré, elle vas le tailler en pièces s'il a le le malheur de toucher un seul cheveu à sa progéniture (5 enfants effrayés dans l'angle droit)

Et maintenant ? Une affaire à suivre…

La situation juridique est difficile à démêler, comme le souligne cet article du magazine en ligne Comicsblog qui cite la réaction de DC Comics :

« Le comics Fables et ses différents romans graphiques publiés chez DC Comics, de même que les personnages, les histoires et les éléments qui les composent, sont la propriété de DC Comics et restent protégés par la loi des États-Unis sur le copyright et à travers le monde, en accord avec les lois appliquées sur chaque territoire, et ne font pas partie des œuvres tombées dans le domaine public.
DC conserve l’intégralité des droits et prendra les décisions nécessaires pour protéger ses droits à la propriété intellectuelle. »


Liens utiles sur la situation des auteurs en France :


Note :




Zoom et les politiques de confidentialité

Cet article a été publié à l’origine par THE MARKUP, il est traduit et republié avec l’accord de l’auteur selon les termes de la licence CC BY-NC-ND 4.0

 

Publication originale sur le site themarkup.org

 

Traduction Framalang : goofy, MO, Henri-Paul, Wisi_eu

 

Voilà ce qui arrive quand on se met à lire vraiment les politiques de confidentialité

Une récente polémique sur la capacité de Zoom à entraîner des intelligences artificielles avec les conversations des utilisateurs montre l’importance de lire les petits caractères

par Aaron Sankin

 

Photo de l'extérieur du siège de Zoom le 07 février 2023 à San José, Californie. Les côtés droit et gauche de la photo sont masqués par deux zones sombres qui ne sont pas mises au point.
Justin Sullivan/Getty Images

 

photo de l'auteurBonjour, je m’appelle Aaron Sankin, je suis journaliste d’investigation à The Markup. J’écris ici pour vous expliquer que si vous faites quelque chose de très pénible (lire les documents dans lesquels les entreprises expliquent ce qu’elles peuvent faire avec vos données), vous pourrez ensuite faire quelque chose d’un peu drôle (piquer votre crise en ligne).

Au cours du dernier quart de siècle, les politiques de protection de la vie privée – ce langage juridique long et dense que l’on parcourt rapidement avant de cliquer sans réfléchir sur « J’accepte » – sont devenues à la fois plus longues et plus touffues. Une étude publiée l’année dernière a montré que non seulement la longueur moyenne des politiques de confidentialité a quadruplé entre 1996 et 2021, mais qu’elles sont également devenues beaucoup plus difficiles à comprendre.

Voici ce qu’a écrit Isabel Wagner, professeur associé à l’université De Montfort, qui a utilisé l’apprentissage automatique afin d’analyser environ 50 000 politiques de confidentialité de sites web pour mener son étude :

« En analysant le contenu des politiques de confidentialité, nous identifions plusieurs tendances préoccupantes, notamment l’utilisation croissante de données de localisation, l’exploitation croissante de données collectées implicitement, l’absence de choix véritablement éclairé, l’absence de notification efficace des modifications de la politique de confidentialité, l’augmentation du partage des données avec des parties tierces opaques et le manque d’informations spécifiques sur les mesures de sécurité et de confidentialité »

Si l’apprentissage automatique peut être un outil efficace pour comprendre l’univers des politiques de confidentialité, sa présence à l’intérieur d’une politique de confidentialité peut déclencher un ouragan. Un cas concret : Zoom.

En début de semaine dernière, Zoom, le service populaire de visioconférence devenu omniprésent lorsque les confinements ont transformé de nombreuses réunions en présentiel en réunions dans de mini-fenêtres sur des mini-écrans d’ordinateurs portables, a récemment fait l’objet de vives critiques de la part des utilisateurs et des défenseurs de la vie privée, lorsqu’un article du site d’actualités technologiques Stack Diary a mis en évidence une section des conditions de service de l’entreprise indiquant qu’elle pouvait utiliser les données collectées auprès de ses utilisateurs pour entraîner l’intelligence artificielle.

version anglaise début août, capturée par la Wayback Machine d’Internet Archive

le texte précise bien l'usage consenti par l'utilisateur de ses données pour l'apprentissage automatique et l'intelligence artificielle
version française fin juillet, capturée par la Wayback Machine d’Internet Archive

 

Le contrat d’utilisation stipulait que les utilisateurs de Zoom donnaient à l’entreprise « une licence perpétuelle, non exclusive, libre de redevances, susceptible d’être cédée en sous-licence et transférable » pour utiliser le « Contenu client » à des fins diverses, notamment « de marketing, d’analyse des données, d’assurance qualité, d’apprentissage automatique, d’intelligence artificielle, etc.». Cette section ne précisait pas que les utilisateurs devaient d’abord donner leur consentement explicite pour que l’entreprise puisse le faire.

Une entreprise qui utilise secrètement les données d’une personne pour entraîner un modèle d’intelligence artificielle est particulièrement controversée par les temps qui courent. L’utilisation de l’IA pour remplacer les acteurs et les scénaristes en chair et en os est l’un des principaux points d’achoppement des grèves en cours qui ont paralysé Hollywood. OpenAI, la société à l’origine de ChatGPT, a fait l’objet d’une vague de poursuites judiciaires l’accusant d’avoir entraîné ses systèmes sur le travail d’écrivains sans leur consentement. Des entreprises comme Stack Overflow, Reddit et X (le nom qu’Elon Musk a décidé de donner à Twitter) ont également pris des mesures énergiques pour empêcher les entreprises d’IA d’utiliser leurs contenus pour entraîner des modèles sans obtenir elles-mêmes une part de l’activité.

La réaction en ligne contre Zoom a été féroce et immédiate, certaines organisations, comme le média Bellingcat, proclamant leur intention de ne plus utiliser Zoom pour les vidéoconférences. Meredith Whittaker, présidente de l’application de messagerie Signal spécialisée dans la protection de la vie privée, a profité de l’occasion pour faire de la publicité :

« HUM : Les appels vidéo de @signalapp fonctionnent très bien, même avec une faible bande passante, et ne collectent AUCUNE DONNÉE SUR VOUS NI SUR LA PERSONNE À QUI VOUS PARLEZ ! Une autre façon tangible et importante pour Signal de s’engager réellement en faveur de la vie privée est d’interrompre le pipeline vorace de surveillance des IA. »

Zoom, sans surprise, a éprouvé le besoin de réagir.

Dans les heures qui ont suivi la diffusion de l’histoire, le lundi même, Smita Hashim, responsable des produits chez Zoom, a publié un billet de blog visant à apaiser des personnes qui craignent de voir  leurs propos et comportements être intégrés dans des modèles d’entraînement d’IA, alors qu’elles souhaitent virtuellement un joyeux anniversaire à leur grand-mère, à des milliers de kilomètres de distance.

« Dans le cadre de notre engagement en faveur de la transparence et du contrôle par l’utilisateur, nous clarifions notre approche de deux aspects essentiels de nos services : les fonctions d’intelligence artificielle de Zoom et le partage de contenu avec les clients à des fins d’amélioration du produit », a écrit Mme Hashim. « Notre objectif est de permettre aux propriétaires de comptes Zoom et aux administrateurs de contrôler ces fonctions et leurs décisions, et nous sommes là pour faire la lumière sur la façon dont nous le faisons et comment cela affecte certains groupes de clients ».

Mme Hashim écrit que Zoom a mis à jour ses conditions d’utilisation pour donner plus de contexte sur les politiques d’utilisation des données par l’entreprise. Alors que le paragraphe sur Zoom ayant « une licence perpétuelle, non exclusive, libre de redevances, pouvant faire l’objet d’une sous-licence et transférable » pour utiliser les données des clients pour « l’apprentissage automatique, l’intelligence artificielle, la formation, les tests » est resté intact [N de T. cependant cette mention semble avoir disparu dans la version du 11 août 2023], une nouvelle phrase a été ajoutée juste en dessous :

« Zoom n’utilise aucun Contenu client audio, vidéo, chat, partage d’écran, pièces jointes ou autres communications comme le Contenu client (tels que les résultats des sondages, les tableaux blancs et les réactions) pour entraîner les modèles d’intelligence artificielle de Zoom ou de tiers. »

Comment utilisons-nous vos données à caractère personnel ?Les employés de Zoom n’accèdent pas au Contenu client des réunions, des webinaires, des messageries ou des e-mails (en particulier, l’audio, la vidéo, les fichiers, les tableaux blancs en réunion et les contenus des messageries ou des e-mails), ni au contenu généré ou partagé dans le cadre d’autres fonctions de collaboration (comme les tableaux blancs hors réunion), et ne les utilisent pas, à moins que le titulaire du compte hébergeant le produit ou Service Zoom où le Contenu client a été généré ne le demande ou que cela ne soit nécessaire pour des raisons juridiques, de sûreté ou de sécurité. Zoom n’utilise aucun Contenu client audio, vidéo, chat, partage d’écran, pièces jointes ou autres communications comme le Contenu client (tels que les résultats des sondages, les tableaux blancs et les réactions) pour entraîner les modèles d’intelligence artificielle de Zoom ou de tiers.
copie d’écran du 16/08/2023, page https://explore.zoom.us/fr/privacy/

 

Dans son billet de blog, Mme Hashim insiste sur le fait que Zoom n’utilise le contenu des utilisateurs que pour former l’IA à des produits spécifiques, comme un outil qui génère automatiquement des résumés de réunions, et seulement après que les utilisateurs auront explicitement choisi d’utiliser ces produits. « Un exemple de service d’apprentissage automatique pour lequel nous avons besoin d’une licence et de droits d’utilisation est notre analyse automatisée des invitations et des rappels de webinaires pour s’assurer que nous ne sommes pas utilisés involontairement pour spammer ou frauder les participants », écrit-elle. « Le client est propriétaire de l’invitation au webinaire et nous sommes autorisés à fournir le service à partir de ce contenu. En ce qui concerne l’IA, nous n’utilisons pas de contenus audios, de vidéos ou de chats pour entraîner nos modèles sans le consentement du client. »

La politique de confidentialité de Zoom – document distinct de ses conditions de service – ne mentionne l’intelligence artificielle ou l’apprentissage automatique que dans le contexte de la fourniture de « fonctions et produits intelligents (sic), tels que Zoom IQ ou d’autres outils pour recommander le chat, le courrier électronique ou d’autres contenus ».

Pour avoir une idée de ce que tout cela signifie, j’ai échangé avec Jesse Woo, un ingénieur spécialisé en données de The Markup qui, en tant qu’avocat spécialisé dans la protection de la vie privée, a participé à la rédaction de politiques institutionnelles d’utilisation des données.

M. Woo explique que, bien qu’il comprenne pourquoi la formulation des conditions d’utilisation de Zoom touche un point sensible, la mention suivant laquelle les utilisateurs autorisent l’entreprise à copier et à utiliser leur contenu est en fait assez standard dans ce type d’accord d’utilisation. Le problème est que la politique de Zoom a été rédigée de manière à ce que chacun des droits cédés à l’entreprise soit spécifiquement énuméré, ce qui peut sembler beaucoup. Mais c’est aussi ce qui se passe lorsque vous utilisez des produits ou des services en 2023, désolé, bienvenue dans le futur !

Pour illustrer la différence, M. Woo prend l’exemple de la politique de confidentialité du service de vidéoconférence concurrent Webex, qui stipule ce qui suit : « Nous ne surveillerons pas le contenu, sauf : (i) si cela est nécessaire pour fournir, soutenir ou améliorer la fourniture des services, (ii) pour enquêter sur des fraudes potentielles ou présumées, (iii) si vous nous l’avez demandé ou autorisé, ou (iv) si la loi l’exige ou pour exercer ou protéger nos droits légaux ».

Cette formulation semble beaucoup moins effrayante, même si, comme l’a noté M. Woo, l’entraînement de modèles d’IA pourrait probablement être mentionné par une entreprise sous couvert de mesures pour « soutenir ou améliorer la fourniture de services ».

L’idée que les gens puissent paniquer si les données qu’ils fournissent à une entreprise dans un but évident et simple (comme opérer un appel de vidéoconférence) sont ensuite utilisées à d’autres fins (comme entraîner un algorithme) n’est pas nouvelle. Un rapport publié par le Forum sur le futur de la vie privée (Future of Privacy Forum), en 2018, avertissait que « le besoin de grandes quantités de données pendant le développement en tant que « données d’entraînement » crée des problèmes de consentement pour les personnes qui pourraient avoir accepté de fournir des données personnelles dans un contexte commercial ou de recherche particulier, sans comprendre ou s’attendre à ce qu’elles soient ensuite utilisées pour la conception et le développement de nouveaux algorithmes. »

Pour Woo, l’essentiel est que, selon les termes des conditions de service initiales, Zoom aurait pu utiliser toutes les données des utilisateurs qu’elle souhaitait pour entraîner l’IA sans demander leur consentement et sans courir de risque juridique dans ce processus.

Ils sont actuellement liés par les restrictions qu’ils viennent d’inclure dans leurs conditions d’utilisation, mais rien ne les empêche de les modifier ultérieurement.
Jesse Woo, ingénieur en données chez The Markup

« Tout le risque qu’ils ont pris dans ce fiasco est en termes de réputation, et le seul recours des utilisateurs est de choisir un autre service de vidéoconférence », explique M. Woo. « S’ils avaient été intelligents, ils auraient utilisé un langage plus circonspect, mais toujours précis, tout en proposant l’option du refus, ce qui est une sorte d’illusion de choix pour la plupart des gens qui n’exercent pas leur droit de refus. »

Changements futurs mis à part, il y a quelque chose de remarquable dans le fait qu’un tollé public réussisse à obtenir d’une entreprise qu’elle déclare officiellement qu’elle ne fera pas quelque chose d’effrayant. L’ensemble de ces informations sert d’avertissement à d’autres sur le fait que l’entraînement de systèmes d’IA sur des données clients sans leur consentement pourrait susciter la colère de bon nombre de ces clients.

Les conditions d’utilisation de Zoom mentionnent la politique de l’entreprise en matière d’intelligence artificielle depuis le mois de mars, mais cette politique n’a attiré l’attention du grand public que la semaine dernière. Ce décalage suggère que les gens ne lisent peut-être pas les données juridiques, de plus en plus longues et de plus en plus denses, dans lesquelles les entreprises expliquent en détail ce qu’elles font avec vos données.

Heureusement, Woo et Jon Keegan, journalistes d’investigation sur les données pour The Markup, ont récemment publié un guide pratique (en anglais) indiquant comment lire une politique de confidentialité et en  identifier rapidement les parties importantes, effrayantes ou révoltantes.

Bonne lecture !


Sur le même thème, on peut s’intéresser à :

 




Publier le code source ne suffit pas…

Un court billet où Nicolas Kayser-Bril opère une mise au point : la loi européenne et les grandes entreprises du Web peuvent donner accès au code source, mais ce n’est qu’un facteur parmi d’autres qui s’avère souvent inutile à lui seul…

Article original : The ideology behind publishing Twitter’s source code publié dans le bulletin d’information (en anglais ou allemand)  d’Algorithmwatch auquel on peut s’abonner sur cette page.

Traduction Framalang relue et révisée par l’auteur : Squeeek, goofy, audionuma

L’idéologie derrière la publication du code source de Twitter

par Nicolas Kayser-Bril

Photo noir/blanc de l'auteur, jeune homme brun souriant.
Photo par Julia Bornkessel licence CC-BY 4.0

Une fuite

Le 31 mars, Twitter a publié une partie du code source qui alimente son fil d’actualité. Cette décision a été prise quelques jours après qu’il a été rendu public que de grandes parties de ce code avaient déjà été divulguées sur Github [Gizmodo, 31 mars].

Les 85 797 lignes de code ne nous apprennent pas grand-chose. Les tweets ne contenant pas de liens sont mis en avant. Ceux rédigés dans une langue que le système ne peut pas reconnaître sont rétrogradés – discriminant clairement les personnes qui parlent une langue qui n’est pas reconnue par les ingénieurs californiens. Les Spaces (la fonction de podcasting en direct de Twitter) sur l’Ukraine semblent également être cachés [Aakash Gupta, 2 avril].

Le plus intéressant dans cette affaire reste le billet de blog rédigé par ce qu’il reste de l’équipe d’ingénieurs de Twitter. Il explique bien comment fonctionne un fil d’actualité d’un point de vue technique.

Comment (ne pas) ouvrir le code source

Une entreprise a été pionnière pour rendre son code source public : Twitter. Il y a deux ans, son équipe « Éthique, Transparence et Responsabilité » a publié le code d’un algorithme de recadrage d’images et a organisé une compétition permettant à quiconque d’y trouver d’éventuels biais [AlgorithmWatch, 2021]. Cette équipe a été l’une des premières à être licenciée l’année dernière.

Il ne suffit pas de lire un code source pour l’auditer. Il faut le faire fonctionner (l’exécuter) sur un ordinateur. En ce qui concerne l’Ukraine, par exemple, nous savons seulement que les Spaces Twitter étiquetés « UkraineCrisisTopic » subissent le même traitement que les articles étiquetés « violence » ou « porno ». Mais nous ne savons pas comment cette étiquette est attribuée, ni quels en sont les effets. Il semble que le code de ces fonctionnalités n’ait même pas été rendu public.

Dissimulation

Publier du code informatique sans expliquer comment le faire fonctionner peut être pire qu’inutile. Cela permet de prétendre à la transparence tout en empêchant tout réel audit. Twitter n’est pas la première organisation à suivre cette stratégie.

La Caisse Nationale des Allocations Familiales a publié les 7 millions de lignes du code de son calculateur d’allocations suite à une demande d’informations publiques (demande CADA) [NextINpact, 2018]. On ne pouvait rien en tirer. J’ai fait une demande de communication des « documents d’architecture fonctionnelle », qui sont mentionnés dans des commentaires du code. La CNAF a répondu qu’ils n’existaient pas.

La loi européenne sur les services numériques prévoit que les « chercheurs agréés » pourront accéder aux « données » des très grandes plateformes, y compris éventuellement au code source [AlgorithmWatch, 2022]. Pour que la loi sur les services numériques fonctionne, il est essentiel que les entreprises traitent ces demandes comme le Twitter de 2021, et non comme le Twitter de 2023.

L’idéologie technologiste

Enfin, la focalisation sur le code source est au service d’un projet politique. J’entends souvent dire que le code est le cœur d’une entreprise, que c’est un secret commercial précieusement gardé. C’est faux. Si c’était le cas, les fuites de code source nuiraient aux entreprises. Suite à des intrusions ou des fuites, le code source de Yandex et de Twitch a été publié récemment [ArsTechnica, 2021 et 2023]. À ma connaissance, ces entreprises n’en ont pas souffert.

Le code source n’est qu’un facteur parmi d’autres pour une entreprise du Web. Parmi les autres facteurs, citons les employés, les relations avec des politiques, les procédures internes, la position sur le marché, l’environnement juridique et bien d’autres encore. Mettre le code sur un piédestal implique que les autres facteurs sont sans importance. Les propriétaires de Twitter et de Meta (et ils sont loin d’être les seuls) ont dit très clairement que les ingénieurs étaient beaucoup plus importants que le reste de leurs employé·e·s. Pour eux, tout problème est fondamentalement technique et peut être résolu par du code.

Je suis certain que la publication du code source de Twitter conduira certains technologues à prétendre que le harcèlement en ligne, les agressions et la désinformation peuvent désormais être « corrigés » par une pull request (lorsqu’un contributeur à un projet open source propose une modification du code). Ce serait un pas dans la mauvaise direction.




Une « édition » minable de Pepper & Carrot sur Amazon

Depuis quelques années, Framasoft bénéficie des illustrations très appréciées de David Revoy, un artiste qui séduit autant par son talent et son imaginaire que par le choix de publier en licence libre (CC-BY), ce qui est plutôt exceptionnel dans le monde de la bande dessinée. La licence qu’il a choisie autorise à :

  • Adapter — remixer, transformer et créer à partir du matériel, y compris pour un usage commercial.

La seule condition impérative est l’Attribution

Attribution — Vous devez créditer l’Œuvre, intégrer un lien vers la licence et indiquer si des modifications ont été effectuées à l’œuvre. Vous devez indiquer ces informations par tous les moyens raisonnables, sans toutefois suggérer que l’Offrant vous soutient ou soutient la façon dont vous avez utilisé son Œuvre.

assortie d’une interdiction :

Pas de restrictions complémentaires — Vous n’êtes pas autorisé à appliquer des conditions légales ou des mesures techniques qui restreindraient légalement autrui à utiliser l’œuvre dans les conditions décrites par la licence.

Comme on peut le lire plus haut et comme le précise David lui-même dans sa F.A.Q, ce n’est pas parce que la licence est libre que l’on peut se servir sans scrupules des œuvres et du nom de l’auteur :

Ce n’est pas parce que vous pouvez réutiliser mes œuvres que je suis d’accord avec ce que vous faites, ou que je peux être considéré comme un auteur actif de votre projet, surtout si mon nom est écrit comme une signature de votre dérivation ou si vous réutilisez mon nom pour dire à votre public que je suis « d’accord » avec votre projet. Cela ne fonctionne pas comme ça. Restez simple : communiquez la vérité,

C’est justement ces précautions et ce respect élémentaires que n’ont pas pris les éditeurs (méritent-ils ce nom ?) d’une publication dérivée de Pepper & Carrot (déjà 37 épisodes traduits en 63 langues !) et qui est en vente sur Amazon, plateforme bien connue pour ses pratiques commerciales éthiques (non)…

Alors David, d’ordinaire si aimable, se fâche tout rouge et relève toutes les pratiques complètement hors-pistes de Fa Comics, dans l’article ci-dessous publié sur son blog et traduit pour vous par Framalang…


Article original de David Revoy sur son blog : Fa Bd Comics books on SCAMazon: don’t buy them

Traduction Framalang : GPSqueek, Sysy, Poca, goofy, macrico

N’achetez pas les BD des éditions Fa Bd sur SCAMazon

par David Revoy

On atteint un record : avec la communauté de Pepper & Carrot, nous avons trouvé Fa Bd, l’éditeur du pire dérivé de Pepper & Carrot à ce jour.

Malheureusement, les produits sont publiés sous mon nom et aussi sous le nom d’artistes qui ont réalisé des fan-arts de Pepper & Carrot… Voilà pourquoi j’écris cet article, histoire de décrire un peu cette arnaque et ce carnage de la publication assistée par ordinateur qui se perpétue actuellement sur Amazon, et aussi pour dissuader le public de Pepper & Carrot de les acheter.

Accrochez-vous, car nous entrons dans le territoire du zéro absolu de la qualité, des horreurs du graphisme, des cauchemars de la colorimétrie et de l’affreuse mise en page.

Les trois albums

Un grand merci à Craig Maloney qui a acheté les trois albums pour que nous puissions évaluer leur qualité. Il a également réalisé toutes les photos que vous trouverez ici et a écrit des commentaires sur Amazon sous les albums afin d’avertir d’autres clients potentiels de leur piètre qualité.

1. Héritage

Lien vers Amazon : https://www.amazon.com/Heritage-David-Revoy/dp/B0BS1ZHM9T/

Il s’agit d’une version imprimable datant de décembre 2022 de mon webcomic (épisode unique) L’héritage en couleur publié en mai 2012 sous la licence Creative Commons Attribution 4.0 International.

 

Mes observations :

(1) bien que la couverture soit correcte, l’impression gâche totalement l’histoire elle-même : le concept de cette bande dessinée est la représentation en couleurs des sentiments du personnage principal, pourtant l’éditeur a décidé d’imprimer l’histoire complète en noir et blanc. Cela rend le tout le récit illisible et dénué de sens. Essayez de lire l’original et demandez-vous ce que vaut la bande dessinée en noir et blanc. Apparemment, c’est assez bon pour être publié de cette façon par les éditions FA Bd Comics…

(2) L’attribution est là mais l’éditeur FA BD comics n’indique pas son rôle. Et attendez, une adresse courriel Caramail ? Je croyais qu’ils avaient disparu il y a 20 ans 2. Je n’aime pas la façon dont mon crédit et mon nom sur la couverture et la page produit donnent l’impression que j’ai approuvé cette publication et que j’y ai collaboré. Il ne s’agit pas d’une « violation d’approbation » explicite, mais j’ai honte de voir mon nom figurer sur ces pages.

(3) L’éditeur a oublié une page dans l’histoire : l’avant-dernière… ce qui fait que ça casse encore plus l’histoire. Et pour remplir la fin du livre, des parties aléatoires du making of ont été téléchargées et déversées comme ça sans aucun avertissement, juste après la fin de l’histoire.

Davantage de photos ici.

2. Les histoires de Pepper & Carrot

Lien vers Amazon : https://www.amazon.com/Pepper-Carrot-Novels-David-Revoy/dp/B09ZZVJLDT/

Description : Il s’agit d’une compilation imprimable datant de mai 2022 d’un mélange de Fan-art de Pepper&Carrot contenant des bulles de texte et de BD Fan-art de Pepper & Carrot.

Mes observations :

(1) Mon nom figure en haut de la couverture, alors qu’aucune illustration de moi ne figure sur cet album. C’est très problématique, car même si j’apprécie beaucoup le fan-art d’étude de Pepper envoyé par Coyau en 2015 parce que c’était parmi les premiers fan-arts que j’ai reçus sur Pepper & Carrot, je ne pense pas que Coyau s’attendait à ce qu’il soit utilisé comme œuvre d’art/visuel/illustration pour la couverture.

(2) Même si tous les fan-arts sont correctement attribués à leur auteur, l’éditeur a mal lu une information importante sur Pepper & Carrot : l’auteur du fan-art peut mettre son œuvre sous la licence qu’il souhaite. Et sauf mention explicite, ils sont tous protégés par le droit d’auteur. C’est écrit clairement dans la case « Licence » de chaque fan-art sur le site. « Cette image est un fan-art réalisé par <nom de l’auteur>. Elle est affichée sur la galerie de fan-arts de Pepper & Carrot avec sa permission. Ne réutilisez pas cette image pour votre projet sans l’autorisation de l’auteur ». L’éditeur, sur les crédits de son album, assume « basé sur le même personnage avec la même licence ». C’est faux et abusif. Notez également que l’email de l’éditeur change sur ces crédits, et que la ligne « œuvre de fiction » de Héritage est également présente… Boulot de copier-coller vite fait et négligent détecté !

(3) Les fan-arts sont imprimés en noir et blanc. Il n’y a pas d’indication permettant de savoir qui, parmi la liste des auteurs, a dessiné quelle page, et il n’y a pas de mise en page. Les dessins sont simplement collés sur la page avec de grands espaces vides, même lorsque la police est trop petite. Notez que le contraste est également faible. Ce n’est pas du tout respectueux des créations artistiques.

Davantage de photos ici.

3. Pepper & Carrot Mini

Lien vers Amazon: https://www.amazon.com/Pepper-Carrot-Mini-Nicolas-Artance/dp/B0BHMPMM14/

Il s’agit d’une publication papier d’octobre 2010 de la série Pepper & Carrot Mini par Nicolas Artance. Nicolas Artance est l’un des principaux contributeurs et modérateurs de la communauté Pepper & Carrot, et joue un rôle important dans la version française de la série principale. Il publie sa série sous Creative Commons Attribution 4.0 International et partage également les sources complètes.

Mes observations :

(1) La couverture ne provient pas de Pepper & Carrot Mini, elle n’a pas été réalisée par Nicolas Artance ni par moi-même, mais c’est un fan-art de Tessou. Il y a donc un problème de copyright puisque le dessin de Tessou n’est pas publié sous la licence de Pepper & Carrot. La couverture contient également trois noms et il est difficile de savoir qui fait quoi ou qui soutient quoi. Sur le produit Amazon, nous sommes co-auteur avec Nicolas… Quel bazar !

(2) Même mensonge que pour l’album précédent à propos de la licence du fan-art, et une grosse faute de frappe dans le nom de Nicolas (Nocolas). Apparemment, cet éditeur n’a aucun correcteur et s’en moque.

(3) La qualité, la mise en page… Tout est imprimé en noir et blanc et en faible contraste. Les planches en paysage sont « adaptées à la largeur » de la page. Certaines polices sont à peine lisibles.

Davantage de photos ici.

Et maintenant ?

Tout d’abord, vous pouvez aider : si vous avez un compte Amazon [NdT : il faut un compte sur Amazon.com, ça ne marchera pas depuis un compte Amazon.fr], vous pouvez simplement cliquer sur le bouton « Utile » sur les commentaires de Craig sur chaque livre 1, 2 et 3. Ce n’est pas grand-chose, mais cela aidera probablement les acheteurs potentiels à passer leur chemin en voyant l’avis 1 étoile.

Je n’ai clairement pas la charité de penser que cet éditeur souffre juste d’incompétence flagrante et qu’il essaie simplement d’aider l’impression d’œuvres culturelles libres. Ils ne m’ont jamais contacté, ils n’ont jamais contribué à l’écosystème Pepper&Carrot pour autant que je sache, et ils ont juste fait un produit de la plus basse qualité avec peu d’efforts sur une place de marché où il n’y a aucun contrôle sur la qualité.

C’est hors de prix et le fait de voir ce niveau d’irrespect pour mon art et pour l’industrie du livre est clairement ce qui affecte mon humeur. Je ne pense pas que ce produit dérivé soit d’un grand secours. S’il vous plaît, FA Bd Comic ou Amazon : si vous lisez ceci, retirez ces produits dès que possible.

De mon côté, je vais essayer de les contacter tous les deux pour qu’ils retirent les albums. Ils ont tous trop de problèmes pour être en ligne, y compris des problèmes de copyright. J’écrirai toute mise à jour ultérieure sous cette rubrique. En attendant, ne les achetez pas !

 

Mises à jour

A. 2023-03-28, 01:20am : J’ai pris le temps de faire un rapport officiel pour violation de copyright sur Amazon. Je vous informerai de l’issue de ce rapport.

B. 2023-03-28, 01:00pm : J’ai reçu ma réponse : « Nous n’avons pas été en mesure de vérifier que vous êtes le propriétaire des droits ou son agent ». (réponse automatique complète). Ok, j’abandonne…

 

Informations complémentaires sur la licence : le texte de cet article est publié sous Creative Commons Attribution 4.0. Cependant, les images de cet article sont protégées : ne les réutilisez pas : elles contiennent du fan-art, des copyrights et des marques déposées.




Google et son robot pipoteur(*), selon Doctorow

Source de commentaires alarmants ou sarcastiques, les robots conversationnels qui reposent sur l’apprentissage automatique ne provoquent pas seulement l’intérêt du grand public, mais font l’objet d’une course de vitesse chez les GAFAM.

Tout récemment, peut-être pour ne pas être à la traîne derrière Microsoft qui veut adjoindre un chatbot à son moteur de recherche Bing, voilà que Google annonce sa ferme résolution d’en faire autant. Dans l’article traduit pour vous par framalang, Cory Doctorow met en perspective cette décision qui lui semble absurde en rappelant les échecs de Google qui a rarement réussi à créer quoi que ce soit…

(*) Merci à Clochix dont nous adoptons dans notre titre la suggestion.

Article original : Google’s chatbot panic

Traduction Framalang : Fabrice, goofy, jums, Henri-Paul, Sysy, wisi_eu,

L’assistant conversationnel de Google en panique

par Cory Doctorow

 

Photo Jonathan Worth CC-BY-SA

 

 

Il n’y a rien d’étonnant à ce que Microsoft décide que l’avenir de la recherche en ligne ne soit plus fondé sur les liens dans une page web, mais de là à la remplacer par des longs paragraphes fleuris écrits dans un chatbot qui se trouve être souvent mensonger… — et en plus Google est d’accord avec ce concept.

Microsoft n’a rien à perdre. Il a dépensé des milliards pour Bing, un moteur de recherche que personne n’utilise volontairement. Alors, sait-on jamais, essayer quelque chose d’aussi stupide pourrait marcher. Mais pourquoi Google, qui monopolise plus de 90 % des parts des moteurs de recherche dans le monde, saute-t-il dans le même bateau que Microsoft ?

le long d'un mur de brique rouge sur lequel est suspendu un personnage ovoïde au visage très inquiet (Humpty-Dumpty le gros œuf), deux silhouettes jumelles (Tweedle-dee et Tweedle-dum les personnages de De l'autre côté du_miroir de Lewis Carroll) représentent avec leur logo sur le ventre Bing et google, chacun d'eaux a une tête qui évoque le robot Hal de 2001, à savoir une lueur rouge sur fond noir qui fait penser à un œil.

Il y a un délicieux fil à dérouler sur Mastodon, écrit par Dan Hon, qui compare les interfaces de recherche merdiques de Bing et Google à Tweedledee et Tweedledum :

https://mamot.fr/@danhon@dan.mastohon.com/109832788458972865

Devant la maison, Alice tomba sur deux étranges personnages, tous deux étaient des moteurs de recherche.
— moi, c’est Google-E, se présenta celui qui était entièrement recouvert de publicités
— et moi, c’est Bingle-Dum, fit l’autre, le plus petit des deux, et il fit la grimace comme s’il avait moins de visiteurs et moins d’occasions de mener des conversations que l’autre.
— je vous connais, répondit Alice, vous allez me soumettre une énigme ? Peut-être que l’un de vous dit la vérité et que l’autre ment ?
— Oh non, fit Bingle-Dum
— Nous mentons tous les deux, ajouta Google-E

Mais voilà le meilleur :

— Cette situation est vraiment intolérable, si vous mentez tous les deux.

— mais nous mentons de façon très convaincante, précisa Bingle-Dum

— D’accord, merci bien. Dans ce cas, comment puis-je vous faire jamais confiance ni / confiance à l’un ni/ou à l’autre ? Dans ce cas, comment puis-je faire confiance à l’un d’entre vous ?

Google-E et Bingle-Dum se tournèrent l’un vers l’autre et haussèrent les épaules.

La recherche par chatbot est une très mauvaise idée, surtout à un moment où le Web est prompt à se remplir de vastes montagnes de conneries générées via l’intelligence artificielle, comme des jacassements statiques de perroquets aléatoires :

La stratégie du chatbot de Google ne devrait pas consister à ajouter plus de délires à Internet, mais plutôt à essayer de trouver comment exclure (ou, au moins, vérifier) les absurdités des spammeurs et des escrocs du référencement.

Et pourtant, Google est à fond dans les chatbots, son PDG a ordonné à tout le monde de déployer des assistants conversationnels dans chaque recoin de l’univers Google. Pourquoi diable est-ce que l’entreprise court après Microsoft pour savoir qui sera le premier à décevoir des espérances démesurées ?

J’ai publié une théorie dans The Atlantic, sous le titre « Comment Google a épuisé toutes ses idées », dans lequel j’étudie la théorie de la compétition pour expliquer l’insécurité croissante de Google, un complexe d’anxiété qui touche l’entreprise quasiment depuis sa création:

L’idée de base : il y a 25 ans, les fondateurs de Google ont eu une idée extraordinaire — un meilleur moyen de faire des recherches. Les marchés financiers ont inondé l’entreprise en liquidités, et elle a engagé les meilleurs, les personnes les plus brillantes et les plus créatives qu’elle pouvait trouver, mais cela a créé une culture d’entreprise qui était incapable de capitaliser sur leurs idées.

Tous les produits que Google a créés en interne, à part son clone de Hotmail, sont morts. Certains de ces produits étaient bons, certains horribles, mais cela n’avait aucune importance. Google, une entreprise qui promouvait la culture du baby-foot et la fantaisie de l’usine Willy Wonka [NdT: dans Charlie et la chocolaterie, de Roald Dahl], était totalement incapable d’innover.

Toutes les réussites de Google, hormis son moteur de recherche et gmail, viennent d’une acquisition : mobile, technologie publicitaire, vidéos, infogérance de serveurs, docs, agenda, cartes, tout ce que vous voulez. L’entreprise souhaite plus que tout être une société qui « fabrique des choses », mais en réalité elle « achète des choses ». Bien sûr, ils sont très bons pour rendre ces produits opérationnels et à les faire « passer à l’échelle », mais ce sont les enjeux de n’importe quel monopole :

La dissonance cognitive d’un « génie créatif » autoproclamé, dont le véritable génie est de dépenser l’argent des autres pour acheter les produits des autres, et de s’en attribuer le mérite, pousse les gens à faire des choses vraiment stupides (comme tout utilisateur de Twitter peut en témoigner).
Google a longtemps montré cette pathologie. Au milieu des années 2000 – après que Google a chassé Yahoo en Chine et qu’il a commencé à censurer ses résultats de recherche, puis collaboré à la surveillance d’État — nous avions l’habitude de dire que le moyen d’amener Google à faire quelque chose de stupide et d’autodestructeur était d’amener Yahoo à le faire en premier lieu.

C’était toute une époque. Yahoo était désespéré et échouait, devenant un cimetière d’acquisitions prometteuses qui étaient dépecées et qu’on laissait se vider de leur sang, laissées à l’abandon sur l’Internet public, alors que les princes duellistes de la haute direction de Yahoo se donnaient des coups de poignard dans le dos comme dans un jeu de rôle genre les Médicis, pour savoir lequel saboterait le mieux l’autre. Aller en Chine fut un acte de désespoir après l’humiliation pour l’entreprise que fut le moteur de recherche largement supérieur de Google. Regarder Google copier les manœuvres idiotes de Yahoo était stupéfiant.

C’était déconcertant, à l’époque. Mais à mesure que le temps passait, Google copiait servilement d’autres rivaux et révélait ainsi une certaine pathologie d’insécurité. L’entreprise échouait de manière récurrente à créer son réseau « social », et comme Facebook prenait toujours plus de parts de marché dans la publicité, Google faisait tout pour le concurrencer. L’entreprise fit de l’intégration de Google Plus un « indictateur3 de performance » dans chaque division, et le résultat était une agrégation étrange de fonctionnalités « sociales » défaillantes dans chaque produit Google — produits sur lesquels des milliards d’utilisateurs se reposaient pour des opérations sensibles, qui devenaient tout à coup polluées avec des boutons sociaux qui n’avaient aucun sens.

La débâcle de G+ fut à peine croyable : certaines fonctionnalités et leur intégration étaient excellentes, et donc logiquement utilisées, mais elles subissaient l’ombrage des incohérences insistantes de la hiérarchie de Google pour en faire une entreprise orientée réseaux sociaux. Quand G+ est mort, il a totalement implosé, et les parties utiles de G+ sur lesquelles les gens se reposaient ont disparu avec les parties aberrantes.

Pour toutes celles et ceux qui ont vécu la tragi-comédie de G+, le virage de Google vers Bard, l’interface chatbot pour les résultats du moteur de recherche, semble tristement familier. C’est vraiment le moment « Mourir en héros ou vivre assez longtemps pour devenir un méchant ». Microsoft, le monopole qui n’a pas pu tuer la jeune pousse Google à cause de son expérience traumatisante des lois antitrust, est passé d’une entreprise qui créait et développait des produits à une entreprise d’acquisitions et d’opérations, et Google est juste derrière elle.

Pour la seule année dernière, Google a viré 12 000 personnes pour satisfaire un « investisseur activiste » privé. La même année, l’entreprise a racheté 70 milliards de dollars en actions, ce qui lui permet de dégager suffisamment de capitaux pour payer les salaires de ses 12 000 « Googleurs » pendant les 27 prochaines années. Google est une société financière avec une activité secondaire dans la publicité en ligne. C’est une nécessité : lorsque votre seul moyen de croissance passe par l’accès aux marchés financiers pour financer des acquisitions anticoncurrentielles, vous ne pouvez pas vous permettre d’énerver les dieux de l’argent, même si vous avez une structure à « double pouvoir » qui permet aux fondateurs de l’emporter au vote contre tous les autres actionnaires :

https://abc.xyz/investor/founders-letters/2004-ipo-letter/

ChatGPT et ses clones cochent toutes les cases d’une mode technologique, et sont les dignes héritiers de la dernière saison du Web3 et des pics des cryptomonnaies. Une des critiques les plus claires et les plus inspirantes des chatbots vient de l’écrivain de science-fiction Ted Chiang, dont la critique déjà culte est intitulée « ChatGPT est un une image JPEG floue du Web » :

https://www.newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg-of-the-web

Chiang souligne une différence essentielle entre les résultats de ChatGPT et ceux des humains : le premier jet d’un auteur humain est souvent une idée originale, mal exprimée, alors que le mieux que ChatGPT puisse espérer est une idée non originale, exprimée avec compétence. ChatGPT est parfaitement positionné pour améliorer la soupe de référencement que des légions de travailleurs mal payés produisent dans le but de grimper dans les résultats de recherche de Google.

En mentionnant l’article de Chiang dans l’épisode du podcast « This Machine Kills », Jathan Sadowski perce de manière experte la bulle de la hype ChatGPT4, qui soutient que la prochaine version du chatbot sera si étonnante que toute critique de la technologie actuelle en deviendra obsolète.

Sadowski note que les ingénieurs d’OpenAI font tout leur possible pour s’assurer que la prochaine version ne sera pas entraînée sur les résultats de ChatGPT3. Cela en dit long : si un grand modèle de langage peut produire du matériel aussi bon qu’un texte produit par un humain, alors pourquoi les résultats issus de ChatGPT3 ne peuvent-ils pas être utilisés pour créer ChatGPT4 ?

Sadowski utilise une expression géniale pour décrire le problème :  « une IA des Habsbourg ». De même que la consanguinité royale a produit une génération de prétendus surhommes incapables de se reproduire, l’alimentation d’un nouveau modèle par le flux de sortie du modèle précédent produira une spirale infernale toujours pire d’absurdités qui finira par disparaître dans son propre trou du cul.

 

Crédit image (modifiée) : Cryteria, CC BY 3.0




Le Fediverse n’est pas Twitter, mais peut aller plus loin

Maintenant que Mastodon a suscité l’intérêt d’un certain nombre de migrants de Twitter, il nous semble important de montrer concrètement comment peuvent communiquer entre eux des comptes de Mastodon, PeerTube, Pixelfed et autres… c’est ce que propose Ross Schulman dans ce billet de l’EFF traduit pour vous par Framalang…

 

source : The Breadth of the Fediverse

Traduction Framalang : CLC, Goofy, Henri-Paul

 

L’étendue du Fediverse

par Ross Schulman

Le Washington Post a récemment publié une tribune de Megan McArdle intitulée : « Twitter pourrait être remplacé, mais pas par Mastodon ou d’autres imitateurs ». L’article explique que Mastodon tombe dans le piège habituel des projets open source : élaborer une alternative qui a l’air identique et améliore les choses dont l’utilisateur type n’a rien à faire, tout en manquant des éléments qui ont fait le succès de l’original. L’autrice suggère plutôt que dépasser Twitter demandera quelque chose d’entièrement nouveau, et d’offrir aux masses quelque chose qu’elles ne savaient même pas qu’elles le désiraient.

Nous pensons, contrairement à Megan, que Mastodon (qui fait partie intégrante du Fediverse) offre en réalité tout cela, car c’est un réseau social véritablement interopérable et portable. Considérer que Mastodon est un simple clone de Twitter revient à oublier que le Fediverse est capable d’être ou de devenir la plate-forme sociale dont vous rêvez. C’est toute la puissance des protocoles. Le Fediverse dans son ensemble est un site de micro-blogging, qui permet de partager des photos, des vidéos, des listes de livres, des lectures en cours, et bien plus encore.

Comme beaucoup de gens se font, comme Megan, une fausse idée sur le Fediverse, et comme une image vaut mieux qu’un long discours, voyons comment l’univers plus large d’ActivityPub fonctionne dans la pratique.

Parlons de PeerTube. Il s’agit d’un système d’hébergement de vidéos, grâce auquel les internautes peuvent en suivre d’autres, télécharger des vidéos, les commenter et les « liker ».
Voici par exemple la page de la chaîne principale du projet open source Blender et c’est là que vous pouvez vous abonner à la chaîne…

fenêtre dans la page de peertube.tv où l'on peut s'abonner au canal blender en utilisant son compte activityPub, ici un compte de mastodon

Dans cet exemple nous avons créé un compte Mastodon sur l’instance (le serveur) framapiaf.org. Une fois qu’on clique sur « S’abonner à distance », nous allons sur le compte Mastodon, à partir duquel il nous suffit de cliquer sur « Suivre » pour nous permettre de…suivre depuis Mastodon le compte du PeerTube de Blender.

fenêtre de mastodon dans laquelle on peut confirmer vouloir suivre un canal peertube (de Blender dans cet exemple) en cliquant sur "Suivre"

Maintenant, dès que Blender met en ligne une nouvelle vidéo avec PeerTube, la mise à jour s’effectue dans le fil de Mastodon, à partir duquel nous pouvons « liker » (avec une icône d’étoile « ajouter aux favoris ») la vidéo et publier un commentaire.

… de sorte que le « like » et la réponse apparaissent sans problème sur la page de la vidéo.

un commentaire-réponse posté sur mastodon apparaît sur le canal peertube

Pixelfed est un autre service basé sur ActivityPub prenant la forme d’un réseau social de partage de photographies. Voici la page d’accueil de Dan Supernault, le principal développeur.

On peut le suivre depuis notre compte, comme nous venons de le faire avec la page PeerTube de Blender ci-dessus, mais on peut aussi le retrouver directement depuis notre compte Mastodon si nous connaissons son nom d’utilisateur.

capture : après recherche du nom d’utilisateur « dansup », mastodon retrouve le compte pixelfed recherché

Tout comme avec PeerTube, une fois que nous suivons le compte de Dan, ses images apparaîtront dans Mastodon, et les « likes » et les commentaires apparaîtront aussi dans Pixelfed.

capture d'écran montrant une photo du chat de Dansup publiée sur pixelfed mais qui s'affiche ici sur le compte mastodon que l'on "suit".

Voilà seulement quelques exemples de la façon dont des protocoles communs, et ActivityPub en particulier, permettent d’innover en termes de médias sociaux, Dans le Fediverse existent aussi BookWyrm, une plateforme sociale pour partager les lectures, FunkWhale, un service de diffusion et partage de musique ainsi que WriteFreely, qui permet de tenir des blogs plus étendus, pour ne mentionner que ceux-là.

Ce que garantit le Fediverse, c’est que tous ces éléments interagissent de la façon dont quelqu’un veut les voir. Si j’aime Mastodon, je peux toujours y voir des images de Pixelfed même si elles sont mieux affichées dans Pixelfed. Mieux encore, mes commentaires s’afficheront dans Pixelfed sous la forme attendue.

Les personnes qui ont migré de Twitter ont tendance à penser que c’est un remplaçant de Twitter pour des raisons évidentes, et donc elles utilisent Mastodon (ou peut-être micro.blog), mais ce n’est qu’une partie de son potentiel. La question n’est pas celle du remplacement de Twitter, mais de savoir si ce protocole peut se substituer aux autres plateformes dans notre activité sur la toile. S’il continue sur sa lancée, le Fediverse pourrait devenir un nouveau nœud de relations sociales sur la toile, qui engloberait d’autres systèmes comme Tumblr ou Medium et autres retardataires.

 




Collectivise the Internet : Three years to Ruffle the Feathers of Surveillance Capitalism

If the major issue in the digital world is systemic (a system called Surveillance Capitalism), then the answer cannot be limited to  » individual degoogleizing initiatives ». Our new roadmap Collectivise the Internet / Convivialise the Internet 🦆🦆  is all out on providing digital tools for non-profit organizations and collectives that work for the common good and the good of the Commons.

Let us tell you this story…

This article was published in French in October 2022 as part of the launch of Framasoft’s new roadmap Collectivise the Internet / Convivialise the Internet.

Simple banquet, in a shared garden, where free-software mascot animals are being served by Collectivise, convivialise ducks - Illustration by David Revoy - Licence: CC-By 4.0
Collectivise, convivialise – Illustration by David Revoy – License: CC-By 4.0

Emancipating Ourselves from Googles’ Industrial Animal Farmland

At Framasoft, we learn by doing. With every new campaign, with every new three-year roadmap, we try to apply lessons from the past. And every time, we discover more about our own misconceptions, our mistakes and ways forward to fix them.

During the Degoogleize The Internet campaign (2014-2017), we have learned that, although our small association could not degoogleize the whole planet, there is still a great deal of people who show interest in web-based tools that respect their values and integrity. Providing Free and open-source services to a as many people as possible ensures a large-scale deployment, even if that means risking focusing the demand and expectations on us. During this time period, we also initiated the alternative hosting collective CHATONS (an acronym that also means « kitties », in French), so that other hosts could join us in this adventure.

Then, we started the Contributopia roadmap (2017-2020), in which we contributed to many collective, popular and federated project, therereby meeting like-minded contributors, with whom we share the common values of sharing, fairness, caring, and emancipation, free and open-source software (FOSS) values that attracted us. We’ve come to realize, walking down this path, gathering and relating, that digital choices are societal choices, and that the choices made by FANGs are the pillars of a system: surveillance capitalism.

Illustration Quit planet GAFAM NATU BATX , CC BY David Revoy
« Quit planet GAFAM NATU BATX » Illustration by David Revoy – License: CC-By 4.0

Entire books are merely attempting to define what surveillance capitalism is, so what we are sharing here is just a rough summary of what it actually is. Surveillance capitalism is a system that transforms collective behaviours into data sets by prioritizing profit and power above all. The aim is to sell prediction and manipulation of our future behaviours, generally as commercial, cultural or electoral propaganda. In order to do so, some mega corporations try to establish monopolies on digital tools that maximize the acquisition and monopoly on our attention.

Simply put, surveillance capitalism creates industrial data farms, where we are the cattle. On the one hand, we are force-fed with attention mush (enriched with ads), and, on the other, part of our lives and our social behaviours are snatched from us to be resold to prosperous buyers at premium price.

That is why, at Framasoft, we have developped tools designed away from the values pushed by this system. Among the solutions we developed are PeerTube, a video platform software, and Mobilizon, a group and events management system. However, these tools require an entire group of people managing, maintaining, drafting and ensuring its editorial policy, and moderating: many small organizations do not have the human ressources to handle this in-house.

🦆 Discover the projects we want to carry out  🦆 Support Framasoft

Requiring digital tools that do not give goose bumps

From 2019 to 2022, we also ran the Déframasoftisons Internet action plan. We closed several projects which were underused or available through other trusted « CHATONS » hosts. This allowed us to save some energy for future projects, to reinforce our will to take care of our organization by avoiding unreasonable growth or restructuring that would disrupt our collective and the way it operates – which has made us pretty effective so far! – but especially to promote the decentralization of ethical digital tools.

Between 2020 and 2022, right in the middle of a gobal pandemic that confirmed our general dependency on online services, we intensified our efforts in maintaining our actions. Incidentally, we revised our plans for « Let’s deframasoftize » and chose to maintain some of the tools we intended to restrain or close: Framalistes, Framagit, Framateam, Framacalc…. We made that choice because we could see little to no other alternatives, and we did not want to let so many people down.

During this period of forced isolation, a pressing need began to be voiced more and more:

I am willing to ‘degoogle-ize’ myself, but I need someone to assist me, who can be here, in person to help me throughout this transition.

a pastry chef kitten presenting a cake-cloud prepared on demand, while in the background other kittens cook another cake-cloud in the middle of their cat-scratching tree village
Emancip’Asso – Illustration by David Revoy – License: CC-By 4.0

We have been hearing this need for this kind of human, tangible support for a while, and this is not unexpected. One of the mechanisms of capitalism is to individualize (« the customer is always right ») so as to better isolate and place the responsibility on each of us. For example, the information that we name « personal data » is neither personal nor data: it is more accurately the digital harvesting of our lives linked to those of others. Those are our social behaviours.

Conversely, if so many organizations, federations, etc. are so efficient in their task for the common good (whether they help us discover knitting or fighti climate inaction), it is precisely because they rest on the enjoyment of being and doing together, on the joy of meeting and exchanging, on the human warmth we find in the collective.

🦆 Discover the projects we want to carry out  🦆 Support Framasoft

Ducking out the slump thanks to conviviality

The future Big Tech is designing for us is one where humans are being:
* isolated – so that connections between humans rely solely upon their tools
* exploited – so that more and more tools are being created for us to consume
* singled out – so that no collective action is put in place that challenges their methods
* dependent – on their system of absolute monopoly
* greedy – so our lack of money can be weaponized against us
* competing – to pit us against each other and justify the rise of their elite class

This future that surveillance capitalism is designing for us as we speak, is neither engaging nor sustainable.. It treats both people and the Earth as a liability and will lead us straight to destruction.

On the other hand, trying to step out of our comfortable FOSS-enthusiasts’ bubble to try and reach out to other communities that are changing the world, has proved to be not as desorienting as we might have thought. We found that oftentime we shared the same utopias and the same definition of society: one based on contributing.

Drawing of five isles in a circle, each with buildings from different cultures. They are communicating together using waves and echoes.
ECHO Network – Illustration by David Revoy – License: CC-By 4.0

These « Contributopians » share the same dream as us: a future where humans are proud, autonomous, emancipated, knowledgeable, sharing and helpful to each other… a future where digital tools are under control, transparent, user-friendly and enhance the emancipation of human beings.

Thus, let’s summarize the lessons learned from our previous endeavours:

  • We did not yet have tools that fit the needs of the small organizations and associations that do so much with so little, but most of all with a lot of good will.
  • We are aware of the risk of remaining isolated, singled out in our « small, individual ‘degoogleization’ initiatives » against a whole system that can only be faced effectively through collective action.
  • We can see how crucial it is to put humans back at the center, the need for human presence and kindness when assisting others throughout their transition towards ethical digital practises.
  •  We have been able to confirm that a good number of associations and organizations from civil society which are working for the commons share with us these common values.

These patrons/champions of a « society of contribution » work hard to make our common dreams a reality.

 Long story short: it’s high time we degooglized the Contributopians!

(… those who wish to be, of course. We have never forced anyone to do anything, and we won’t start now!)

🦆 Discover the projects we want to carry out  🦆 Support Framasoft

Finding warmth with the jolly fellows

The four long-term actions we introduced in the article « Convivialise the Internet » 🦆(Framaspace, Émancip’Asso, ECHO Network, Peer.tube) all serve the same purpose: to equip organizations with online tools that fit their values.

These four projects rely on the strength of the collective while also taking into account the known constraints and limits that associations face. Kindness alone cannot magically and miraculously provide people with knowledge, time and means to train to use Nextcloud, PeerTube and other ethical tools.

 

Sepia, PeerTube cuttlefish mascot, is by the sea shore. She invites us on the pier where many sailboats berthed. Movies are played on the sails.
Peer.Tube – Illustration by David Revoy – License: CC-By 4.0

Similarly, the 39 members that compose Framasoft (10 of whom are employees) cannot spawn everywhere to personally train each and every new organization that wants to use, let’s say Framaspace, especially as that number could rise – with the help of your generous donations – up to thousands of organizations within 3 years!

That is why all of these projects are both about building a sense of community through shared spaces and some time allocated to community-building activities and sharing practices, challenges, etc., and providing support via coaching, improvements tailored for specific needs, and learning content to help people to be more autonomous and master the different tools, etc. Going blindly ahead with preconceived notions and a “we know best what works best for you” kind of attitude does not seem to be the most suitable — let alone humane — approach.

 

🦆 Discover the projects we want to carry out  🦆 Support Framasoft

Let’s steer our ship into a virtuous circle

We want to be efficient, so we want our tools to actually be used. Our goal is thus to make our tools useful – yeah, because designing tools that are actually useful is what disruptive innovation is all about, to make Tech for good that is community-owned and still very much online!)

We are thus planning not to plan everything, except time and space dedicated to your feedback. We also want to be available to tackle issues we might face on each of the actions that we feel ready to take. In other words, if we already plan to develop new features, create tutorials, host webinars and draft learning content, we do not want to predefine everything upfront, so as to save some time to help our users, our main target.

A unicorn dressed as an astronaut (with a spaghetti strainer on its head) is walking on the clouds and is blowing bubbles. Inside the bubbles, we can see cubes that represent collective work (files, toolboxes, books, typewriters, abacus, etc.)
Frama.space – Illustration by David Revoy – License: CC-By 4.0

This is the virtuous circle that we defined over the course of our various experimentations and that best fits our workflow:

1. Launch a first draft of our project, although imperfect

It’s OK if the paint is still fresh, or if it’s still a rough sketch. It’s absolutely OK too to start with a very small target audience. We have 3 years ahead of us to improve all that, and we have time and resources in store to do so.

For example, while we hope to provide millions of organizations with Framaspace within 3 years, it will be a good start to offer it to 200-300 organizations by the end of 2022!

2. Take users’ feedback into account

The Frama.space forum, the PeerTube community the study programs on ECHO Network and the comments received on Emancip’Asso are all important resources to gather feedback on our tools. It’d be too easy to lock ourselves in an echo chamber and avoid the reality of those who are actually fighting on the battlefield.
We go as far as considering the creation of an Observatory of Practices and Free Open-Source Digital Experiences, basing ourselves on the organizations that make up the Frama.sapce user community. Codename: OPEN-L. Stay tuned for that… And let’s hope we manage to set it up!

3. Improve our solutions step by step

Our goal is to improve each of those actions over time. This could be done by creating documentation and pedagogical tools, moderating and facilitating user communities, working on the ergonomy or on new features to be developed.
We want to keep total freedom to improve each action depending on the feedback we get from users.

4. Link humans to tools, and to other humans

Here’s another important, yet often overlooked aspect: connections. Such a shame, considering that the Web is, by definition, designed to connect people, ideas and things. This step can take many forms. It may mean taking the time to introduce our users to the new improvements brought about by each of our actions. It may also mean broadening our user community for any given project. Finally, it may mean taking advantage of having organizations share a common tool by sharing with them, offering them and informing them on what their fellows are doing.

Additionally, it will take some journaling: to summarize experiences, the lessons learned, to gather the relevant resources… and share all of that with the community. Whatever the form, this connecting step is when we take the time to reflect, to review our actions so as to better start a new virtuous circle and launch a better version of the project.

🦆 Discover the projects we want to carry out  🦆 Support Framasoft

We ain’t no quacks. Please support us!

Ain’t gonna beat around the bush: Collectivise the Internet / Convivialise the Internet 🦆🦆 is a roadmap with a clear political purpose, in the sense that it shall contribute to changing the world (if only one byte at a time).

After eight years spent observing and informing the public on the future that Big Tech is already materializing for us day by day and the political choices that they are forcing on our societies, it feels more and more crucial to keep one corner of the Web free from their influence.

Such is « also » our role, because these new actions do not and will not replace the ones we are already conducting. All the ‘degoogleized » software already available to everyone, the development of PeerTube and Mobilizon, the FOSS collective CHATONS, the common cultural resources… All of these projects are still ongoing and will still require more work over the upcoming three years.

 

Portrait of a duck cheering in the foreground, while other ducks in the background are having a lantern-lit celebration among trees.
Quack-quack – Illustration by David Revoy – License: CC-By 4.0

If you agree with our set goals and strategy, if the actions that we are currently undertaking seem important to you, then we would like to remind you that Framasoft is exclusively funded by… You. It is only your kind contributions, eligible to a 66% tax cut for French taxpayers, that allow us to keep going in total independence.

If you can (as we are well aware that our current times are particularly harsh), and if you wish to, please support us.

 

🦆 Support Framasoft


This page has been translated from French to English by Framalang volunteers: Bastien, Bromind, Ellébore (proofreading), Goofy, GPSqueeek, Mathilde (proofreading), Stan, Susy