Framamia : partageons des clés de compréhension de l’IA

Afin d’aider à démystifier le sujet de l’intelligence artificielle, Framasoft publie une première version du site Framamia. Définitions, enjeux, risques et questionnements : en partageant le savoir, nous espérons contribuer à reprendre le pouvoir sur ces technologies qui impactent nos sociétés. Et pour la mise en pratique, Framasoft publie en même temps l’application Lokas, que l’on présente ici.

🎈 Framasoft a 20 ans🎈 : Contribuez pour financer une 21e année !

Grâce à vos dons (défiscalisables à 66 %), l’association Framasoft agit depuis 20 ans pour faire avancer le Web éthique et convivial. Retrouvez un focus sur certaines de nos actions en 2024 sur le site Soutenir Framasoft.

➡️ Lire la série d’articles de cette campagne (nov. – déc. 2024)

Furby est presque en âge de voter : toute une Histoire

Depuis deux-trois ans, « ✨ L’IA™✨© » semble être le nouveau fourre-tout-tech à la mode qui fait vibrer la silicon valley, se répand dans les appels à projets publics, et sera oublié tout aussi rapidement (qui se souvient des NFT…? Du web3…? Y’a quelqu’un…?).

Sauf que c’est plus compliqué que ça. À l’inverse des NFT et autres techno-lubies, l’intelligence artificielle est un domaine du numérique composé de nombreuses branches et disciplines (d’où l’impression de fourre tout).

Frise Chronologique de l'IA

Avec une histoire de plus de 70 ans, les expérimentations dans l’Intelligence artificielles sont déjà présentes dans nos quotidiens numériques. On peut imaginer Clippy (le trombone assistant numérique de Microsoft Office 97) comme l’ancêtre de Siri ou Alexa. Ou encore que les comportements de plus en plus réalistes des personnages de jeux vidéos sont l’héritage de DeepBlue (ordinateur qui bat le champion mondial Gary Kasparov aux échecs en 1997) ou des Furby (peluches parlantes créées en 1998)…

Photo d'un Furby
Cette peluche animatronique disposait de son propre langage et pouvait « apprendre » celui qu’on lui parlait.

Bref, notre histoire ne manque pas d’exemples pour montrer que les domaines de l’IA ont existé bien avant la popularisation des IA génératives comme Chat GPT et Dall-E (à explorer : ce poster, en anglais malheureusement, de la professeure de philosophie Danielle J. Williams).

 

Ni ✨magique✨, ni 😱apocalyptique😱… L’IA, c’est technique

Au delà de cette histoire, notre culture est remplie de mythes et clichés narratifs où la machine devient plus humaine que les humains. Du Golem à Wall-E, de HAL (2001, l’Odyssée de l’espace) à Skynet (Terminator), notre propension à vouloir humaniser des bouts de minéraux et impulsions électriques a inspiré bien des œuvres.

Présentes dans nos cultures et nos esprits, ces histoires jouent souvent sur la magie de la compassion, l’émerveillement de voir une création se doter d’empathie… ou sur le pêché de démiurgie, se prendre pour l’égal de Dieu en créant la vie, et déclencher ainsi une apocalypse vengeresse.

Gif tiré d'Edward aux mains d'argent, où un vieil homme place un biscuit en forme de cœur sur une machine de patisserie.
À l’origine, « Edward aux mains d’argents » est un robot à pâtisserie. – © 20th Century Fox / Tim Burton

Or les chantres des entreprises de l’IA générative jouent justement sur ces mythes de « l’IA Miraculeuse » (qui va résoudre le problème de l’urgence écologique, selon Éric Schmidt, ancien directeur de Google) ou de l’IA apocalyptique (qui risque de détruire l’humanité sans que l’on sache vraiment comment, à en croire Sam Altman, directeur d’OpenAI).

Présenter l’IA comme un unique personnage légendaire tour à tour salvateur et destructeur permet d’appuyer l’argument de laisser leurs entreprises faire le bien© sans entraves, et de réguler les autres (la concurrence) qui pourraient faire advenir le mal©.

L’IA c’est technique, donc politique

Or l’IA, c’est avant tout des technologies numériques. On parle de code développé par des humains, dirigés par d’autres humains, qui ont prit des décisions en fonction de leurs motivations et leurs idéologies.

Par exemple : vous ne créerez pas la même plateforme vidéo, vous n’y développerez pas les mêmes fonctionnalités si votre objectif est de faire croître le chiffre d’affaire de votre entreprise en exploitant les vidéastes et leur audience ; ou si votre but est de favoriser le partage du savoir et de la culture entre pairs. Les motivations sont différentes car les modèles idéologiques (le capitalisme de surveillance pour YouTube/Twitch, les communs numériques pour PeerTube) sont différents.

Un outil n’est pas neutre. Les outils numériques, complexes et organisant nos partages entre humains, sont donc éminemment politiques.

À Framasoft, nous fêtons les 10 ans de Dégooglisons Internet, dix années riches d’expériences et de leçons. Nous avons vu la généralisation des services en ligne. Cet internet de plateformes a sécurisé les monopoles des géants du web, qui sont devenus les hérauts et garants du capitalisme de surveillance.

Illustration « Quittons la planète GAFAM NATU BATX », CC BY David Revoy
Illustration de David Revoy – Licence : CC-By 4.0

Une des forces de ce système a été d’arriver à nous faire croire que l’outil numérique est neutre, qu’il est magique, que c’est très très très compliqué de nous l’expliquer, à nous pauvres consommateurs. Et puis de toutes façons, c’est de notre faute aussi : il a bien lu les conditions générales, elle a cliqué sur « tout accepter », iel reste libre de ne pas utiliser ces outils.

En individualisant la responsabilité sur des outils qu’il ne faut pas chercher à comprendre (de toutes façons ils sont neutres, qu’on vous dit !), il n’est plus possible de faire des choix collectifs sur la société que l’on désire.

Framamia, here we go again !

Voilà quelques années qu’à Framasoft, on se penche, on discute, on se trompe et on apprend sur le boom des intelligences artificielles. Les échanges sont nombreux, et nous partageons même une veille sur le sujet.

Aujourd’hui, Framasoft publie Framamia : un site où nous partageons des clés de compréhension sur l’intelligence artificielle, ainsi que des extraits de notre veille.

Vous y trouverez des définitions, des informations, des enjeux identifiés pour nos sociétés et notre environnement, et enfin des questionnements… Autant de bouts de savoirs que nous proposons pour que chacune et chacun puisse se construire un avis éclairé et le partager avec ses proches.

Partager la connaissance sur un sujet, c’est partager le pouvoir de l’appréhender individuellement et de l’influencer collectivement.

capture d'écran de l'entête du site framamia.org
Cliquer pour visiter le site Framamia.

Notez bien qu’il s’agit là d’un premier jet, d’une première tentative de partage autour des intelligences artificielles, et plus précisément des intelligences artificielles génératives qui se multiplient aujourd’hui.

Nous ne prétendons pas que Framamia est parfait, que les informations sont compréhensibles par une personne qui ne s’y connaît pas, ou que le site soit gravé dans le marbre. Nous espérons pouvoir améliorer cet outil informatif avec le temps.

Visiter Framamia Soutenir FramamIA et Framasoft

Jeter le Clippy avec l’eau (…K Google) du bain ?

Si l’histoire du numérique semble se répéter, nous avons envie de partager quelques leçons que nous en avons tirées. Nous espérons contribuer à sortir des clichés tels que « Le cloud L’IA c’est magique », « Google OpenAI est ton ami », « roh là là regarde c’est meugnon Siri CharacterAI a halluciné », « si tu utilises Amazon Dall-E c’est ta faute et je te juge… »

Pour le capitalisme de surveillance comme pour le capitalisme algorithmique, l’enjeu ne se situe pas sur tel ou tel outil, ni sur le choix de Camille Dupuis-Morizeau de l’utiliser ou le boycotter. L’enjeu est systémique : c’est celui du monde dans lequel nous voulons collectivement vivre, et comment les citoyennes peuvent collectivement reprendre le pouvoir de le choisir.

S’il semble impossible de poser, a posteriori, un moratoire sur les larges modèles de langage et les IA génératives, peut-on sortir ces outils du capitalisme algorithmique et les utiliser pour le bien commun ?

Mème Clippy « avez-vous besoin d'aide pour déclencher l'apocalypse ? »
« avez-vous besoin d’aide pour déclencher l’apocalypse ? »… merci Clippy.

On le sait : transcrire des voix en texte permet de rendre vidéos et podcasts accessibles aux personnes sourdes, ajouter une description textuelle des images que nous partageons sert aux personnes aveugles qui utilisent un lecteur d’écran.

Au delà de l’accessibilité, tout le monde ne maîtrise pas l’outil numérique : savoir formuler efficacement sa demande sur un moteur de recherche, écrire un objet d’email plus informatif et facile à retrouver que « Quelques nouvelles………… » Tout le monde n’est pas en capacité de s’adapter aux outils numériques. Pouvoir adapter les interfaces aux humains et à leurs langages naturels pourrait réduire la fracture numérique.

Encore faut-il peser les coûts (humains, techniques, écologiques) de tels projets, choisir collectivement si c’est ce que l’on désire et enfin s’en donner les moyens.

Expérimenter une IA des communs…? Voici Lokas !

La question « Pour ou contre l’IA ? » ressemble à un piège, un faux débat qui nous isole les unes des autres. À Framasoft, nous n’avons pas (souvent) de réponses, mais beaucoup de questions qui nous semblent bien plus enthousiasmantes.

Une IA des Communs est-elle possible ? A quoi ressemblerait-elle ? Est-ce seulement souhaitable ? Quels en seraient les compromis et les conséquences ? Pour travailler de telles questions, nous avons eu envie d’expérimenter.

En parallèle de FramamIA, Framasoft publie dès aujourd’hui Lokas. Lokas est une application mobile (Android et iOS) qui permet d’enregistrer une réunion, afin d’obtenir une transcription.

captures d'écran de l'application Lokas avec les trois étapes : enregistrement, édition du transcript, détail du temps de parole
Cliquez pour découvrir et obtenir Lokas

Attention, Lokas est un prototype : c’est une démo limitée, mais fonctionnelle.  Nous avions envie de voir quelle forme prendrait un outil fait par une association sans but lucratif, aux moyens limités, souhaitant être utile au bien commun, en transparence et en limitant l’impact.

Nous avons hâte d’avoir vos retours sur une telle démarche, afin de voir s’il faut s’avancer dans cette voie, ou conclure l’expérimentation.

Lire une présentation complète de Lokas sur le Framablog

Obtenir Lokas Soutenir Framasoft

 

Le défi : 20 000 fois 20 € de dons pour les 20 ans de Framasoft !

Framasoft est financée par vos dons ! Chaque tranche de 20 euros de dons sera un nouveau ballon pour célébrer 20 d’aventures et nous aider à continuer et décoller une 21e année.

Framasoft, c’est un modèle solidaire :

  • 8000 donatrices en 2023 ;
  • plus de 2 millions de bénéficiaires chaque mois ;
  • votre don (défiscalisable à 66 %) peut bénéficier à 249 autres personnes.

jauge de dons au 3 décembre 2024 à 58 625 €

À ce jour, nous avons collecté 58 625 € sur notre objectif de campagne. Il nous reste 29 jours pour convaincre les copaines et récolter de quoi faire décoller Framasoft.

Alors : défi relevé ?

Visiter Framamia 🎈 Je soutiens la 21e année de Framasoft 🎈




L’IA Open Source existe-t-elle vraiment ?

À l’heure où tous les mastodontes du numérique, GAFAM comme instituts de recherche comme nouveaux entrants financés par le capital risque se mettent à publier des modèles en masse (la plateforme Hugging Face a ainsi dépassé le million de modèles déposés le mois dernier), la question du caractère « open-source » de l’IA se pose de plus en plus.

Ainsi, l’Open Source Initiative (OSI) vient de publier une première définition de l’IA Open-Source, et la Linux Foundation (dont le nom peut prêter à confusion, mais qui ne représente surtout qu’une oligarchie d’entreprises du secteur) s’interroge également sur le terme.

Au milieu de tout cela, OpenAI devient de manière assez prévisible de moins en moins « open », et si Zuckerberg et Meta s’efforcent de jouer la carte de la transparence en devenant des hérauts de l’« IA Open-Source », c’est justement l’OSI qui leur met des bâtons dans les roues en ayant une vision différente de ce que devrait être une IA Open-Source, avec en particulier un pré-requis plus élevé sur la transparence des données d’entraînement.

Néanmoins, la définition de l’OSI, si elle embête un peu certaines entreprises, manque selon la personne ayant écrit ce billet (dont le pseudo est « tante ») d’un élément assez essentiel, au point qu’elle se demande si « l’IA open source existe-t-elle vraiment ? ».

Note : L’article originel a été publié avant la sortie du texte final de l’OSI, mais celui-ci n’a semble t-il pas changé entre la version RC1 et la version finale.

L’IA Open Source existe-t-elle vraiment ?

Par tante, sous licence CC BY-SA (article originel).
Une traduction Framalang par tcit et deux contributeur·ices anonymes.
Photo de la bannière par Robert Couse-Baker.

 

 

L’Open Source Initiative (OSI) a publié la RC1 (« Release Candidate 1 » signifiant : cet écrit est pratiquement terminé et sera publié en tant que tel à moins que quelque chose de catastrophique ne se produise) de la « Définition de l’IA Open Source ».

D’aucuns pourraient se demander en quoi cela est important. Plein de personnes écrivent sur l’IA, qu’est-ce que cela apporte de plus ? C’est la principale activité sur LinkedIn à l’heure actuelle. Mais l’OSI joue un rôle très particulier dans l’écosystème des logiciels libres. En effet, l’open source n’est pas seulement basé sur le fait que l’on peut voir le code, mais aussi sur la licence sous laquelle le code est distribué : Vous pouvez obtenir du code que vous pouvez voir mais que vous n’êtes pas autorisé à modifier (pensez au débat sur la publication récente de celui de WinAMP). L’OSI s’est essentiellement chargée de définir parmi les différentes licences utilisées partout lesquelles sont réellement « open source » et lesquelles sont assorties de restrictions qui sapent cette idée.

C’est très important : le choix d’une licence est un acte politique lourd de conséquences. Elle peut autoriser ou interdire différents modes d’interaction avec un objet ou imposer certaines conditions d’utilisation. La célèbre GPL, par exemple, vous permet de prendre le code mais vous oblige à publier vos propres modifications. D’autres licences n’imposent pas cette exigence. Le choix d’une licence a des effets tangibles.

Petit aparté : « open source » est déjà un terme un peu problématique, c’est (à mon avis) une façon de dépolitiser l’idée de « Logiciel libre ». Les deux partagent certaines idées, mais là où « open source » encadre les choses d’une manière plus pragmatique « les entreprises veulent savoir quel code elles peuvent utiliser », le logiciel libre a toujours été un mouvement plus politique qui défend les droits et la liberté de l’utilisateur. C’est une idée qui a probablement été le plus abimée par les figures les plus visibles de cet espace et qui devraient aujourd’hui s’effacer.

Qu’est-ce qui fait qu’une chose est « open source » ? L’OSI en dresse une courte liste. Vous pouvez la lire rapidement, mais concentrons-nous sur le point 2 : le code source :

Le programme doit inclure le code source et doit permettre la distribution du code source et de la version compilée. Lorsqu’une quelconque forme d’un produit n’est pas distribuée avec le code source, il doit exister un moyen bien connu d’obtenir le code source pour un coût de reproduction raisonnable, de préférence en le téléchargeant gratuitement sur Internet. Le code source doit être la forme préférée sous laquelle un programmeur modifierait le programme. Le code source délibérément obscurci n’est pas autorisé. Les formes intermédiaires telles que la sortie d’un préprocesseur ou d’un traducteur ne sont pas autorisées.
Open Source Initiative

Pour être open source, un logiciel doit donc être accompagné de ses sources. D’accord, ce n’est pas surprenant. Mais les rédacteurs ont vu pas mal de conneries et ont donc ajouté que le code obfusqué (c’est-à-dire le code qui a été manipulé pour être illisible) ou les formes intermédiaires (c’est-à-dire que vous n’obtenez pas les sources réelles mais quelque chose qui a déjà été traité) ne sont pas autorisés. Très bien. C’est logique. Mais pourquoi les gens s’intéressent-ils aux sources ?

Les sources de la vérité

L’open source est un phénomène de masse relativement récent. Nous avions déjà des logiciels, et même certains pour lesquels nous ne devions pas payer. À l’époque, on les appelait des « Freeware », des « logiciels gratuits ». Les freewares sont des logiciels que vous pouvez utiliser gratuitement mais dont vous n’obtenez pas le code source. Vous ne pouvez pas modifier le programme (légalement), vous ne pouvez pas l’auditer, vous ne pouvez pas le compléter. Mais il est gratuit. Et il y avait beaucoup de cela dans ma jeunesse. WinAMP, le lecteur audio dont j’ai parlé plus haut, était un freeware et tout le monde l’utilisait. Alors pourquoi se préoccuper des sources ?

Pour certains, il s’agissait de pouvoir modifier les outils plus facilement, surtout si le responsable du logiciel ne travaillait plus vraiment dessus ou commençait à ajouter toutes sortes de choses avec lesquelles ils n’étaient pas d’accord (pensez à tous ces logiciels propriétaires que vous devez utiliser aujourd’hui pour le travail et qui contiennent de l’IA derrière tous les autres boutons). Mais il n’y a pas que les demandes de fonctionnalités. Il y a aussi la confiance.

Lorsque j’utilise un logiciel, je dois faire confiance aux personnes qui l’ont écrit. Leur faire confiance pour qu’ils fassent du bon travail, pour qu’ils créent des logiciels fiables et robustes. Qu’ils n’ajoutent que les fonctionnalités décrites dans la documentation et rien de caché, de potentiellement nuisible.

Les questions de confiance sont de plus en plus importantes, d’autant plus qu’une grande partie de notre vie réelle repose sur des infrastructures numériques. Nous savons tous que nos infrastructures doivent comporter des algorithmes de chiffrement entièrement ouverts, évalués par des pairs et testés sur le terrain, afin que nos communications soient à l’abri de tout danger.

L’open source est – en particulier pour les systèmes et infrastructures critiques – un élément clé de l’établissement de cette confiance : Parce que vous voulez que (quelqu’un) soit en mesure de vérifier ce qui se passe. On assiste depuis longtemps à une poussée en faveur d’une plus grande reproductibilité des processus de construction. Ces processus de compilation garantissent essentiellement qu’avec le même code d’entrée, on obtient le même résultat compilé. Cela signifie que si vous voulez savoir si quelqu’un vous a vraiment livré exactement ce qu’il a dit, vous pouvez le vérifier. Parce que votre processus de construction créerait un artefact identique.

Logo du projet Reproducible builds
Le projet Reproducible builds cherche à promouvoir la reproductibilité des systèmes libres, pour plus de transparence.
Le projet est notamment financé par le Sovereign Tech Fund.

 

Bien entendu, tout le monde n’effectue pas ce niveau d’analyse. Et encore moins de personnes n’utilisent que des logiciels issus de processus de construction reproductibles – surtout si l’on considère que de nombreux logiciels ne sont pas compilés aujourd’hui. Mais les relations sont plus nuancées que le code et la confiance est une relation : si vous me parlez ouvertement de votre code et de la manière dont la version binaire a été construite, il me sera beaucoup plus facile de vous faire confiance. Savoir ce que contient le logiciel que j’exécute sur la machine qui contient également mes relevés bancaires ou mes clés de chiffrement.

Mais quel est le rapport avec l’IA ?

Les systèmes d’IA et les 4 libertés

Les systèmes d’IA sont un peu particuliers. En effet, les systèmes d’IA – en particulier les grands systèmes qui fascinent tout le monde – ne contiennent pas beaucoup de code par rapport à leur taille. La mise en œuvre d’un réseau neuronal se résume à quelques centaines de lignes de Python, par exemple. Un « système d’IA » ne consiste pas seulement en du code, mais en un grand nombre de paramètres et de données.

Un LLM moderne (ou un générateur d’images) se compose d’un peu de code. Vous avez également besoin d’une architecture de réseau, c’est-à-dire de la configuration des neurones numériques utilisés et de la manière dont ils sont connectés. Cette architecture est ensuite paramétrée avec ce que l’on appelle les « poids » (weights), qui sont les milliards de chiffres dont vous avez besoin pour que le système fasse quelque chose. Mais ce n’est pas tout.

Pour traduire des syllabes ou des mots en nombres qu’une « IA » peut consommer, vous avez besoin d’une intégration, une sorte de table de recherche qui vous indique à quel « jeton » (token) correspond le nombre « 227 ». Si vous prenez le même réseau neuronal mais que vous lui appliquez une intégration différente de celle avec laquelle il a été formé, tout tomberait à l’eau. Les structures ne correspondraient pas.

Représentation d'une puce informatique sous la forme d'un cerveau.
Image sous CC BY par Mike MacKenzie & Liam Huang

Ensuite, il y a le processus de formation, c’est-à-dire le processus qui a créé tous les « poids ». Pour entraîner une « IA », vous lui fournissez toutes les données que vous pouvez trouver et, après des millions et des milliards d’itérations, les poids commencent à émerger et à se cristalliser. Le processus de formation, les données utilisées et la manière dont elles le sont sont essentiels pour comprendre les capacités et les problèmes d’un système d’apprentissage automatique : si vous voulez réduire les dommages dans un réseau, vous devez savoir s’il a été formé sur Valeurs Actuelles ou non, pour donner un exemple.

Et c’est là qu’est le problème.

L’OSI « The Open Source AI Definition – 1.0-RC1 » exige d’une IA open source qu’elle offre quatre libertés à ses utilisateurs :

  1. Utiliser le système à n’importe quelle fin et sans avoir à demander la permission.
  2. Étudier le fonctionnement du système et inspecter ses composants.
  3. Modifier le système dans n’importe quel but, y compris pour changer ses résultats.
  4. Partager le système pour que d’autres puissent l’utiliser, avec ou sans modifications, dans n’importe quel but.

Jusqu’ici tout va bien. Cela semble raisonnable, n’est-ce pas ? Vous pouvez inspecter, modifier, utiliser et tout ça. Génial. Tout est couvert dans les moindre détails, n’est-ce pas ? Voyons rapidement ce qu’un système d’IA doit offrir. Le code : Check. Les paramètres du modèle (poids, configurations) : Check ! Nous sommes sur la bonne voie. Qu’en est-il des données ?

Informations sur les données : Informations suffisamment détaillées sur les données utilisées pour entraîner le système, de manière à ce qu’une personne compétente puisse construire un système substantiellement équivalent. Les informations sur les données sont mises à disposition dans des conditions approuvées par l’OSI.

En particulier, cela doit inclure (1) une description détaillée de toutes les données utilisées pour la formation, y compris (le cas échéant) des données non partageables, indiquant la provenance des données, leur portée et leurs caractéristiques, la manière dont les données ont été obtenues et sélectionnées, les procédures d’étiquetage et les méthodes de nettoyage des données ; (2) une liste de toutes les données de formation accessibles au public et l’endroit où les obtenir ; et (3) une liste de toutes les données de formation pouvant être obtenues auprès de tiers et l’endroit où les obtenir, y compris à titre onéreux.
Open Source Initiative

Que signifie « informations suffisamment détaillées » ? La définition de l’open source ne parle jamais de « code source suffisamment détaillé ». Vous devez obtenir le code source. Tout le code source. Et pas sous une forme obscurcie ou déformée. Le vrai code. Sinon, cela ne veut pas dire grand-chose et ne permet pas d’instaurer la confiance.

La définition de l’« IA Open Source » donnée par l’OSI porte un grand coup à l’idée d’open source : en rendant une partie essentielle du modèle (les données d’entraînement) particulière de cette manière étrange et bancale, ils qualifient d’« open source » toutes sortes de choses qui ne le sont pas vraiment, sur la base de leur propre définition de ce qu’est l’open source et de ce à quoi elle sert.

Les données d’apprentissage d’un système d’IA font à toutes fins utiles partie de son « code ». Elles sont aussi pertinentes pour le fonctionnement du modèle que le code littéral. Pour les systèmes d’IA, elles le sont probablement encore plus, car le code n’est qu’une opération matricielle générique avec des illusions de grandeur.

L’OSI met une autre cerise sur le gâteau : les utilisateurs méritent une description des « données non partageables » qui ont été utilisées pour entraîner un modèle. Qu’est-ce que c’est ? Appliquons cela au code à nouveau : si un produit logiciel nous donne une partie essentielle de ses fonctionnalités simplement sous la forme d’un artefact compilé et nous jure ensuite que tout est totalement franc et honnête, mais que le code n’est pas « partageable », nous n’appellerions pas ce logiciel « open source ». Parce qu’il n’ouvre pas toutes les sources.

Une « description » de données partiellement « non partageables » vous aide-t-elle à reproduire le modèle ? Non. Vous pouvez essayer de reconstruire le modèle et il peut sembler un peu similaire, mais il est significativement différent. Cela vous aide-t-il d’« étudier le système et d’inspecter ses composants » ? Seulement à un niveau superficiel. Mais si vous voulez vraiment analyser ce qu’il y a dans la boîte de statistiques magiques, vous devez savoir ce qu’il y a dedans. Qu’est-ce qui a été filtré exactement, qu’est-ce qui est entré ?

Cette définition semble très étrange venant de l’OSI, n’est-ce pas ? De toute évidence, cela va à l’encontre des idées fondamentales de ce que les gens pensent que l’open source est et devrait être. Alors pourquoi le faire ?

L’IA (non) open source

Voici le truc. À l’échelle où nous parlons aujourd’hui de ces systèmes statistiques en tant qu’« IA », l’IA open source ne peut pas exister.

De nombreux modèles plus petits ont été entraînés sur des ensembles de données publics explicitement sélectionnés et organisés. Ceux-ci peuvent fournir toutes les données, tout le code, tous les processus et peuvent être appelés IA open-source. Mais ce ne sont pas ces systèmes qui font s’envoler l’action de NVIDIA.

Ces grands systèmes que l’on appelle « IA » – qu’ils soient destinés à la génération d’images, de texte ou multimodaux – sont tous basés sur du matériel acquis et utilisé illégalement. Parce que les ensembles de données sont trop volumineux pour effectuer un filtrage réel et garantir leur légalité. C’est tout simplement trop.

Maintenant, les plus naïfs d’entre vous pourraient se demander : « D’accord, mais si vous ne pouvez pas le faire légalement, comment pouvez-vous prétendre qu’il s’agit d’une entreprise légitime ? » et vous auriez raison, mais nous vivons aussi dans un monde étrange où l’espoir qu’une innovation magique et / ou de l’argent viendront de la reproduction de messages Reddit, sauvant notre économie et notre progrès.

L’« IA open source » est une tentative de « blanchir » les systèmes propriétaires. Dans leur article « Repenser l’IA générative open source : l’openwashing et le règlement sur l’IA de l’UE », Andreas Liesenfeld et Mark Dingemanse ont montré que de nombreux modèles d’IA « Open-Source » n’offrent guère plus que des poids de modèles ouverts. Signification : Vous pouvez faire fonctionner la chose mais vous ne savez pas vraiment ce que c’est.

Cela ressemble à quelque chose que nous avons déjà eu : c’est un freeware. Les modèles open source que nous voyons aujourd’hui sont des blobs freeware propriétaires. Ce qui est potentiellement un peu mieux que l’approche totalement fermée d’OpenAI, mais seulement un peu.

Certains modèles proposent des fiches de présentation du modèle ou d’autres documents, mais la plupart vous laissent dans l’ignorance. Cela s’explique par le fait que la plupart de ces modèles sont développés par des entreprises financées par le capital-risque qui ont besoin d’une voie théorique vers la monétisation.

L’« open source » est devenu un autocollant comme le « Commerce équitable », quelque chose qui donne l’impression que votre produit est bon et digne de confiance. Pour le positionner en dehors du diabolique espace commercial, en lui donnant un sentiment de proximité. « Nous sommes dans le même bateau » et tout le reste. Mais ce n’est pas le cas. Nous ne sommes pas dans le même bateau que Mark fucking Zuckerberg, même s’il distribue gratuitement des poids de LLM parce que cela nuit à ses concurrents. Nous, en tant que personnes normales vivant sur cette planète qui ne cesse de se réchauffer, ne sommes avec aucune de ces personnes.

Photo d'un sticker où il est marqué « Open-Source Fuck Yeah ».
Les libristes adorent pourtant les stickers. Image sous CC BY-SA par Kirsten Comandich.

Mais il y a un autre aspect à cette question, en dehors de redorer l’image des grands noms de la technologie et de leurs entreprises. Il s’agit de la légalité. Au moins en Allemagne, il existe des exceptions à certaines lois qui concernent normalement les auteurs de LLM : si vous le faites à des fins de recherche, vous êtes autorisé à récupérer pratiquement n’importe quoi. Vous pouvez ensuite entraîner des modèles et publier ces poids, et même s’il y a des contenus de Disney là-dedans, vous n’avez rien à craindre. C’est là que l’idée de l’IA open source joue un rôle important : il s’agit d’un moyen de légitimer un comportement probablement illégal par le biais de l’openwashing : en tant qu’entreprise, vous prenez de l’« IA open source » qui est basée sur tous les éléments que vous ne seriez pas légalement autorisé à toucher et vous l’utilisez pour construire votre produit. Faites de l’entraînement supplémentaire avec des données sous licence, par exemple.

L’Open Source Initiative a attrapé le syndrome FOMO (N.d.T : Fear of Missing Out) – tout comme le jury du prix Nobel. Elle souhaite également participer à l’engouement pour l’« IA ».

Mais pour les systèmes que nous appelons aujourd’hui « IA », l’IA open source n’est pas possible dans la pratique. En effet, nous ne pourrons jamais télécharger toutes les données d’entraînement réelles.

« Mais tante, nous n’aurons jamais d’IA open source ». C’est tout à fait exact. C’est ainsi que fonctionne la réalité. Si vous ne pouvez pas remplir les critères d’une catégorie, vous n’appartenez pas à cette catégorie. La solution n’est pas de changer les critères. C’est comme jouer aux échecs avec les pigeons.