Khrys’presso du lundi 4 septembre 2023

Comme chaque lundi, un coup d’œil dans le rétroviseur pour découvrir les informations que vous avez peut-être ratées la semaine dernière.


Tous les liens listés ci-dessous sont a priori accessibles librement. Si ce n’est pas le cas, pensez à activer votre bloqueur de javascript favori ou à passer en “mode lecture” (Firefox) 😉

Brave New World

Spécial femmes dans le monde

  • Le mystérieux « Homme d’ivoire » découvert en Espagne était en réalité une femme (futura-sciences.com)

    Avec la confirmation de ces observations par un consortium d’expert·es européen·nes, les chercheureuses espagnol·es ouvrent la voie aux questions sur la position sociale de la femme durant la Préhistoire sur le continent. […] D’autres artefacts collectés à Valencina légitiment l’idée selon laquelle la défunte aurait continué à être célébrée 200 ans après son décès. L’étude ajoute que de telles marques d’opulence sont une occurrence rare voire inexistante de la Préhistoire ibérique.

Spécial France

Spécial femmes en France

Spécial médias et pouvoir

Spécial emmerdeurs irresponsables gérant comme des pieds (et à la néolibérale)

Spécial recul des droits et libertés, violences policières, montée de l’extrême-droite…

Spécial résistances

Spécial GAFAM et cie

Les autres lectures de la semaine

Les BDs/graphiques/photos de la semaine

Les vidéos/podcasts de la semaine

Les trucs chouettes de la semaine

Retrouvez les revues de web précédentes dans la catégorie Libre Veille du Framablog.

Les articles, commentaires et autres images qui composent ces « Khrys’presso » n’engagent que moi (Khrys).




Khrys’presso du lundi 28 août 2023

Comme chaque lundi, un coup d’œil dans le rétroviseur pour découvrir les informations que vous avez peut-être ratées la semaine dernière.


Tous les liens listés ci-dessous sont a priori accessibles librement. Si ce n’est pas le cas, pensez à activer votre bloqueur de javascript favori ou à passer en “mode lecture” (Firefox) 😉

Brave New World

Spécial femmes dans le monde

Spécial France

Spécial femmes en France

  • Surmortalité des femmes lors des canicules : des politiques de prévention encore à la traîne (liberation.fr)

    Malgré des études récentes montrant une surmortalité des femmes âgées lors des périodes de fortes chaleurs, la variable du genre n’est pour le moment pas prise en compte par les autorités sanitaires françaises.

  • «Aurillac topless, la police en PLS» : une manifestation en soutien d’une femme seins nus visée par la justice (liberation.fr) Un millier de personnes, dont de nombreuses femmes seins nus, ont défilé samedi 26 août dans l’après-midi à Aurillac (Cantal), en marge du festival de théâtre de rue de la ville […] Le but du rassemblement était de soutenir Marina, visée par une ordonnance pénale pour exhibition sexuelle après s’être promenée seins nus en ville mercredi. Jeudi, elle avait expliqué son geste à la presse locale en disant avoir eu «hyper chaud» et avoir voulu faire «comme la moitié des hommes» ce jour-là, «qui n’[avaient] pas de T-shirts». Elle avait ensuite été contrôlée par des policiers après avoir refusé de se couvrir le haut à leur demande.

Spécial médias et pouvoir

RIP

Spécial emmerdeurs irresponsables gérant comme des pieds (et à la néolibérale)

Spécial recul des droits et libertés, violences policières, montée de l’extrême-droite…

Spécial résistances

  • Une campagne choc d’Amnesty international pour alerter sur l’utilisation des LBD (radiofrance.fr)

    Amnesty International lance mardi une campagne en ligne et d’affichage pour alerter sur la dangerosité des armes utilisées en manifestation par les forces de l’ordre. “Aujourd’hui tout coûte un bras, sauf manifester qui coûte aussi un œil”, peut-on lire sur l’un des visuels chocs.

  • Convoi de l’eau : un golf désarmé dans le Poitou (contre-attaque.net)

    Le golf est loisir onéreux pratiqué par les élites. C’est aussi l’un des sports les plus polluants au monde. Et probablement le plus consommateur en eau. Un golf haut de gamme de 18 trous peut avoir une consommation moyenne de 5000 mètres cube d’eau par jour, ce qui correspond à la production nécessaire aux besoins d’une collectivité de 12.000 habitants. Au niveau mondial on estime que 9,5 milliards de litres d’eau sont utilisés chaque jour pour arroser les pelouses des golfs : presque autant que ce que boit l’ensemble de l’humanité !

    Voir aussi À Marc Fesneau : Monsieur le Ministre, vous êtes un hypocrite (blogs.mediapart.fr)

    Monsieur le Ministre, vous êtes un hypocrite. Mais si vous ne l’étiez pas, vous ne seriez pas ministre de l’Agriculture.

  • Le Convoi de l’eau arrive à Paris pour alerter contre les méga-bassines (huffingtonpost.fr)

    « Et nous sommes toustes des écoterroristes »

  • 60 ans d’actions violentes : faut-il pour autant dissoudre la FNSEA ? (basta.media)

    Depuis les années 1960, le syndicat agricole FNSEA multiplie les destructions de biens publics, blocages, opérations coups de poing, menaces contre des militant·es écologistes et des élu·es. Chronologie de 60 ans d’actions violentes.

  • Le peuple de l’écologie est bien vivant ! (blogs.mediapart.fr) Dimanche 20 août, à Pérols-sur-Vézère, Corrèze, à l’occasion de la fête du village, un char a défilé décoré d’une banderole « Mort aux écolos ». C’est le maire du village, Alain Fonfrede, qui conduisait le tracteur. […] Nous peuple de l’écologie, rappelons que la situation est grave, que le réchauffement climatique est un fait scientifique et qu’il nous faut agir collectivement.

Spécial GAFAM et cie

  • Web Scraping for Me, But Not for Thee (blog.ericgoldman.org)

    Some of the biggest companies on earth—including Meta and Microsoft—take aggressive, litigious approaches to prohibiting web scraping on their own properties, while taking liberal approaches to scraping data on other companies’ properties.

  • Elon Musk aurait-il saboté Twitter en le renommant X et en changeant le logo ? (developpez.com)
  • X removes Holocaust-denying post after Auschwitz Museum criticism (bbc.com)

    The social media platform had initially said the post did not break its rules. The offensive post was a reply to one from the museum about a three year-old Jewish girl murdered in the concentration camp’s gas chambers.The post called her death a “fairy tale” and used anti-Semitic tropes.

  • Blue-tick scammers target consumers who complain on X (theguardian.com)

    Consumers who complain of poor customer service on X are being targeted by scammers after the social media platform formerly known as Twitter changed its account verification process. […] Bank customers and airline passengers are among those at risk of phishing scams when they complain to companies via X. Fraudsters, masquerading as customer service agents, respond under fake X handles and trick victims into disclosing their bank details to get a promised refund.

Les autres lectures de la semaine

  • To block or not to block. Ce qui bloque quand Elon Musk débloque. (affordance.framasoft.org)

    Si l’on veut que des espaces numériques “safe” puissent exister, c’est à dire non pas des espaces excluants pour les autres mais protecteurs pour celles et ceux qui expriment le besoin ou la nécessité de s’y retrouver pour discuter de leurs expériences de marginalisation, il faut d’abord noter que le sentiment de sécurité est indissociable du sentiment du secret.

  • Pour protéger la vie privée en ligne, il faut d’abord s’attaquer à la « résignation numérique » (theconversation.com)
  • Les cryptomonnaies, cheval de Troie de la pensée réactionnaire (lvsl.fr)
  • Après le meurtre de Nahel : penser et combattre les violences des forces de l’ordre (lanticapitaliste.org)

    Que les membres du parti de l’Ordre et beaucoup d’autres avec eux soient surpris par les violences aujourd’hui commises est surprenant. Leur étonnement n’est pas seulement étonnant, il est aussi d’une démagogie obscène au regard de la situation dont ils sont les premiers responsables. On ne méprise pas, on ne discrimine pas, on ne ruine pas tant d’existences pendant des années impunément. Des émeutes de novembre 2005, ils n’ont rien appris parce que leur seul souci, dans ces quartiers populaires, c’est d’y assurer ce qu’ils osent nommer « l’ordre républicain » qui n’est autre que le train-train de la domination, de l’exploitation et de l’oppression à « bas bruit ». […] Aux vociférations des extrêmes droites et des droites de gouvernement, qui exigent l’application des dispositions précitées, aux vocalises du gouvernement et du chef de l’État, qui en appellent au respect des institutions républicaines, il faut, a minima, opposer les revendications suivantes : abrogation de la loi du 28 février 2017, initiée par Bernard Cazeneuve puis votée par sa docile majorité. « Rédigée à la hâte » pour satisfaire les syndicats de police, dixit le Monde du 29 juin 2023, cette réforme a permis aux forces de l’ordre d’user plus largement de leurs armes ce qui a favorisé les drames que l’on sait. Il faut y ajouter l’interdiction immédiate des contrôles au faciès, la délivrance obligatoire par les fonctionnaires de police d’un récépissé aux personnes contrôlées, la suppression des LBD et des grenades de désencerclement, le retrait des fusils d’assaut HK G36 mis à la disposition des policiers et des gendarmes – une exception en Europe6. De plus, l’IGPN doit être supprimée et remplacée par une institution administrative indépendante, et la sinistre BRAV-M doit être dissoute.

  • Les riches nous imposent une société de pornopulence (usbeketrica.com)
  • « Anatomie d’une chute » : entretien avec Justine Triet, qui veut « inverser les codes de représentation » avec son film (huffingtonpost.fr)
  • Frelons asiatiques, un essaim de préjugés (reporterre.net)
  • Voir l’eau invisible, ou comment imager le remplissage et l’évolution des nappes phréatiques (theconversation.com)

    l’eau souterraine est une eau invisible, qui se trouve dans les espaces entre les grains du sol et des roches, dans les pores, les fissures ou les fractures des roches. On est bien loin de l’image du « lac souterrain » qu’évoquent souvent à tort les termes de « nappe phréatique ». Ces aquifères peuvent être continus ou discontinus (séparés par des roches imperméables) : un élément crucial pour comprendre les flux d’eaux souterraines.

Les BDs/graphiques/photos de la semaine

Les vidéos/podcasts de la semaine

  • Pourquoi le train est-il toujours plus cher ? (france.tv – disponible jusqu’au 15/12/2023)
  • Un podcasdédié aux luttes kurdes (paris-luttes.info)

    Nous aborderons de nombreux sujets : la place centrale des femmes, la jineologie, les mouvements de libération nationale, l’idéologie politique du Confédéralisme Démocratique en œuvre au Nord-Est Syrien (Rojava), l’importance de l’écologie et les enjeux géopolitiques… Nous vous proposerons une analyse de l’actualité, une prise de recul sur certains événements marquants, un regard critique aussi.

Les trucs chouettes de la semaine

  • Dépliant sur les protections périodiques détaillant leurs avantages et inconvénients notamment au niveau de la santé (paris-luttes.info)

    Découvrez les options disponibles, avec leurs avantages et inconvénients. Faites un choix de protection éclairé en fonction de vos besoins, de vos préférences et de votre situation. Vos conditions sanitaires et financières peuvent limiter vos choix. Ce n’est pas de votre faute. Vous faites déjà ce que vous pouvez dans cette société patriarcale.

  • L’Histoire Juniors (lhistoire.fr), un numéro complet de 8 pages adapté d’un dossier publié dans le magazine avec les contributions des meilleurs spécialistes. Sur les sujets les plus variés, une présentation à jour accessible à de jeunes lecteurices. Chaque numéro de L’Histoire Juniors est téléchargeable et peut être lu directement sur un écran sous format pdf.

Retrouvez les revues de web précédentes dans la catégorie Libre Veille du Framablog.

Les articles, commentaires et autres images qui composent ces « Khrys’presso » n’engagent que moi (Khrys).




Khrys’presso du lundi 21 août 2023

Comme chaque lundi, un coup d’œil dans le rétroviseur pour découvrir les informations que vous avez peut-être ratées la semaine dernière.


Tous les liens listés ci-dessous sont a priori accessibles librement. Si ce n’est pas le cas, pensez à activer votre bloqueur de javascript favori ou à passer en “mode lecture” (Firefox) 😉

Brave New World

Spécial femmes dans le monde

Spécial France

Spécial femmes en France

Spécial médias et pouvoir

  • Les sondages nous prennent pour des saucisses (contre-attaque.net)

    Fabien Roussel, c’est une personnalité grandiose. C’est le seul «communiste» content de manifester avec le syndicat policier d’extrême droite Alliance pour réclamer l’impunité pour les forces de l’ordre et d’être ami avec Gérald Darmanin. Son combat, c’est aussi de s’enflammer contre «l’assistanat» et dénoncer la «France du RSA», tout en considérant que les «les grandes fortunes : ils sont très intelligents, ils ont créé, inventé». Oui, il a vraiment dit tout ça. Il défend aussi la corrida ou l’industrie de la viande, en se moquant de ceux qui mangent «du tofu et du soja». Après l’exécution de Nahel, non seulement il n’a pas dénoncé les violences policières sanguinaires, mais il réclamait de «couper» les réseaux sociaux «quand c’est chaud dans le pays». […] Depuis plusieurs jours, les médias macronistes répètent en boucle que c’est lui le héros de la gauche, le futur espoir électoral.

  • Le Figaro réhabilite une grande figure antisémite (contre-attaque.net)

    Cette semaine, Le Figaro, le grand journal de la droite française, qui touche d’importantes subventions publiques, réhabilite une des plus grandes figures de l’antisémitisme de notre Histoire : Maurice Barrès.

Spécial emmerdeurs irresponsables gérant comme des pieds (et à la néolibérale)

Spécial recul des droits et libertés, violences policières, montée de l’extrême-droite…

Spécial résistances

Spécial GAFAM et cie

Les autres lectures de la semaine

  • Comment fonctionne un Bureau d’Enregistrement ? (afnic.fr)
  • L’Express et le climat (lemonde.fr)

    Si le diagnostic du changement climatique relève surtout des sciences de la nature, le remède suppose que les économistes, entre autres, s’y intéressent sérieusement. On aurait donc pu se féliciter qu’un économiste – Nicolas Bouzou signe économiste et essayiste, directeur du cabinet de conseil Asterès – s’y emploie. Las ! Il s’y emploie si mal qu’on aurait préféré qu’il ne s’y intéresse pas.

  • Contre l’imposture et le pseudo-rationalisme (cairn.info)
  • Classement de Miamïam des universités françaises. (affordance.framasoft.org)

    la France gagne des places dans le classement de Shangaï d’une part parce qu’on s’est aligné sur les règles à la con dudit classement, et d’autre part parce qu’on a accepté de sacrifier des pans entiers de financements publics de la recherche dans certains secteurs (notamment en diminuant drastiquement le nombre de postes disponibles). […] Évaluer la qualité de l’université et de la recherche française à partir du classement de Shangaï c’est un peu comme si on prétendait évaluer la qualité de la gastronomie française à partir d’un référentiel établi par Mac Donald : on serait rapidement en capacité de comprendre comment faire pour gagner des places, mais c’est pas sûr qu’on mangerait mieux. […] Je vous propose donc un classement alternatif et complémentaire au classement de Shangaï : le classement de Miamïam. Bien plus révélateur de l’état actuel de l’université française. Ce classement est simple. Pour y figurer il faut juste organiser des distributions alimentaires sur son campus universitaire.[…] à la différence du classement de Shangaï ce sont non pas 27 universités et établissements mais (au moins) 40 !!! L’excellence de la misère à la française.

Les BDs/graphiques/photos de la semaine

Les vidéos/podcasts de la semaine

Les trucs chouettes de la semaine

Retrouvez les revues de web précédentes dans la catégorie Libre Veille du Framablog.

Les articles, commentaires et autres images qui composent ces « Khrys’presso » n’engagent que moi (Khrys).




Khrys’presso du lundi 14 août 2023

Comme chaque lundi, un coup d’œil dans le rétroviseur pour découvrir les informations que vous avez peut-être ratées la semaine dernière.


Tous les liens listés ci-dessous sont a priori accessibles librement. Si ce n’est pas le cas, pensez à activer votre bloqueur de javascript favori ou à passer en “mode lecture” (Firefox) 😉

Brave New World

Spécial femmes dans le monde

RIP

Spécial France

Spécial femmes en France

Spécial médias et pouvoir

Spécial emmerdeurs irresponsables gérant comme des pieds (et à la néolibérale)

Spécial recul des droits et libertés, violences policières, montée de l’extrême-droite…

Spécial résistances

Spécial GAFAM et cie

Les autres lectures de la semaine

Les BDs/graphiques/photos de la semaine

Les vidéos/podcasts de la semaine

Les trucs chouettes de la semaine

Retrouvez les revues de web précédentes dans la catégorie Libre Veille du Framablog.

Les articles, commentaires et autres images qui composent ces « Khrys’presso » n’engagent que moi (Khrys).




Khrys’presso du lundi 7 août 2023

Comme chaque lundi, un coup d’œil dans le rétroviseur pour découvrir les informations que vous avez peut-être ratées la semaine dernière.


Tous les liens listés ci-dessous sont a priori accessibles librement. Si ce n’est pas le cas, pensez à activer votre bloqueur de javascript favori ou à passer en “mode lecture” (Firefox) 😉

Brave New World

Spécial femmes dans le monde

Spécial France

Spécial femmes en France

RIP

Spécial médias et pouvoir

Spécial emmerdeurs irresponsables gérant comme des pieds (et à la néolibérale)

Spécial recul des droits et libertés, violences policières, montée de l’extrême-droite…

Spécial résistances

Spécial GAFAM et cie

Les autres lectures de la semaine

Les BDs/graphiques/photos de la semaine

Les vidéos/podcasts de la semaine

Les trucs chouettes de la semaine

Retrouvez les revues de web précédentes dans la catégorie Libre Veille du Framablog.

Les articles, commentaires et autres images qui composent ces « Khrys’presso » n’engagent que moi (Khrys).




Que veut dire « libre » (ou « open source ») pour un grand modèle de langage ?

Le flou entretenu entre open source et libre, déjà ancien et persistant dans l’industrie des technologies de l’information, revêt une nouvelle importance maintenant que les entreprises se lancent dans la course aux IA…
Explications, décantation et clarification par Stéphane Bortzmeyer, auquel nous ouvrons bien volontiers nos colonnes.


Vous le savez, les grands modèles de langage (ou LLM, pour « Large Language Model ») sont à la mode. Ces mécanismes, que le marketing met sous l’étiquette vague et sensationnaliste d’IA (Intelligence Artificielle), ont connu des progrès spectaculaires ces dernières années.
Une de leurs applications les plus connues est la génération de textes ou d’images. L’ouverture au public de ChatGPT, en novembre 2022, a popularisé cette application. Chaque grande entreprise de l’informatique sort désormais son propre modèle, son propre LLM.
Il faut donc se distinguer du concurrent et, pour cela, certains utilisent des arguments qui devraient plaire aux lecteurs et lectrices du Framablog, en affirmant que leur modèle est (en anglais dans le texte) « open source ». Est-ce vrai ou bien est-ce du « libre-washing » ?
Et qu’est-ce que cela veut dire pour cet objet un peu particulier qu’est un modèle de langage ?

Copie d'écran d'un tweet de Viva technology citant le président Macron au salon Vivatech où il insiste sur les LLM souverains. le texte le cite "on doit accélérer l'open source et tous les grands modèles et avoir des LMM européens qui permettront de réguler. i faut ensuite qu'on arrive à régler des cas critiques, savoir si c'est de l'IA ou pas".
Tout le monde parle des LLM (ici, avec une faute de frappe).

Source ouverte ?

Traitons d’abord un cas pénible mais fréquent : que veut dire « open source » ? Le terme désigne normalement l’information qui est librement disponible. C’est en ce sens que les diplomates, les chercheurs, les journalistes et les espions parlent de ROSO (Renseignement d’Origine en Sources Ouvertes) ou d’OSINT (Open Source Intelligence). Mais, dans le contexte du logiciel, le terme a acquis un autre sens quand un groupe de personnes, en 1998, a décidé d’essayer de remplacer le terme de « logiciel libre », qui faisait peur aux décideurs, par celui d’« open source ». Ils ont produit une définition du terme qu’on peut considérer comme la définition officielle d’« open source ». Il est intéressant de noter qu’en pratique, cette définition est quasiment équivalente aux définitions classiques du logiciel libre et que des phrases comme « le logiciel X n’est pas libre mais est open source » n’ont donc pas de sens. Ceci dit, la plupart des gens qui utilisent le terme « open source » ne connaissent ni l’histoire, ni la politique, ni la définition « officielle » et ce terme, en réalité, est utilisé pour tout et n’importe quoi. On peut donc se dire « open source » sans risque d’être contredit. Je vais donc plutôt me pencher sur la question « ces modèles sont-ils libres ? ».

Grand modèle de langage ?

Le cas du logiciel est désormais bien connu et, sauf grande malhonnêteté intellectuelle, il est facile de dire si un logiciel est libre ou pas. Mais un modèle de langage ? C’est plus compliqué, Revenons un peu sur le fonctionnement d’un LLM (grand modèle de langage). On part d’une certaine quantité de données, par exemple des textes, le « dataset ». On applique divers traitements à ces données pour produire un premier modèle. Un modèle n’est ni un programme, ni un pur ensemble de données. C’est un objet intermédiaire, qui tient des deux. Après d’éventuels raffinements et ajouts, le modèle va être utilisé par un programme (le moteur) qui va le faire tourner et, par exemple, générer du texte. Le moteur en question peut être libre ou pas. Ainsi, la bibliothèque transformers est clairement libre (licence Apache), ainsi que les bibliothèques dont elle dépend (comme PyTorch). Mais c’est le modèle qu’elle va exécuter qui détermine la qualité du résultat. Et la question du caractère libre ou pas du modèle est bien plus délicate.

Notons au passage que, vu l’importante consommation de ressources matérielles qu’utilisent ces LLM, ils sont souvent exécutés sur une grosse machine distante (le mythique « cloud »). Lorsque vous jouez avec ChatGPT, le modèle (GPT 3 au début, GPT 4 désormais) n’est pas téléchargé chez vous. Vous avez donc le service ChatGPT, qui utilise le modèle GPT.

Mais qui produit ces modèles (on verra plus loin que c’est une tâche non triviale) ? Toutes les grandes entreprises du numérique ont le leur (OpenAI a le GPT qui propulse ChatGPT, Meta a Llama), mais il en existe bien d’autres (Bloom, Falcon, etc), sans compter ceux qui sont dérivés d’un modèle existant. Beaucoup de ces modèles sont disponibles sur Hugging Face (« le GitHub de l’IA », si vous cherchez une « catch phrase ») et vous verrez donc bien des références à Hugging Face dans la suite de cet article.  Prenons par exemple le modèle Falcon. Sa fiche sur Hugging Face nous donne ses caractéristiques techniques, le jeu de données sur lequel il a été entrainé (on verra que tous les modèles sont loin d’être aussi transparents sur leur création) et la licence utilisée (licence Apache, une licence libre). Hugging Face distribue également des jeux de données d’entrainement.

Dans cet exemple ci-dessous (trouvé dans la documentation de Hugging Face), on fait tourner le moteur transformers (plus exactement, transformers, plus diverses bibliothèques logicielles) sur le modèle xlnet-base-cased en lui posant la question « Es-tu du logiciel libre ? » :

% python run_generation.py --model_type=xlnet --model_name_or_path=xlnet-base-cased
...
Model prompt >>> Are you free software?
This is a friendly reminder - the current text generation call will exceed the model's predefined maximum length (-1). Depending on the model, you may observe exceptions, performance degradation, or nothing at all.
=== GENERATED SEQUENCE 1 ===
Are you free software? Are you a professional? Are you a Master of Technical Knowledge? Are you a Professional?

Ce modèle, comme vous le voyez, est bien moins performant que celui qui est derrière le service ChatGPT ; je l’ai choisi parce qu’il peut tourner sur un ordinateur ordinaire.

Vous voulez voir du code source en langage Python ? Voici un exemple d’un programme qui fait à peu près la même chose :

from transformers import pipeline

generator = pipeline("text-generation", model="DunnBC22/xlnet-base-cased-finetuned-WikiNeural-PoS") 
print(generator("Are you free software?"))

Le modèle utilisé est un raffinement du précédent, DunnBC22/xlnet-base-cased-finetuned-WikiNeural-PoS. Il produit lui aussi du contenu de qualité contestable([{‘generated_text’: « Are you free software? What ever you may have played online over your days? Are you playing these games? Any these these hours where you aren’t wearing any heavy clothing?) mais, bon, c’est un simple exemple, pas un usage intelligent de ces modèles.

 

Un chat gris pensif dans une librairie, assis sur un bac empli de livres

Les LLM n’ont pas de corps (comme Scarlett Johansson dans le film « Her ») et ne sont donc pas faciles à illustrer. Plutôt qu’une de ces stupides illustrations de robot (les LLM n’ont pas de corps, bon sang !), je mets une image d’un chat certainement intelligent. Drew Coffman, CC BY 2.0, via Wikimedia Commons

 

Que veut dire « libre » pour un LLM ?

Les définitions classiques du logiciel libre ne s’appliquent pas telles quelles. Des entreprises (et les journalistes paresseux qui relaient leurs communiqués de presse sans vérifier) peuvent dire que leur modèle est « open source » simplement parce qu’on peut le télécharger et l’utiliser. C’est très loin de la liberté. En effet, cette simple autorisation ne permet pas les libertés suivantes :

  • Connaître le jeu de données utilisé pour l’entrainement, ce qui permettrait de connaitre les choix effectués par les auteurs du modèle (quels textes ils ont retenu, quels textes ils ont écarté) et savoir qui a écrit les textes en question (et n’était pas forcément d’accord pour cette utilisation).
  • Connaître les innombrables choix techniques qui ont été faits pour transformer ces textes en un modèle. (Rappelez-vous  : un algorithme, ce sont les décisions de quelqu’un d’autre.)

Sans ces informations, on ne peut pas refaire le modèle différemment (alors que la possibilité de modifier le programme est une des libertés essentielles pour qu’un logiciel soit qualifié de libre). Certes, on peut affiner le modèle (« fine-tuning a pre-trained model », diront les documentations) mais cela ne modifie pas le modèle lui-même, certains choix sont irréversibles (par exemple des choix de censure). Vous pouvez créer un nouveau modèle à partir du modèle initial (si la licence prétendument « open source » le permet) mais c’est tout.

Un exemple de libre-washing

Le 18 juillet 2023, l’entreprise Meta a annoncé la disponibilité de la version 2 de son modèle Llama, et le fait qu’il soit « open source ». Meta avait même convaincu un certain nombre de personnalités de signer un appel de soutien, une initiative rare dans le capitalisme. Imagine-t-on Microsoft faire signer un appel de soutien et de félicitations pour une nouvelle version de Windows ? En réalité, la licence est très restrictive, même le simple usage du modèle est limité. Par exemple, on ne peut pas utiliser Llama pour améliorer un autre modèle (concurrent). La démonstration la plus simple de la non-liberté est que, pour utiliser le modèle Llama sur Hugging Face, vous devez soumettre une candidature, que Meta accepte ou pas (« Cannot access gated repo for url https://huggingface.co/meta-llama/Llama-2-7b/resolve/main/config.json. Access to model meta-llama/Llama-2-7b is restricted and you are not in the authorized list. Visit https://huggingface.co/meta-llama/Llama-2-7b to ask for access. »)

Mais la communication dans l’industrie du numérique est telle que très peu de gens ont vérifié. Beaucoup de commentateurs et de gourous ont simplement relayé la propagande de Meta. Les auteurs de la définition originale d’« open source » ont expliqué clairement que Llama n’avait rien d’« open source », même en étant très laxiste sur l’utilisation du terme. Ceci dit, il y a une certaine ironie derrière le fait que les mêmes personnes, celles de cette Open Source Initiative, critiquent Meta alors même qu’elles avaient inventé le terme « open source » pour brouiller les pistes et relativiser l’importance de la liberté.

Au contraire, un modèle comme Falcon coche toutes les cases et peut très probablement être qualifié de libre.

La taille compte

Si une organisation qui crée un LLM publie le jeu de données utilisé, tous les réglages utilisés pendant l’entrainement, et permet ensuite son utilisation, sa modification et sa redistribution, est-ce que le modèle peut être qualifié de libre ? Oui, certainement, mais on peut ajouter une restriction, le problème pratique. En effet, un modèle significatif (disons, permettant des résultats qui ne sont pas ridicules par rapport à ceux de ChatGPT) nécessite une quantité colossale de données et des machines énormes pour l’entrainement. L’exécution du modèle par le moteur peut être plus économe. Encore qu’elle soit hors de portée, par exemple, de l’ordiphone classique. Si une application « utilisant l’IA » tourne soi-disant sur votre ordiphone, c’est simplement parce que le gros du travail est fait par un ordinateur distant, à qui l’application envoie vos données (ce qui pose divers problèmes liés à la vie privée, mais c’est une autre histoire). Même si l’ordiphone avait les capacités nécessaires, faire tourner un modèle non trivial épuiserait vite sa batterie. Certains fabricants promettent des LLM tournant sur l’ordiphone lui-même (« on-device ») mais c’est loin d’être réalisé.

Mais l’entraînement d’un modèle non trivial est bien pire. Non seulement il faut télécharger des téra-octets sur son disque dur, et les stocker, mais il faut des dizaines d’ordinateurs rapides équipés de GPU (puces graphiques) pour créer le modèle. Le modèle Llama aurait nécessité des milliers de machines et Bloom une bonne partie d’un super-calculateur. Cette histoire de taille ne remet pas en question le caractère libre du modèle, mais cela limite quand même cette liberté en pratique. Un peu comme si on vous disait « vous êtes libre de passer votre week-end sur la Lune, d’ailleurs voici les plans de la fusée ». Le monde du logiciel libre n’a pas encore beaucoup réfléchi à ce genre de problèmes. (Qui ne touche pas que l’IA : ainsi, un logiciel très complexe, comme un navigateur Web, peut être libre, sans que pour autant les modifications soit une entreprise raisonnable.) En pratique, pour l’instant, il y a donc peu de gens qui ré-entrainent le modèle, faisant au contraire une confiance aveugle à ce qu’ils ont téléchargé (voire utilisé à distance).

Conclusion

Pour l’instant, la question de savoir ce que signifie la liberté pour un modèle de langage reste donc ouverte. L’Open Source Initiative a lancé un projet pour arriver à une définition. Je ne connais pas d’effort analogue du côté de la FSF mais plus tard, peut-être ?




Khrys’presso du lundi 31 juillet 2023

Comme chaque lundi, un coup d’œil dans le rétroviseur pour découvrir les informations que vous avez peut-être ratées la semaine dernière.


Tous les liens listés ci-dessous sont a priori accessibles librement. Si ce n’est pas le cas, pensez à activer votre bloqueur de javascript favori ou à passer en “mode lecture” (Firefox) 😉

Brave New World

RIP

Spécial France

Spécial femmes en France

Spécial médias et pouvoir

Spécial emmerdeurs irresponsables gérant comme des pieds (et à la néolibérale)

Spécial recul des droits et libertés, violences policières, montée de l’extrême-droite…

Spécial résistances

Spécial GAFAM et cie

Les autres lectures de la semaine

Les BDs/graphiques/photos de la semaine

Les vidéos/podcasts de la semaine

Les trucs chouettes de la semaine

Les trucs chouettes de la semaine

Retrouvez les revues de web précédentes dans la catégorie Libre Veille du Framablog.

Les articles, commentaires et autres images qui composent ces « Khrys’presso » n’engagent que moi (Khrys).




Le X de Musk n’est pas une inconnue…

L’actualité récente nous invite à republier avec son accord l’article de Kazhnuz sur son blog (il est sous licence CC BY-SA 4.0) qui souligne un point assez peu observé de la stratégie d’Elon Musk : elle n’est guère innovante et ne vise qu’à ajouter un X aux GAFAM pour capter une base utilisateur à des fins mercantiles…


Twitter vers X, la marketplacisation1 d’Internet

Photo Blue bird seen at Lake Merritt Oakland par Michael Slaten.

par Kazhnuz

L’annonce a été faite le 23 juillet, Twitter va être remplacé par X, le « rêve » de Musk de créer l’app-à-tout-faire à la WeChat en Chine. Le logo va être changé, et la marque Twitter va être abandonnée au profit de celle de X, et le domaine x.com redirige déjà vers Twitter. Le nom a déjà été utilisé jadis par Musk pour sa banque en ligne (qui après moult péripéties deviendra Paypal, justement parce que le nom est nul et pose des tonnes de soucis – ressembler à un nom de site X justement), et cette fois comme y’a personne pour lui dire « stop mec ton idée pue », il le fait.

Cependant, je pense qu’il y a quelques trucs intéressants à dire sur la situation, parce qu’au final, plus qu’une « lubie de Musk », il y a dedans quelque chose qui informe de la transformation faite de twitter, et de la façon dont Musk fait juste partie d’un mouvement fortement présent dans la Silicon Valley.

Encore un

Je pense qu’il ne faut pas voir ce changement de nom comme quelque chose de si surprenant, imprévisible, parce que c’est jouer le jeu de Musk de croire qu’il est l’électron libre qu’il prétend être. Parce que même s’il va plus loin en changeant carrément la marque du produit, Musk ne fait (encore une fois) que copier-coller un comportement déjà présent dans le milieu de la tech.

Parce qu’au final, Twitter appartenant et devenant X Corp, c’est comme Facebook qui devient Meta Plateform, ou Google qui devient Alphabet Inc. Un changement en grande partie pour tenter de forger la « hype », l’idée que le site fait partie de quelque chose de plus grand, du futur, de ce qui va former l’Internet – non la vie – de demain. Bon je pense que ça se voit que je suis un peu sarcastique de tout ça, mais y’a cette idée derrière les grandes entreprises de la tech. Elles ne sont plus dans l’idée de tourner autour de quelques produits, elles se présentent comme le « futur ». X Corp n’est qu’une tentative de créer un autre GAFAM, et fait partie des mêmes mouvements, des mêmes visions, du même aspect « techbro ».

C’est pour ça que le nom « rigolo » est moins mis en avant par rapport au nom plus « générique-mais-cool-regardez ». Meta, pour ceux qui vont au-delà et le métavers. X pour la variable inconnue. Alphabet pour aller de A à Z. Tout cela est de l’esbroufe, parce que plus que vendre un produit, ils vendent de la hype aux investisseurs.

Et le fait que Musk a voulu réutiliser ce nom dans le passé ne change pas grand-chose à tout ça. Le but, l’ego est le même. Donner l’impression qu’on est face à une grosse mégacorporation du futur. Et ce manque d’originalité n’est pas que dans le changement de nom, mais aussi au final dans son plan derrière tout ça : transformer Twitter en une marketplace.

X, une autre marketplace

Le passage de Twitter à X.com, montre le même cœur que les metaverse et crypto… et au final une grande partie des transformations qui se sont produites : tout transformer en marketplace, enrobé dans une esthétique de technofuturisme. Cela se voit encore plus dans le message de Linda Yaccarino, la CEO de Twitter :

X est l’état futur de l’interactivité illimitée – centrée sur l’audio, la vidéo, la messagerie, les paiements/les banques – créant une place de marché globale pour les idées, les biens, les services et les opportunités. Propulsé par l’IA, X va nous connecter d’une manière que nous commençons juste à imaginer.

— Linda Yaccarino, twitter

On peut remarquer deux choses dans ce message :

Le premier est qu’il n’y a rien d’original dedans. Nous y retrouvons exactement la même chose que l’on retrouvait à l’époque des crypto et des NFT : le truc qui fait tout mais surtout des trucs qui existent déjà, et basé sur la technologie du turfu. Y’a déjà 500 plateformes pour faire payer pour des services, que ce soit en crowdfunding, au format « patreon », via des commissions, etc. Des ventes de biens sur internet, y’a aussi des tonnes de moyens, etc. Tout ce qui est rajouté c’est « on va faire tous ces trucs qui existent déjà, et on a dit « IA » dedans donc c’est le futur ça va tout révolutionner tavu ». C’est le modus operandi classique, et il n’y a rien d’original dans ce que propose Twitter. D’ailleurs, le rôle que peut avoir l’IA dedans est très vague : est-ce que c’est pour modifier les algorithmes ? (cela ne sert pas à grand-chose, on les hait tous déjà). Est-ce que c’est pour pouvoir générer des produits par IA pour les vendre ? Le produit que veut proposer X Corp n’a pas besoin d’IA pour fonctionner, elle est là juste pour dire « c’est le futur », et hyper les investisseurs.

Le second est que cela transforme l’idée de base de Twitter (l’endroit où les gens parlent) en avant tout une « place de marché », comme indiqué plus haut. Twitter était le lieu de la discussion, du partage de l’idée à la con qu’on a eue sous la douche. D’où le format du microblogging. Là aussi, même cet aspect devient quelque chose de commercialisable, ce qui rappelle encore une fois le mouvement qu’il y avait eu autour de la crypto et des NFT : tout doit pouvoir devenir commercialisable, tout doit pouvoir devenir un produit. C’est aussi ce mouvement qui fait qu’on a de plus en plus de « jeux-services », qui servent avant tout à vendre des produits dématérialisés n’ayant de valeur qu’à l’intérieur du jeu (et encore). Beaucoup de jeux ne peuvent plus juste « être un jeu », ils doivent être une « marketplace ».

Conclusion

La transformation de twitter en X n’est donc pas une surprise – en plus du fait que c’était annoncé depuis longtemps. Il ne s’agit que d’un phénomène qui arrive tout le temps sur Internet. Une volonté de transformer un site populaire en une « place de marché du futur » pour hyper des investisseurs. Encore une fois.

Et au final, on sait bien ce qu’a acheté Musk quand il a acheté Twitter. Il n’a pas acheté un produit. Il a acheté une userbase (une base d’utilisateurs et utilisatrices) pour l’injecter directement dans le nouveau produit qu’il voulait faire. C’est assez ironique de voir que Twitter a fini de la même manière que certains comptes populaires : revendu pour être renommé et envoyer sa pub à des tonnes d’utilisateurs.

l'oiseau bleu de twitter sur le dos et à terre, mort avec un X qui lui ferme l'œil.