Opposez-vous à Chat Control !

Sur ce blog, nous transposons régulièrement différents points de vue concernant les luttes pour les libertés numériques. Dans ce domaine, on constate souvent que les mouvements sociaux (solidariste, durabilistes, préfiguratifs, etc.) ne prennent que trop rarement en compte les implications directes sur leurs propres luttes que peuvent avoir les outils de surveillance des États et des entreprises monopolistes. Cela rend toujours plus nécessaire une éducation populaire d’auto-défense numérique… Du côté des mouvements autonomes et anti-autoritaires, on ressent peu ou prou les mêmes choses. Dans les groupes européens, le sujet du capitalisme de surveillance est trop peu pris en compte. C’est du moins l’avis du groupe allemand Autonomie und Solidarität qui, à l’occasion du travail en cours au Parlement Européen sur l’effrayant et imminent projet Chat Control (voir ici ou ), propose un appel général à la résistance. L’heure est grave face à un tel projet autoritaire (totalitaire !) de surveillance de masse.

Cet appel a été publié originellement en allemand sur Kontrapolis et en anglais sur Indymedia. (Trad. Fr. par Framatophe).

Opposez-vous à Chat Control !

Une minute s’il vous plaît ! Chat Control ? C’est quoi ? Et pourquoi cela devrait-il nous intéresser en tant qu’autonomes et anti-autoritaires ?

Chat Control est le projet de règlement de l’Union Européenne portant sur la prévention et la protection des enfants contre les abus sexuels. Il a été reporté pour le moment, mais il risque d’être adopté prochainement1.

Ce projet de loi est une affaire assez grave pour plusieurs raisons2.

Avec Chat Control, les autorités publiques seront autorisées à scanner, analyser et lire automatiquement les contenus des communications privées en ligne de tous les utilisateur·ices. Cela se fera via une contrainte sur les fournisseurs de chat tels que Signal, Threema, Telegram, Skype, etc.3, soit par ce qu’on appelle une analyse côté client (Client Side Scanning). Les messages et les images seraient alors lus directement sur les terminaux ou les dispositifs de stockage des utilisateur·ices. Et cela avant même qu’ils soient envoyés sous format chiffré ou après leur réception, une fois déchiffrés.

C’est précisément ce que l’UE souhaite atteindre, entre autres, avec Chat Control : rendre les communications chiffrées inutiles. Les services de renseignement, les ministères de l’Intérieur, les autorités policières, les groupes d’intérêts privés et autres profiteurs du capitalisme de surveillance, ont en effet depuis longtemps du mal à accepter que les gens puissent communiquer de manière chiffrée, anonyme et sans être lus par des tiers indésirables.

Pourtant, la communication chiffrée est très importante. Face aux répressions de l’État, elle peut protéger les millitants, les opposant·es et les minorités. Elle sert aussi à protéger les sources et les lanceur·euses d’alerte, et rendre également plus difficile la collecte de données par les entreprises.

Comme si l’intention d’interdire ou de fragiliser le chiffrement n’était pas déjà assez grave, il y a encore pas mal d’autres choses qui nous inquiètent sérieusement avec Chat Control. Ainsi, l’introduction de systèmes de blocage réseau4 est également en discussion. Plus grave encore, l’obligation de vérifier l’âge et donc de s’identifier en ligne. Cela aussi fait explicitement partie du projet. Il s’agira de faire en sorte que l’accès à certains sites web, l’accès aux contenus limités selon l’âge, l’utilisation et le téléchargement de certaines applications comme Messenger, ne soient possibles qu’avec une identification, par exemple avec une carte d’identité électronique ou une identité numérique.

Voici l’accomplissement du vieux rêve de tou·tes les Ministres de l’Intérieur et autres autoritaires du même acabit. L’obligation d’utiliser des vrais noms sur Internet et la « neutralisation » des VPN5, TOR et autres services favorisant l’anonymat figurent depuis longtemps sur leurs listes de vœux. Et ne négligeons pas non plus la joie des grands groupes de pouvoir à l’avenir identifier clairement les utilisateur·ices. L’UE se met volontiers à leur service6. Tout comme le gouvernement allemand, Nancy Faser en tête, qui se distingue par ailleurs avec une politique populiste et autoritaire de droite.

Le « tchat controle » n’est pas la première tentative mais une nouvelle, beaucoup plus vaste, d’imposer la surveillance de masse et la désanonymisation totale d’Internet. Et elle a malheureusement de grandes chances de réussir car la Commission Européenne et la majorité du Parlement, ainsi que le Conseil, les gouvernements et les ministères de l’Intérieur de tous les États membres y travaillent. Et ils voudraient même des mesures encore plus dures comme étendre ce projet au scan de nos messages audios au lieu de scanner « seulement » nos communications textuelles7.

Dans le discours manipulateur, il existe déjà des « propositions de compromis » avec lesquelles les États autoritaires souhaitent faire changer d’avis les critiques. Il s’agirait dans un premier temps, de limiter le type de contenus que les fournisseurs devront chercher, jusqu’à ce que les possibilités techniques évoluent. La surveillance du chiffrement devrait tout de même avoir lieu. Il est évident que ce n’est qu’une tentative pour maquiller les problèmes8.

Comme toujours, la justification est particulièrement fallacieuse ! On connaît la chanson : la « lutte contre le terrorisme », les « copies pirates », les drogues, les armes etc. sont des constructions argumentaires par les politiques pour faire accepter des projets autoritaires et pour en discréditer toute résistance dans l’opinion publique. Il n’en va pas autrement pour Chat Control. Cette fois-ci, l’UE a même opté pour un classique : la prétendue « protection des enfants et des adolescents » et la lutte contre l’exposition des mineurs aux contenus pornographiques. Qui voudrait s’y opposer ?

Stop Chat Control. Image librement inspirée de International-protest (Wikimedia)

Pourtant, même des experts, provenant notamment d’associations de protection de l’enfance, affirment que Chat Control ne protégera pas les enfants et les adolescents9. En effet, il permettra également de surveiller leurs communications confidentielles. Le projet peut même conduire tout droit à ce que des agents des autorités aient accès aux photos de nus et aux données confidentielles que des mineurs s’envoient entre eux… Et ils pourront ensuite faire n’importe quoi avec. Le risque de faux positifs à cause de l’emploi de l’IA est également très important. Les gens pourraient avoir de gros problèmes à cause d’une erreur technique. Mais l’UE ne s’en soucie pas car la protection des mineurs n’est pas le sujet ici.

Les domaines d’application ont déjà été élargis entre-temps… Drogues, migration, etc. Tout doit être étroitement surveillé. Quelle sera la prochaine étape ? Une application contre les extrémistes politiques identifiés comme tels ?

Et puis, il y a aussi la très probable question de « l’extension des objectifs ». Nous connaissons déjà suffisamment d’autres lois et mesures étatiques. Elles sont souvent introduites pour des raisons d’urgence. Ensuite, elles sont constamment étendues, différées, puis soudain elles sont utilisées à des fins totalement différentes par les flics et les services de renseignement, selon leur humeur. L’extension de Chat Control se prête bien à ce jeu. Les premières demandes ont déjà été formulées10.

Dans une Europe où : il y a des interdictions de manifester11 et des détentions préventives, des perquisitions pour des commentaires sur les « quéquettes »12, des liens vers Linksunten/Indymedia13 ou des graffitis14, où des enquêtes par les services de renseignement pour adbusting dans l’armée allemande, ou bien des avis de recherche pour « séjour illégal » sont monnaie courante, dans une Europe où les ultraconservateurs occupent des postes de pouvoir, appellent à l’interdiction de l’avortement et à la lutte contre les personnes queer et réfugiées15, où des structures d’extrême-droite existent dans les administrations et la police16, dans cette Europe, une infrastructure de surveillance comme Chat Control, avec interdiction du chiffrement et permis de lecture de l’État sur tous les appareils, a de graves conséquences pour la liberté de tous les êtres humains17.

Des lois et des avancées similaires, la surveillance biométrique de masse18, l’utilisation d’IA à cet égard comme à Hambourg19, les identités numériques20, le scoring21, la police prédictive22, et ainsi de suite sont en cours de développement ou sont déjà devenus des réalités… tout cela crée une infrastructure totale, centralisée et panoptique qui permet d’exercer un énorme pouvoir et une répression contre nous tous.

En tant qu’antiautoritaires, nous devrions nous défendre, attirer l’attention et faire connaître ce sujet en dehors de l’activisme numérique germanophone ! Nous appelons donc à protester et à résister contre Chat Control. Les alliances existantes comme Stop Chat Control23 pourraient être complétées par une critique autonome24. D’autres actions de protestation peuvent être imaginées, il n’y a pas de limites à la créativité. Les objectifs de telles actions de protestation pourraient éventuellement découler de la thématique…

Les anti-autoritaires résistent à Chat Control !

Nous apprécions les suggestions, les questions, les critiques et, dans le pire des cas, les louanges, et surtout la résistance !



  1. “Zeitplan für Chatkontrolle ist vorerst geplatzt”, Netzpolitik.org, 20/09/2023. (NdT –) Il s’agit du règlement CSAR, également appelé Chat Control. La Quadrature du Net en a fait une présentation.↩︎
  2. “EU-Gesetzgebung einfach erklärt” Netzpolitik.org, 28/06/2023, “Das EU-Überwachungsmonster kommt wirklich, wenn wir nichts dagegen tun”, Netzpolitik.org, 11/05/2022 ;ChatKontrolle Stoppen ; “Kennen wir ansonsten nur aus autoritären Staaten”, Süddeutsche Zeitung, 10/08/2022.↩︎
  3. “NetzDG-Bußgeld: Justizminister Buschmann will Telegram mit Trick beikommen”, Heise Online, 28/01/2022.↩︎
  4. “Die Rückkehr der Netzsperren”, Netzpolitik.org, 11/03/2021.↩︎
  5. “Online-Ausweis und VPN-Verbot: Streit über Anonymität im Netz kocht wieder hoch”, Heise Online, 08/10/2023.↩︎
  6. “EU-Ausschuss will Chatkontrolle kräftig stutzen”, Netzpolitik.org, 15/02/2023.↩︎
  7. “Live-Überwachung: Mehrheit der EU-Staaten drängt auf Audio-Chatkontrolle”, Heise Online, 17/05/2023.↩︎
  8. “Ratspräsidentschaft hält an Chatkontrolle fest”, Netzpolitik.org, 12/10/2023.↩︎
  9. “Immer wieder Vorratsdatenspeicherung”, Netzpolitik.org, 23/06/23.↩︎
  10. “https://netzpolitik.org/2023/ueberwachung-politiker-fordern-ausweitung-der-chatkontrolle-auf-andere-inhalte/”, Netzpolitik.org, 06/10/2023.↩︎
  11. “Noch mehr Macht für Beamte ist brandgefährlich”, nd Jounralismus von Links, 13/09/2021 ; “Amnesty sieht Versammlungsfreiheit in Deutschland erstmals eingeschränkt – auch in NRW”, Westdeutscher Rundfunk, 20/09/2023.↩︎
  12. “Unterhalb der Schwelle”, TAZ, 08/08/2022.↩︎
  13. “Die Suche nach einer verbotenen Vereinigung”, Netzpolitik.org, 03/08/2023.↩︎
  14. “Linksextreme Gruppen in Nürnberg: Polizei durchsucht mehrere Wohnungen”, Nordbayern, 11/10/2023.↩︎
  15. “Sehnsucht nach dem Regenbogen-Monster”, TAZ, 28/07/2023.↩︎
  16. “Das Ende eines Whistleblowers”, TAZ, 01/10/2019.↩︎
  17. “Chatkontrolle: Mit Grundrechten unvereinbar”, Gesellschaft für Freiheitsrechte ; “Sie betrifft die Rechte aller Internetnutzer”, Junge Welt, 15/09/2023.↩︎
  18. “Polizei verdoppelt Zahl identifizierter Personen jährlich”, Netzpolitik.org, 03/06/2021 ; “Mehr Kameras an Bahnhöfen”, DeutschlandFunk, 22/12/2014 ; “Polizei bildet Hunderte Drohnenpiloten aus”, nd Jounralismus von Links, 04/01/2023.↩︎
  19. “Polizei Hamburg will ab Juli Verhalten automatisch scannen”, Netzpolitik.org, 19/06/2023.↩︎
  20. “Digitale Identität aller Menschen – Fortschritt oder globale Überwachung?”, SWR, 28/08/2022.↩︎
  21. “Punkte für das Karmakonto”, Jungle.World, 25/05/2022.↩︎
  22. “Überwachung: Interpol baut Big-Data-System Insight für”vorhersagende Analysen”, Heise Online, 24/09/2023.↩︎
  23. “Chatkontrolle-Bündnis fordert Bundesregierung zum Nein auf”, Netzpolitik.org, 18/09/2023 ; “Unser Bündnis gegen die Chatkontrolle”, Digital Courage, 12/10/2022 ; Chatkontrolle Stoppen, Digital Gesellschaft ; “Aufruf Chatkontrolle stoppen”, Digital Courage, 10/10/2022.↩︎
  24. “Statement zum EU-Verschlüsselungsverbot / Chatdurchleuchtungspflicht”, Enough 14, 15/05/2022.↩︎



Que veut dire « libre » (ou « open source ») pour un grand modèle de langage ?

Le flou entretenu entre open source et libre, déjà ancien et persistant dans l’industrie des technologies de l’information, revêt une nouvelle importance maintenant que les entreprises se lancent dans la course aux IA…
Explications, décantation et clarification par Stéphane Bortzmeyer, auquel nous ouvrons bien volontiers nos colonnes.


Vous le savez, les grands modèles de langage (ou LLM, pour « Large Language Model ») sont à la mode. Ces mécanismes, que le marketing met sous l’étiquette vague et sensationnaliste d’IA (Intelligence Artificielle), ont connu des progrès spectaculaires ces dernières années.
Une de leurs applications les plus connues est la génération de textes ou d’images. L’ouverture au public de ChatGPT, en novembre 2022, a popularisé cette application. Chaque grande entreprise de l’informatique sort désormais son propre modèle, son propre LLM.
Il faut donc se distinguer du concurrent et, pour cela, certains utilisent des arguments qui devraient plaire aux lecteurs et lectrices du Framablog, en affirmant que leur modèle est (en anglais dans le texte) « open source ». Est-ce vrai ou bien est-ce du « libre-washing » ?
Et qu’est-ce que cela veut dire pour cet objet un peu particulier qu’est un modèle de langage ?

Copie d'écran d'un tweet de Viva technology citant le président Macron au salon Vivatech où il insiste sur les LLM souverains. le texte le cite "on doit accélérer l'open source et tous les grands modèles et avoir des LMM européens qui permettront de réguler. i faut ensuite qu'on arrive à régler des cas critiques, savoir si c'est de l'IA ou pas".
Tout le monde parle des LLM (ici, avec une faute de frappe).

Source ouverte ?

Traitons d’abord un cas pénible mais fréquent : que veut dire « open source » ? Le terme désigne normalement l’information qui est librement disponible. C’est en ce sens que les diplomates, les chercheurs, les journalistes et les espions parlent de ROSO (Renseignement d’Origine en Sources Ouvertes) ou d’OSINT (Open Source Intelligence). Mais, dans le contexte du logiciel, le terme a acquis un autre sens quand un groupe de personnes, en 1998, a décidé d’essayer de remplacer le terme de « logiciel libre », qui faisait peur aux décideurs, par celui d’« open source ». Ils ont produit une définition du terme qu’on peut considérer comme la définition officielle d’« open source ». Il est intéressant de noter qu’en pratique, cette définition est quasiment équivalente aux définitions classiques du logiciel libre et que des phrases comme « le logiciel X n’est pas libre mais est open source » n’ont donc pas de sens. Ceci dit, la plupart des gens qui utilisent le terme « open source » ne connaissent ni l’histoire, ni la politique, ni la définition « officielle » et ce terme, en réalité, est utilisé pour tout et n’importe quoi. On peut donc se dire « open source » sans risque d’être contredit. Je vais donc plutôt me pencher sur la question « ces modèles sont-ils libres ? ».

Grand modèle de langage ?

Le cas du logiciel est désormais bien connu et, sauf grande malhonnêteté intellectuelle, il est facile de dire si un logiciel est libre ou pas. Mais un modèle de langage ? C’est plus compliqué, Revenons un peu sur le fonctionnement d’un LLM (grand modèle de langage). On part d’une certaine quantité de données, par exemple des textes, le « dataset ». On applique divers traitements à ces données pour produire un premier modèle. Un modèle n’est ni un programme, ni un pur ensemble de données. C’est un objet intermédiaire, qui tient des deux. Après d’éventuels raffinements et ajouts, le modèle va être utilisé par un programme (le moteur) qui va le faire tourner et, par exemple, générer du texte. Le moteur en question peut être libre ou pas. Ainsi, la bibliothèque transformers est clairement libre (licence Apache), ainsi que les bibliothèques dont elle dépend (comme PyTorch). Mais c’est le modèle qu’elle va exécuter qui détermine la qualité du résultat. Et la question du caractère libre ou pas du modèle est bien plus délicate.

Notons au passage que, vu l’importante consommation de ressources matérielles qu’utilisent ces LLM, ils sont souvent exécutés sur une grosse machine distante (le mythique « cloud »). Lorsque vous jouez avec ChatGPT, le modèle (GPT 3 au début, GPT 4 désormais) n’est pas téléchargé chez vous. Vous avez donc le service ChatGPT, qui utilise le modèle GPT.

Mais qui produit ces modèles (on verra plus loin que c’est une tâche non triviale) ? Toutes les grandes entreprises du numérique ont le leur (OpenAI a le GPT qui propulse ChatGPT, Meta a Llama), mais il en existe bien d’autres (Bloom, Falcon, etc), sans compter ceux qui sont dérivés d’un modèle existant. Beaucoup de ces modèles sont disponibles sur Hugging Face (« le GitHub de l’IA », si vous cherchez une « catch phrase ») et vous verrez donc bien des références à Hugging Face dans la suite de cet article.  Prenons par exemple le modèle Falcon. Sa fiche sur Hugging Face nous donne ses caractéristiques techniques, le jeu de données sur lequel il a été entrainé (on verra que tous les modèles sont loin d’être aussi transparents sur leur création) et la licence utilisée (licence Apache, une licence libre). Hugging Face distribue également des jeux de données d’entrainement.

Dans cet exemple ci-dessous (trouvé dans la documentation de Hugging Face), on fait tourner le moteur transformers (plus exactement, transformers, plus diverses bibliothèques logicielles) sur le modèle xlnet-base-cased en lui posant la question « Es-tu du logiciel libre ? » :

% python run_generation.py --model_type=xlnet --model_name_or_path=xlnet-base-cased
...
Model prompt >>> Are you free software?
This is a friendly reminder - the current text generation call will exceed the model's predefined maximum length (-1). Depending on the model, you may observe exceptions, performance degradation, or nothing at all.
=== GENERATED SEQUENCE 1 ===
Are you free software? Are you a professional? Are you a Master of Technical Knowledge? Are you a Professional?

Ce modèle, comme vous le voyez, est bien moins performant que celui qui est derrière le service ChatGPT ; je l’ai choisi parce qu’il peut tourner sur un ordinateur ordinaire.

Vous voulez voir du code source en langage Python ? Voici un exemple d’un programme qui fait à peu près la même chose :

from transformers import pipeline

generator = pipeline("text-generation", model="DunnBC22/xlnet-base-cased-finetuned-WikiNeural-PoS") 
print(generator("Are you free software?"))

Le modèle utilisé est un raffinement du précédent, DunnBC22/xlnet-base-cased-finetuned-WikiNeural-PoS. Il produit lui aussi du contenu de qualité contestable([{‘generated_text’: « Are you free software? What ever you may have played online over your days? Are you playing these games? Any these these hours where you aren’t wearing any heavy clothing?) mais, bon, c’est un simple exemple, pas un usage intelligent de ces modèles.

 

Un chat gris pensif dans une librairie, assis sur un bac empli de livres

Les LLM n’ont pas de corps (comme Scarlett Johansson dans le film « Her ») et ne sont donc pas faciles à illustrer. Plutôt qu’une de ces stupides illustrations de robot (les LLM n’ont pas de corps, bon sang !), je mets une image d’un chat certainement intelligent. Drew Coffman, CC BY 2.0, via Wikimedia Commons

 

Que veut dire « libre » pour un LLM ?

Les définitions classiques du logiciel libre ne s’appliquent pas telles quelles. Des entreprises (et les journalistes paresseux qui relaient leurs communiqués de presse sans vérifier) peuvent dire que leur modèle est « open source » simplement parce qu’on peut le télécharger et l’utiliser. C’est très loin de la liberté. En effet, cette simple autorisation ne permet pas les libertés suivantes :

  • Connaître le jeu de données utilisé pour l’entrainement, ce qui permettrait de connaitre les choix effectués par les auteurs du modèle (quels textes ils ont retenu, quels textes ils ont écarté) et savoir qui a écrit les textes en question (et n’était pas forcément d’accord pour cette utilisation).
  • Connaître les innombrables choix techniques qui ont été faits pour transformer ces textes en un modèle. (Rappelez-vous  : un algorithme, ce sont les décisions de quelqu’un d’autre.)

Sans ces informations, on ne peut pas refaire le modèle différemment (alors que la possibilité de modifier le programme est une des libertés essentielles pour qu’un logiciel soit qualifié de libre). Certes, on peut affiner le modèle (« fine-tuning a pre-trained model », diront les documentations) mais cela ne modifie pas le modèle lui-même, certains choix sont irréversibles (par exemple des choix de censure). Vous pouvez créer un nouveau modèle à partir du modèle initial (si la licence prétendument « open source » le permet) mais c’est tout.

Un exemple de libre-washing

Le 18 juillet 2023, l’entreprise Meta a annoncé la disponibilité de la version 2 de son modèle Llama, et le fait qu’il soit « open source ». Meta avait même convaincu un certain nombre de personnalités de signer un appel de soutien, une initiative rare dans le capitalisme. Imagine-t-on Microsoft faire signer un appel de soutien et de félicitations pour une nouvelle version de Windows ? En réalité, la licence est très restrictive, même le simple usage du modèle est limité. Par exemple, on ne peut pas utiliser Llama pour améliorer un autre modèle (concurrent). La démonstration la plus simple de la non-liberté est que, pour utiliser le modèle Llama sur Hugging Face, vous devez soumettre une candidature, que Meta accepte ou pas (« Cannot access gated repo for url https://huggingface.co/meta-llama/Llama-2-7b/resolve/main/config.json. Access to model meta-llama/Llama-2-7b is restricted and you are not in the authorized list. Visit https://huggingface.co/meta-llama/Llama-2-7b to ask for access. »)

Mais la communication dans l’industrie du numérique est telle que très peu de gens ont vérifié. Beaucoup de commentateurs et de gourous ont simplement relayé la propagande de Meta. Les auteurs de la définition originale d’« open source » ont expliqué clairement que Llama n’avait rien d’« open source », même en étant très laxiste sur l’utilisation du terme. Ceci dit, il y a une certaine ironie derrière le fait que les mêmes personnes, celles de cette Open Source Initiative, critiquent Meta alors même qu’elles avaient inventé le terme « open source » pour brouiller les pistes et relativiser l’importance de la liberté.

Au contraire, un modèle comme Falcon coche toutes les cases et peut très probablement être qualifié de libre.

La taille compte

Si une organisation qui crée un LLM publie le jeu de données utilisé, tous les réglages utilisés pendant l’entrainement, et permet ensuite son utilisation, sa modification et sa redistribution, est-ce que le modèle peut être qualifié de libre ? Oui, certainement, mais on peut ajouter une restriction, le problème pratique. En effet, un modèle significatif (disons, permettant des résultats qui ne sont pas ridicules par rapport à ceux de ChatGPT) nécessite une quantité colossale de données et des machines énormes pour l’entrainement. L’exécution du modèle par le moteur peut être plus économe. Encore qu’elle soit hors de portée, par exemple, de l’ordiphone classique. Si une application « utilisant l’IA » tourne soi-disant sur votre ordiphone, c’est simplement parce que le gros du travail est fait par un ordinateur distant, à qui l’application envoie vos données (ce qui pose divers problèmes liés à la vie privée, mais c’est une autre histoire). Même si l’ordiphone avait les capacités nécessaires, faire tourner un modèle non trivial épuiserait vite sa batterie. Certains fabricants promettent des LLM tournant sur l’ordiphone lui-même (« on-device ») mais c’est loin d’être réalisé.

Mais l’entraînement d’un modèle non trivial est bien pire. Non seulement il faut télécharger des téra-octets sur son disque dur, et les stocker, mais il faut des dizaines d’ordinateurs rapides équipés de GPU (puces graphiques) pour créer le modèle. Le modèle Llama aurait nécessité des milliers de machines et Bloom une bonne partie d’un super-calculateur. Cette histoire de taille ne remet pas en question le caractère libre du modèle, mais cela limite quand même cette liberté en pratique. Un peu comme si on vous disait « vous êtes libre de passer votre week-end sur la Lune, d’ailleurs voici les plans de la fusée ». Le monde du logiciel libre n’a pas encore beaucoup réfléchi à ce genre de problèmes. (Qui ne touche pas que l’IA : ainsi, un logiciel très complexe, comme un navigateur Web, peut être libre, sans que pour autant les modifications soit une entreprise raisonnable.) En pratique, pour l’instant, il y a donc peu de gens qui ré-entrainent le modèle, faisant au contraire une confiance aveugle à ce qu’ils ont téléchargé (voire utilisé à distance).

Conclusion

Pour l’instant, la question de savoir ce que signifie la liberté pour un modèle de langage reste donc ouverte. L’Open Source Initiative a lancé un projet pour arriver à une définition. Je ne connais pas d’effort analogue du côté de la FSF mais plus tard, peut-être ?




Le X de Musk n’est pas une inconnue…

L’actualité récente nous invite à republier avec son accord l’article de Kazhnuz sur son blog (il est sous licence CC BY-SA 4.0) qui souligne un point assez peu observé de la stratégie d’Elon Musk : elle n’est guère innovante et ne vise qu’à ajouter un X aux GAFAM pour capter une base utilisateur à des fins mercantiles…


Twitter vers X, la marketplacisation1 d’Internet

Photo Blue bird seen at Lake Merritt Oakland par Michael Slaten.

par Kazhnuz

L’annonce a été faite le 23 juillet, Twitter va être remplacé par X, le « rêve » de Musk de créer l’app-à-tout-faire à la WeChat en Chine. Le logo va être changé, et la marque Twitter va être abandonnée au profit de celle de X, et le domaine x.com redirige déjà vers Twitter. Le nom a déjà été utilisé jadis par Musk pour sa banque en ligne (qui après moult péripéties deviendra Paypal, justement parce que le nom est nul et pose des tonnes de soucis – ressembler à un nom de site X justement), et cette fois comme y’a personne pour lui dire « stop mec ton idée pue », il le fait.

Cependant, je pense qu’il y a quelques trucs intéressants à dire sur la situation, parce qu’au final, plus qu’une « lubie de Musk », il y a dedans quelque chose qui informe de la transformation faite de twitter, et de la façon dont Musk fait juste partie d’un mouvement fortement présent dans la Silicon Valley.

Encore un

Je pense qu’il ne faut pas voir ce changement de nom comme quelque chose de si surprenant, imprévisible, parce que c’est jouer le jeu de Musk de croire qu’il est l’électron libre qu’il prétend être. Parce que même s’il va plus loin en changeant carrément la marque du produit, Musk ne fait (encore une fois) que copier-coller un comportement déjà présent dans le milieu de la tech.

Parce qu’au final, Twitter appartenant et devenant X Corp, c’est comme Facebook qui devient Meta Plateform, ou Google qui devient Alphabet Inc. Un changement en grande partie pour tenter de forger la « hype », l’idée que le site fait partie de quelque chose de plus grand, du futur, de ce qui va former l’Internet – non la vie – de demain. Bon je pense que ça se voit que je suis un peu sarcastique de tout ça, mais y’a cette idée derrière les grandes entreprises de la tech. Elles ne sont plus dans l’idée de tourner autour de quelques produits, elles se présentent comme le « futur ». X Corp n’est qu’une tentative de créer un autre GAFAM, et fait partie des mêmes mouvements, des mêmes visions, du même aspect « techbro ».

C’est pour ça que le nom « rigolo » est moins mis en avant par rapport au nom plus « générique-mais-cool-regardez ». Meta, pour ceux qui vont au-delà et le métavers. X pour la variable inconnue. Alphabet pour aller de A à Z. Tout cela est de l’esbroufe, parce que plus que vendre un produit, ils vendent de la hype aux investisseurs.

Et le fait que Musk a voulu réutiliser ce nom dans le passé ne change pas grand-chose à tout ça. Le but, l’ego est le même. Donner l’impression qu’on est face à une grosse mégacorporation du futur. Et ce manque d’originalité n’est pas que dans le changement de nom, mais aussi au final dans son plan derrière tout ça : transformer Twitter en une marketplace.

X, une autre marketplace

Le passage de Twitter à X.com, montre le même cœur que les metaverse et crypto… et au final une grande partie des transformations qui se sont produites : tout transformer en marketplace, enrobé dans une esthétique de technofuturisme. Cela se voit encore plus dans le message de Linda Yaccarino, la CEO de Twitter :

X est l’état futur de l’interactivité illimitée – centrée sur l’audio, la vidéo, la messagerie, les paiements/les banques – créant une place de marché globale pour les idées, les biens, les services et les opportunités. Propulsé par l’IA, X va nous connecter d’une manière que nous commençons juste à imaginer.

— Linda Yaccarino, twitter

On peut remarquer deux choses dans ce message :

Le premier est qu’il n’y a rien d’original dedans. Nous y retrouvons exactement la même chose que l’on retrouvait à l’époque des crypto et des NFT : le truc qui fait tout mais surtout des trucs qui existent déjà, et basé sur la technologie du turfu. Y’a déjà 500 plateformes pour faire payer pour des services, que ce soit en crowdfunding, au format « patreon », via des commissions, etc. Des ventes de biens sur internet, y’a aussi des tonnes de moyens, etc. Tout ce qui est rajouté c’est « on va faire tous ces trucs qui existent déjà, et on a dit « IA » dedans donc c’est le futur ça va tout révolutionner tavu ». C’est le modus operandi classique, et il n’y a rien d’original dans ce que propose Twitter. D’ailleurs, le rôle que peut avoir l’IA dedans est très vague : est-ce que c’est pour modifier les algorithmes ? (cela ne sert pas à grand-chose, on les hait tous déjà). Est-ce que c’est pour pouvoir générer des produits par IA pour les vendre ? Le produit que veut proposer X Corp n’a pas besoin d’IA pour fonctionner, elle est là juste pour dire « c’est le futur », et hyper les investisseurs.

Le second est que cela transforme l’idée de base de Twitter (l’endroit où les gens parlent) en avant tout une « place de marché », comme indiqué plus haut. Twitter était le lieu de la discussion, du partage de l’idée à la con qu’on a eue sous la douche. D’où le format du microblogging. Là aussi, même cet aspect devient quelque chose de commercialisable, ce qui rappelle encore une fois le mouvement qu’il y avait eu autour de la crypto et des NFT : tout doit pouvoir devenir commercialisable, tout doit pouvoir devenir un produit. C’est aussi ce mouvement qui fait qu’on a de plus en plus de « jeux-services », qui servent avant tout à vendre des produits dématérialisés n’ayant de valeur qu’à l’intérieur du jeu (et encore). Beaucoup de jeux ne peuvent plus juste « être un jeu », ils doivent être une « marketplace ».

Conclusion

La transformation de twitter en X n’est donc pas une surprise – en plus du fait que c’était annoncé depuis longtemps. Il ne s’agit que d’un phénomène qui arrive tout le temps sur Internet. Une volonté de transformer un site populaire en une « place de marché du futur » pour hyper des investisseurs. Encore une fois.

Et au final, on sait bien ce qu’a acheté Musk quand il a acheté Twitter. Il n’a pas acheté un produit. Il a acheté une userbase (une base d’utilisateurs et utilisatrices) pour l’injecter directement dans le nouveau produit qu’il voulait faire. C’est assez ironique de voir que Twitter a fini de la même manière que certains comptes populaires : revendu pour être renommé et envoyer sa pub à des tonnes d’utilisateurs.

l'oiseau bleu de twitter sur le dos et à terre, mort avec un X qui lui ferme l'œil.




David Revoy, un artiste face aux IA génératives

Depuis plusieurs années, Framasoft est honoré et enchanté des illustrations que lui fournit David Revoy, comme sont ravi⋅es les lectrices et lecteurs qui apprécient les aventures de Pepper et Carrot et les graphistes qui bénéficient de ses tutoriels. Ses créations graphiques sont sous licence libre (CC-BY), ce qui est un choix courageux compte tenu des « éditeurs » dépourvus de scrupules comme on peut le lire dans cet article.

Cet artiste talentueux autant que généreux explique aujourd’hui son embarras face aux IA génératives et pourquoi son éthique ainsi que son processus créatif personnel l’empêchent de les utiliser comme le font les « IArtistes »…

Article original en anglais sur le blog de David Revoy

Traduction : Goofy, révisée par l’auteur.

Intelligence artificielle : voici pourquoi je n’utiliserai pas pour mes créations artistiques de hashtag #HumanArt, #HumanMade ou #NoAI

par David REVOY

 

Pepper sur une chaise entourée de flammes, reprise d'un célèbre mème "this is fine"
Image d’illustration : « This is not fine », licence CC-BY 4.0, source en haute résolution disponible

« C’est cool, vous avez utilisé quel IA pour faire ça ? »

« Son travail est sans aucun doute de l’IA »

« C’est de l’art fait avec de l’IA et je trouve ça déprimant… »

… voilà un échantillon des commentaires que je reçois de plus en plus sur mon travail artistique.

Et ce n’est pas agréable.

Dans un monde où des légions d’IArtistes envahissent les plateformes comme celles des médias sociaux, de DeviantArt ou ArtStation, je remarque que dans l’esprit du plus grand nombre on commence à mettre l’Art-par-IA et l’art numérique dans le même panier. En tant qu’artiste numérique qui crée son œuvre comme une vraie peinture, je trouve cette situation très injuste. J’utilise une tablette graphique, des layers (couches d’images), des peintures numériques et des pinceaux numériques. J’y travaille dur des heures et des heures. Je ne me contente pas de saisir au clavier une invite et d’appuyer sur Entrée pour avoir mes images.
C’est pourquoi j’ai commencé à ajouter les hashtags #HumanArt puis #HumanMade à mes œuvres sur les réseaux sociaux pour indiquer clairement que mon art est « fait à la main » et qu’il n’utilise pas Stable Diffusion, Dall-E, Midjourney ou n’importe quel outil de génération automatique d’images disponible aujourd’hui. Je voulais clarifier cela pour ne plus recevoir le genre de commentaires que j’ai cités au début de mon intro. Mais quel est le meilleur hashtag pour cela ?

Je ne savais pas trop, alors j’ai lancé un sondage sur mon fil Mastodon

sondage sur le fil mastodon de David : Quel hashtag recommanderiez-vous à un artiste qui veut montrer que son art n'est paz créé par IA ? réponses : 55% #HumanMade 30% #Human Art 15% Autre (commentez)
Source: https://framapiaf.org/@davidrevoy/110618065523294522

Résultats

Sur 954 personnes qui ont voté (je les remercie), #HumanMade l’emporte par 55 % contre 30 % pour #HumanArt. Mais ce qui m’a fait changer d’idée c’est la diversité et la richesse des points de vue que j’ai reçus en commentaires. Bon nombre d’entre eux étaient privés et donc vous ne pouvez pas les parcourir. Mais ils m’ont vraiment fait changer d’avis sur la question. C’est pourquoi j’ai décidé de rédiger cet article pour en parler un peu.

Critiques des hashtags #HumanMade et #HumanArt

Tout d’abord, #HumanArt sonne comme une opposition au célèbre tag #FurryArt de la communauté Furry. Bien vu, ce n’est pas ce que je veux.

Et puis #HumanMade est un choix qui a été critiqué parce que l’IA aussi était une création humaine, ce qui lui faisait perdre sa pertinence. Mais la plupart des personnes pouvaient facilement comprendre ce que #HumanMade signifierait sous une création artistique. Donc 55 % des votes était un score cohérent.

J’ai aussi reçu pas mal de propositions d’alternatives comme #HandCrafted, #HandMade, #Art et autres suggestions.

Le succès de #NoAI

J’ai également reçu beaucoup de suggestions en faveur du hashtag #NoAI, ainsi que des variantes plus drôles et surtout plus crues. C’était tout à fait marrant, mais je n’ai pas l’intention de m’attaquer à toute l’intelligence artificielle. Certains de ses usages qui reposent sur des jeux de données éthiques pourraient à l’avenir s’avérer de bons outils. J’y reviendrai plus loin dans cet article.
De toutes façons, j’ai toujours essayé d’avoir un état d’esprit « favorable à » plutôt que « opposé à » quelque chose.

C’est aux artistes qui utilisent l’IA de taguer leur message

Ceci est revenu aussi très fréquemment dans les commentaires. Malheureusement, les IArtistes taguent rarement leur travail, comme on peut le voir sur les réseaux sociaux, DeviantArt ou ArtStation. Et je les comprends, vu le nombre d’avantages qu’ils ont à ne pas le faire.

Pour commencer, ils peuvent se faire passer pour des artistes sans grand effort. Ensuite, ils peuvent conférer à leur art davantage de légitimité à leurs yeux et aux yeux de leur public. Enfin, ils peuvent probablement éviter les commentaires hostiles et les signalements des artistes anti-IA des diverses plateformes.
Je n’ai donc pas l’espoir qu’ils le feront un jour. Je déteste cette situation parce qu’elle est injuste.
Mais récemment j’ai commencé à apprécier ce comportement sous un autre angle, dans la mesure où ces impostures pourraient ruiner tous les jeux de données et les modèles d’apprentissage : les IA se dévorent elles-mêmes.

Quand David propose de saboter les jeux de données… 😛 

Pas de hashtag du tout

La dernière suggestion que j’ai fréquemment reçue était de ne pas utiliser de hashtag du tout.
En effet, écrire #HumanArt, #HumanMade ou #NoAI signalerait immédiatement le message et l’œuvre comme une cible de qualité pour l’apprentissage sur les jeux de données à venir. Comme je l’ai écrit plus haut, obtenir des jeux de données réalisées par des humains est le futur défi des IA. Je ne veux surtout pas leur faciliter la tâche.
Il m’est toujours possible d’indiquer mon éthique personnelle en écrivant « Œuvre réalisée sans utilisation de générateur d’image par IA qui repose sur des jeux de données non éthiques » dans la section d’informations de mon profil de média social, ou bien d’ajouter simplement un lien vers l’article que j’écris en ce moment même.

Conclusion et considérations sur les IA

J’ai donc pris ma décision : je n’utiliserai pour ma création artistique aucun hashtag, ni #HumanArt, ni #HumanMade, ni #NoAI.
Je continuerai à publier en ligne mes œuvres numériques, comme je le fais depuis le début des années 2000.
Je continuerai à tout publier sous une licence permissive Creative Commons et avec les fichiers sources, parce que c’est ainsi que j’aime qualifier mon art : libre et gratuit.

Malheureusement, je ne serai jamais en mesure d’empêcher des entreprises dépourvues d’éthique de siphonner complètement mes collections d’œuvres. Le mal est en tout cas déjà fait : des centaines, voire des milliers de mes illustrations et cases de bandes dessinées ont été utilisées pour entraîner leurs IA. Il est facile d’en avoir la preuve (par exemple sur haveibeentrained.com  ou bien en parcourant le jeu de données d’apprentissage Laion5B).

Je ne suis pas du tout d’accord avec ça.

Quelles sont mes possibilités ? Pas grand-chose… Je ne peux pas supprimer mes créations une à une de leur jeu de données. Elles ont été copiées sur tellement de sites de fonds d’écran, de galeries, forums et autres projets. Je n’ai pas les ressources pour me lancer là-dedans. Je ne peux pas non plus exclure mes créations futures des prochaines moissons par scans. De plus, les méthodes de protection comme Glaze me paraissent une piètre solution au problème, je ne suis pas convaincu. Pas plus que par la perspective d’imposer des filigranes à mes images…

Ne vous y trompez pas : je n’ai rien contre la technologie des IA en elle-même.On la trouve partout en ce moment. Dans le smartphones pour améliorer les photos, dans les logiciels de 3D pour éliminer le « bruit » des processeurs graphiques, dans les outils de traduction [N. de T. la présente traduction a en effet été réalisée avec l’aide DeepL pour le premier jet], derrière les moteurs de recherche etc. Les techniques de réseaux neuronaux et d’apprentissage machine sur les jeux de données s’avèrent très efficaces pour certaines tâches.
Les projets FLOSS (Free Libre and Open Source Software) eux-mêmes comme GMIC développent leurs propres bibliothèques de réseaux neuronaux. Bien sûr elles reposeront sur des jeux de données éthiques. Comme d’habitude, mon problème n’est pas la technologie en elle-même. Mon problème, c’est le mode de gouvernance et l’éthique de ceux qui utilisent de telles technologies.

Pour ma part, je continuerai à ne pas utiliser d’IA génératives dans mon travail (Stable Diffusion, Dall-E, Midjourney et Cie). Je les ai expérimentées sur les médias sociaux par le passé, parfois sérieusement, parfois en étant impressionné, mais le plus souvent de façon sarcastique .

Je n’aime pas du tout le processus des IA…

Quand je crée une nouvelle œuvre, je n’exprime pas mes idées avec des mots.
Quand je crée une nouvelle œuvre, je n’envoie pas l’idée par texto à mon cerveau.

C’est un mixage complexe d’émotions, de formes, de couleurs et de textures. C’est comme saisir au vol une scène éphémère venue d’un rêve passager rendant visite à mon cerveau. Elle n’a nul besoin d’être traduite en une formulation verbale. Quand je fais cela, je partage une part intime de mon rêve intérieur. Cela va au-delà des mots pour atteindre certaines émotions, souvenirs et sensations.
Avec les IA, les IArtistes se contentent de saisir au clavier un certains nombre de mots-clés pour le thème. Ils l’agrémentent d’autres mots-clés, ciblent l’imitation d’un artiste ou d’un style. Puis ils laissent le hasard opérer pour avoir un résultat. Ensuite ils découvrent que ce résultat, bien sûr, inclut des émotions sous forme picturale, des formes, des couleurs et des textures. Mais ces émotions sont-elles les leurs ou bien un sous-produit de leur processus ? Quoi qu’il en soit, ils peuvent posséder ces émotions.

Les IArtistes sont juste des mineurs qui forent dans les œuvres d’art générées artificiellement, c’est le nouveau Readymade numérique de notre temps. Cette technologie recherche la productivité au moindre coût et au moindre effort. Je pense que c’est très cohérent avec notre époque. Cela fournit à beaucoup d’écrivains des illustrations médiocres pour les couvertures de leurs livres, aux rédacteurs pour leurs articles, aux musiciens pour leurs albums et aux IArtistes pour leurs portfolios…

Je comprends bien qu’on ne peut pas revenir en arrière, ce public se sent comme empuissanté par les IA. Il peut finalement avoir des illustrations vite et pas cher. Et il va traiter de luddites tous les artistes qui luttent contre ça…

Mais je vais persister ici à déclarer que personnellement je n’aime pas cette forme d’art, parce qu’elle ne dit rien de ses créateurs. Ce qu’ils pensent, quel est leur goût esthétique, ce qu’ils ont en eux-mêmes pour tracer une ligne ou donner tel coup de pinceau, quelle lumière brille en eux, comment ils masquent leurs imperfections, leurs délicieuses inexactitudes en les maquillant… Je veux voir tout cela et suivre la vie des personnes, œuvre après œuvre.

J’espère que vous continuerez à suivre et soutenir mon travail artistique, les épisodes de mes bandes dessinées, mes articles et tutoriels, pour les mêmes raisons.


Vous pouvez soutenir la travail de David Revoy en devenant un mécène ou en parcourant sa boutique.




ChatGPT, Bard et cie : nouvelle course à l’IA, et pourquoi faire déjà ?

Google va ajouter de l’IA générative dans Gmail et Docs. Énième actualité d’un feuilleton permanent depuis « l’irruption » de ChatGPT. Et chez moi, un sentiment de malaise, d’incompréhension, et même de colère.

Qu’est-ce que ChatGPT ? Qu’est-ce que l’IA2 ? Ce sont d’abord d’immenses infrastructures : les câbles sous-marins, les serveurs des datacenters, mais aussi nos ordinateurs et nos smartphones. Donc ce sont des terres rares et des minerais, dégueulasses à excaver et à purifier (heureusement un jour il n’y en aura plus3). Ensuite, c’est du traitement MASSIF de données. Du vrai gavage de programmes d’apprentissages par des quantités phénoménales de données. C’est donc des infrastructures (encore) et de l’énergie. Une quantité phénoménale d’énergie, très largement carbonée. Enfin, c’est beaucoup de main-d’œuvre sous-payée pour entraîner, tester, et entretenir les systèmes d’IA. ChatGPT, il ne faut pas l’oublier, ce n’est que la face émergée d’un très très gros iceberg. Très gros et très sale.

vue d'une vallée étroite et du cheminement de mineurs vers une mine de cobalt

Ce n’est pas un film. ÇA, c’est l’ambiance dans une mine de cobalt.

Image issue du documentaire d’Arte : Cobalt, l’envers du rêve électrique

Bref, développer une IA a un coût environnemental et humain énorme (et largement opaque), ce n’est pas que du code informatique tout propre. À la rigueur, si le rapport coût/bénéfice était largement positif… Par exemple, si l’IA développée permettait des économies d’énergie de 30 % dans le monde, ou qu’elle permettait de mieux gérer les flux alimentaires et donc d’endiguer la faim, alors on pourrait sérieusement discuter de moralité (est-ce acceptable de détruire la planète et d’exploiter des humains pour sauver la planète et d’autres humains ?).

Mais à quoi servent ces IA génératives ? Pour le moment, à faire joujou, principalement. À chanter les louanges de l’innovation, évidemment. À se faire peur sur l’éternelle question du dépassement de l’humain par la machine, bien sûr. Et ensuite ? Supprimer des postes dans des domaines plutôt créatifs et valorisés ? Défoncer les droits d’auteur en pillant leur travail via des données amassées sans régulation ? Gagner un peu de temps en rédigeant ses mails et ses documents ? Transformer encore un peu plus les moteurs de recherche en moteurs de réponses (avec tous les risques que ça comporte) ? Est-ce bien sérieux ? Est-ce bien acceptable ?

copie d'écran d'un site "cadremploi", avec ce texte "comment s'aider de chatgpt pour rédiger sa lettre de motivation - ChatGPT est une intelligence artificielle capable de rédiger des contenus à votre place.
C’est ça, le principal défi du siècle que les technologies doivent nous aider à relever ???

Tout ça me laisse interrogateur, et même, en pleine urgence environnementale et sociale, ça me révolte. À un moment, on ne peut pas continuer d’alerter sur l’impact environnemental réel et croissant du numérique, et s’enthousiasmer pour des produits comme ChatGPT et consorts. Or souvent, ce sont les mêmes qui le font ! Ce qui me révolte, c’est que toute cette exploitation humaine et naturelle4, inhérente à la construction des Intelligences Artificielles, est tellement loin de ChatGPT que nous ne la voyons pas, ou plus, et nous ne voulons pas la voir. Cela se traduit par tous les messages, enthousiastes et même volubiles, postés quotidiennement, sans mauvaise intention de la plupart de leurs auteur⋅ice⋅s.

Symboliquement, je propose de boycotter ces technologies d’IA génératives. Je ne suis heureusement pas utilisateur de Google et Microsoft, qui veulent en mettre à toutes les sauces (pour quoi faire ?). J’espère que mes éditeurs de services numériques (a priori plus éthiques) ne céderont pas un pouce de leurs valeurs à cette hype mortifère…

schéma mettant en relation par des flèches bi-directionnelles : Le numérique acceptable :Emancipateur et non aliénant /Choisi et non subi / Soutenable humainement et environnementalement
Au vu de ce qu’elles apportent, les IA génératives sont-elles vraiment soutenables humainement et environnementalement ? Je ne le crois pas.

Pour poursuivre sa lecture et ses réflexions




Google et son robot pipoteur(*), selon Doctorow

Source de commentaires alarmants ou sarcastiques, les robots conversationnels qui reposent sur l’apprentissage automatique ne provoquent pas seulement l’intérêt du grand public, mais font l’objet d’une course de vitesse chez les GAFAM.

Tout récemment, peut-être pour ne pas être à la traîne derrière Microsoft qui veut adjoindre un chatbot à son moteur de recherche Bing, voilà que Google annonce sa ferme résolution d’en faire autant. Dans l’article traduit pour vous par framalang, Cory Doctorow met en perspective cette décision qui lui semble absurde en rappelant les échecs de Google qui a rarement réussi à créer quoi que ce soit…

(*) Merci à Clochix dont nous adoptons dans notre titre la suggestion.

Article original : Google’s chatbot panic

Traduction Framalang : Fabrice, goofy, jums, Henri-Paul, Sysy, wisi_eu,

L’assistant conversationnel de Google en panique

par Cory Doctorow

 

Photo Jonathan Worth CC-BY-SA

 

 

Il n’y a rien d’étonnant à ce que Microsoft décide que l’avenir de la recherche en ligne ne soit plus fondé sur les liens dans une page web, mais de là à la remplacer par des longs paragraphes fleuris écrits dans un chatbot qui se trouve être souvent mensonger… — et en plus Google est d’accord avec ce concept.

Microsoft n’a rien à perdre. Il a dépensé des milliards pour Bing, un moteur de recherche que personne n’utilise volontairement. Alors, sait-on jamais, essayer quelque chose d’aussi stupide pourrait marcher. Mais pourquoi Google, qui monopolise plus de 90 % des parts des moteurs de recherche dans le monde, saute-t-il dans le même bateau que Microsoft ?

le long d'un mur de brique rouge sur lequel est suspendu un personnage ovoïde au visage très inquiet (Humpty-Dumpty le gros œuf), deux silhouettes jumelles (Tweedle-dee et Tweedle-dum les personnages de De l'autre côté du_miroir de Lewis Carroll) représentent avec leur logo sur le ventre Bing et google, chacun d'eaux a une tête qui évoque le robot Hal de 2001, à savoir une lueur rouge sur fond noir qui fait penser à un œil.

Il y a un délicieux fil à dérouler sur Mastodon, écrit par Dan Hon, qui compare les interfaces de recherche merdiques de Bing et Google à Tweedledee et Tweedledum :

https://mamot.fr/@danhon@dan.mastohon.com/109832788458972865

Devant la maison, Alice tomba sur deux étranges personnages, tous deux étaient des moteurs de recherche.
— moi, c’est Google-E, se présenta celui qui était entièrement recouvert de publicités
— et moi, c’est Bingle-Dum, fit l’autre, le plus petit des deux, et il fit la grimace comme s’il avait moins de visiteurs et moins d’occasions de mener des conversations que l’autre.
— je vous connais, répondit Alice, vous allez me soumettre une énigme ? Peut-être que l’un de vous dit la vérité et que l’autre ment ?
— Oh non, fit Bingle-Dum
— Nous mentons tous les deux, ajouta Google-E

Mais voilà le meilleur :

— Cette situation est vraiment intolérable, si vous mentez tous les deux.

— mais nous mentons de façon très convaincante, précisa Bingle-Dum

— D’accord, merci bien. Dans ce cas, comment puis-je vous faire jamais confiance ni / confiance à l’un ni/ou à l’autre ? Dans ce cas, comment puis-je faire confiance à l’un d’entre vous ?

Google-E et Bingle-Dum se tournèrent l’un vers l’autre et haussèrent les épaules.

La recherche par chatbot est une très mauvaise idée, surtout à un moment où le Web est prompt à se remplir de vastes montagnes de conneries générées via l’intelligence artificielle, comme des jacassements statiques de perroquets aléatoires :

La stratégie du chatbot de Google ne devrait pas consister à ajouter plus de délires à Internet, mais plutôt à essayer de trouver comment exclure (ou, au moins, vérifier) les absurdités des spammeurs et des escrocs du référencement.

Et pourtant, Google est à fond dans les chatbots, son PDG a ordonné à tout le monde de déployer des assistants conversationnels dans chaque recoin de l’univers Google. Pourquoi diable est-ce que l’entreprise court après Microsoft pour savoir qui sera le premier à décevoir des espérances démesurées ?

J’ai publié une théorie dans The Atlantic, sous le titre « Comment Google a épuisé toutes ses idées », dans lequel j’étudie la théorie de la compétition pour expliquer l’insécurité croissante de Google, un complexe d’anxiété qui touche l’entreprise quasiment depuis sa création:

L’idée de base : il y a 25 ans, les fondateurs de Google ont eu une idée extraordinaire — un meilleur moyen de faire des recherches. Les marchés financiers ont inondé l’entreprise en liquidités, et elle a engagé les meilleurs, les personnes les plus brillantes et les plus créatives qu’elle pouvait trouver, mais cela a créé une culture d’entreprise qui était incapable de capitaliser sur leurs idées.

Tous les produits que Google a créés en interne, à part son clone de Hotmail, sont morts. Certains de ces produits étaient bons, certains horribles, mais cela n’avait aucune importance. Google, une entreprise qui promouvait la culture du baby-foot et la fantaisie de l’usine Willy Wonka [NdT: dans Charlie et la chocolaterie, de Roald Dahl], était totalement incapable d’innover.

Toutes les réussites de Google, hormis son moteur de recherche et gmail, viennent d’une acquisition : mobile, technologie publicitaire, vidéos, infogérance de serveurs, docs, agenda, cartes, tout ce que vous voulez. L’entreprise souhaite plus que tout être une société qui « fabrique des choses », mais en réalité elle « achète des choses ». Bien sûr, ils sont très bons pour rendre ces produits opérationnels et à les faire « passer à l’échelle », mais ce sont les enjeux de n’importe quel monopole :

La dissonance cognitive d’un « génie créatif » autoproclamé, dont le véritable génie est de dépenser l’argent des autres pour acheter les produits des autres, et de s’en attribuer le mérite, pousse les gens à faire des choses vraiment stupides (comme tout utilisateur de Twitter peut en témoigner).
Google a longtemps montré cette pathologie. Au milieu des années 2000 – après que Google a chassé Yahoo en Chine et qu’il a commencé à censurer ses résultats de recherche, puis collaboré à la surveillance d’État — nous avions l’habitude de dire que le moyen d’amener Google à faire quelque chose de stupide et d’autodestructeur était d’amener Yahoo à le faire en premier lieu.

C’était toute une époque. Yahoo était désespéré et échouait, devenant un cimetière d’acquisitions prometteuses qui étaient dépecées et qu’on laissait se vider de leur sang, laissées à l’abandon sur l’Internet public, alors que les princes duellistes de la haute direction de Yahoo se donnaient des coups de poignard dans le dos comme dans un jeu de rôle genre les Médicis, pour savoir lequel saboterait le mieux l’autre. Aller en Chine fut un acte de désespoir après l’humiliation pour l’entreprise que fut le moteur de recherche largement supérieur de Google. Regarder Google copier les manœuvres idiotes de Yahoo était stupéfiant.

C’était déconcertant, à l’époque. Mais à mesure que le temps passait, Google copiait servilement d’autres rivaux et révélait ainsi une certaine pathologie d’insécurité. L’entreprise échouait de manière récurrente à créer son réseau « social », et comme Facebook prenait toujours plus de parts de marché dans la publicité, Google faisait tout pour le concurrencer. L’entreprise fit de l’intégration de Google Plus un « indictateur5 de performance » dans chaque division, et le résultat était une agrégation étrange de fonctionnalités « sociales » défaillantes dans chaque produit Google — produits sur lesquels des milliards d’utilisateurs se reposaient pour des opérations sensibles, qui devenaient tout à coup polluées avec des boutons sociaux qui n’avaient aucun sens.

La débâcle de G+ fut à peine croyable : certaines fonctionnalités et leur intégration étaient excellentes, et donc logiquement utilisées, mais elles subissaient l’ombrage des incohérences insistantes de la hiérarchie de Google pour en faire une entreprise orientée réseaux sociaux. Quand G+ est mort, il a totalement implosé, et les parties utiles de G+ sur lesquelles les gens se reposaient ont disparu avec les parties aberrantes.

Pour toutes celles et ceux qui ont vécu la tragi-comédie de G+, le virage de Google vers Bard, l’interface chatbot pour les résultats du moteur de recherche, semble tristement familier. C’est vraiment le moment « Mourir en héros ou vivre assez longtemps pour devenir un méchant ». Microsoft, le monopole qui n’a pas pu tuer la jeune pousse Google à cause de son expérience traumatisante des lois antitrust, est passé d’une entreprise qui créait et développait des produits à une entreprise d’acquisitions et d’opérations, et Google est juste derrière elle.

Pour la seule année dernière, Google a viré 12 000 personnes pour satisfaire un « investisseur activiste » privé. La même année, l’entreprise a racheté 70 milliards de dollars en actions, ce qui lui permet de dégager suffisamment de capitaux pour payer les salaires de ses 12 000 « Googleurs » pendant les 27 prochaines années. Google est une société financière avec une activité secondaire dans la publicité en ligne. C’est une nécessité : lorsque votre seul moyen de croissance passe par l’accès aux marchés financiers pour financer des acquisitions anticoncurrentielles, vous ne pouvez pas vous permettre d’énerver les dieux de l’argent, même si vous avez une structure à « double pouvoir » qui permet aux fondateurs de l’emporter au vote contre tous les autres actionnaires :

https://abc.xyz/investor/founders-letters/2004-ipo-letter/

ChatGPT et ses clones cochent toutes les cases d’une mode technologique, et sont les dignes héritiers de la dernière saison du Web3 et des pics des cryptomonnaies. Une des critiques les plus claires et les plus inspirantes des chatbots vient de l’écrivain de science-fiction Ted Chiang, dont la critique déjà culte est intitulée « ChatGPT est un une image JPEG floue du Web » :

https://www.newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg-of-the-web

Chiang souligne une différence essentielle entre les résultats de ChatGPT et ceux des humains : le premier jet d’un auteur humain est souvent une idée originale, mal exprimée, alors que le mieux que ChatGPT puisse espérer est une idée non originale, exprimée avec compétence. ChatGPT est parfaitement positionné pour améliorer la soupe de référencement que des légions de travailleurs mal payés produisent dans le but de grimper dans les résultats de recherche de Google.

En mentionnant l’article de Chiang dans l’épisode du podcast « This Machine Kills », Jathan Sadowski perce de manière experte la bulle de la hype ChatGPT4, qui soutient que la prochaine version du chatbot sera si étonnante que toute critique de la technologie actuelle en deviendra obsolète.

Sadowski note que les ingénieurs d’OpenAI font tout leur possible pour s’assurer que la prochaine version ne sera pas entraînée sur les résultats de ChatGPT3. Cela en dit long : si un grand modèle de langage peut produire du matériel aussi bon qu’un texte produit par un humain, alors pourquoi les résultats issus de ChatGPT3 ne peuvent-ils pas être utilisés pour créer ChatGPT4 ?

Sadowski utilise une expression géniale pour décrire le problème :  « une IA des Habsbourg ». De même que la consanguinité royale a produit une génération de prétendus surhommes incapables de se reproduire, l’alimentation d’un nouveau modèle par le flux de sortie du modèle précédent produira une spirale infernale toujours pire d’absurdités qui finira par disparaître dans son propre trou du cul.

 

Crédit image (modifiée) : Cryteria, CC BY 3.0




Démystifier les conneries sur l’IA – Une interview

Cet article a été publié à l’origine par THE MARKUP, il a été traduit et republié selon les termes de la licence Creative Commons Attribution-NonCommercial-NoDerivatives
Publication originale sur le site themarkup.org

Démystifier le buzz autour de l’IA

Un entretien avec Arvind Narayanan

par JULIA ANGWIN
Si vous avez parcouru tout le battage médiatique sur ChatGPT le dernier robot conversationnel qui repose sur l’intelligence artificielle, vous pouvez avoir quelque raison de croire que la fin du monde est proche.

Le chat « intelligent » de l’IA a enflammé l’imagination du public pour sa capacité à générer instantanément des poèmes, des essais, sa capacité à imiter divers styles d’écrits, et à réussir à des examens d’écoles de droit et de commerce.

Les enseignants s’inquiètent de la tricherie possible de leurs étudiants (des écoles publiques de New York City l’ont déjà interdit). Les rédacteurs se demandent si cela ne va pas faire disparaître leur travail (BuzzFeed et CNET ont déjà utilisé l’IA pour créer des contenus). Le journal The Atlantic a déclaré que cela pourrait « déstabiliser les professions de cadres supérieurs ». L’investisseur en capital-risque Paul Kedrosky l’a qualifié de « bombe nucléaire de poche » et blâmé ses concepteurs pour l’avoir lancé dans une société qui n’y est pas prête.

Même le PDG de l’entreprise qui a lancé ChatGPT, Sam Altman, a déclaré aux médias que le pire scénario pour l’IA pourrait signifier « notre extinction finale ».

Cependant pour d’autres ce buzz est démesuré. Le principal scientifique chargé de l’IA chez Meta’s AI, Yann LeCun, a déclaré à des journalistes que ChatGPT n’a « rien de révolutionnaire ». Le professeur de langage informatique de l’université de Washington Emily Bender précise que « la croyance en un programme informatique omniscient vient de la science-fiction et devrait y rester ».

Alors, jusqu’à quel point devrions-nous nous inquiéter ? Pour recueillir un avis autorisé, je me suis adressée au professeur d’informatique de Princeton Arvind Narayanan, qui est en train de co-rédiger un livre sur « Le charlatanisme de l’IA ». En 2019, Narayanan a fait une conférence au MIT intitulée « Comment identifier le charlatanisme del’IA » qui exposait une classification des IA en fonction de leur validité ou non. À sa grande surprise, son obscure conférence universitaire est devenue virale, et ses diapos ont été téléchargées plusieurs dizaines de milliers de fois ; ses messages sur twitter qui ont suivi ont reçu plus de deux millions de vues.

Narayanan s’est alors associé à l’un de ses étudiants, Sayash Kapoor, pour développer dans un livre la classification des IA. L’année dernière, leur duo a publié une liste de 18 pièges courants dans lesquels tombent régulièrement les journalistes qui couvrent le sujet des IA. Presque en haut de la liste : « illustrer des articles sur l’IA avec de chouettes images de robots ». La raison : donner une image anthropomorphique des IA implique de façon fallacieuse qu’elles ont le potentiel d’agir dans le monde réel.

Narayanan est également le co-auteur d’un manuel sur l’équité et l’apprentissage machine et dirige le projet Web Transparency and Accountability de l’université de Princeton pour contrôler comment les entreprises collectent et utilisent les informations personnelles. Il a reçu de la Maison-Blanche le Presidential Early Career Award for Scientists and Engineers [N. de T. : une distinction honorifique pour les scientifiques et ingénieurs qui entament brillamment leur carrière].

Voici notre échange, édité par souci de clarté et brièveté.

Angwin : vous avez qualifié ChatGPT de « générateur de conneries ». Pouvez-vous expliquer ce que vous voulez dire ?

Narayanan : Sayash Kapoor et moi-même l’appelons générateur de conneries et nous ne sommes pas les seuls à le qualifier ainsi. Pas au sens strict mais dans un sens précis. Ce que nous voulons dire, c’est qu’il est entraîné pour produire du texte vraisemblable. Il est très bon pour être persuasif, mais n’est pas entraîné pour produire des énoncés vrais ; s’il génère souvent des énoncés vrais, c’est un effet collatéral du fait qu’il doit être plausible et persuasif, mais ce n’est pas son but.

Cela rejoint vraiment ce que le philosophe Harry Frankfurt a appelé du bullshit, c’est-à-dire du langage qui a pour objet de persuader sans égards pour le critère de vérité. Ceux qui débitent du bullshit se moquent de savoir si ce qu’ils disent est vrai ; ils ont en tête certains objectifs. Tant qu’ils persuadent, ces objectifs sont atteints. Et en effet, c’est ce que fait ChatGPT. Il tente de persuader, et n’a aucun moyen de savoir à coup sûr si ses énoncés sont vrais ou non.

Angwin : Qu’est-ce qui vous inquiète le plus avec ChatGPT ?

Narayanan : il existe des cas très clairs et dangereux de mésinformation dont nous devons nous inquiéter. Par exemple si des personnes l’utilisent comme outil d’apprentissage et accidentellement apprennent des informations erronées, ou si des étudiants rédigent des essais en utilisant ChatGPT quand ils ont un devoir maison à faire. J’ai appris récemment que le CNET a depuis plusieurs mois maintenant utilisé des outils d’IA générative pour écrire des articles. Même s’ils prétendent que des éditeurs humains ont vérifié rigoureusement les affirmations de ces textes, il est apparu que ce n’était pas le cas. Le CNET a publié des articles écrits par une IA sans en informer correctement, c’est le cas pour 75 articles, et plusieurs d’entre eux se sont avérés contenir des erreurs qu’un rédacteur humain n’aurait très probablement jamais commises. Ce n’était pas dans une mauvaise intention, mais c’est le genre de danger dont nous devons nous préoccuper davantage quand des personnes se tournent vers l’IA en raison des contraintes pratiques qu’elles affrontent. Ajoutez à cela le fait que l’outil ne dispose pas d’une notion claire de la vérité, et vous avez la recette du désastre.

Angwin : Vous avez développé une classification des l’IA dans laquelle vous décrivez différents types de technologies qui répondent au terme générique de « IA ». Pouvez-vous nous dire où se situe ChatGPT dans cette taxonomie ?

Narayanan : ChatGPT appartient à la catégorie des IA génératives. Au plan technologique, elle est assez comparable aux modèles de conversion de texte en image, comme DALL-E [qui crée des images en fonction des instructions textuelles d’un utilisateur]. Ils sont liés aux IA utilisées pour les tâches de perception. Ce type d’IA utilise ce que l’on appelle des modèles d’apprentissage profond. Il y a environ dix ans, les technologies d’identification par ordinateur ont commencé à devenir performantes pour distinguer un chat d’un chien, ce que les humains peuvent faire très facilement.

Ce qui a changé au cours des cinq dernières années, c’est que, grâce à une nouvelle technologie qu’on appelle des transformateurs et à d’autres technologies associées, les ordinateurs sont devenus capables d’inverser la tâche de perception qui consiste à distinguer un chat ou un chien. Cela signifie qu’à partir d’un texte, ils peuvent générer une image crédible d’un chat ou d’un chien, ou même des choses fantaisistes comme un astronaute à cheval. La même chose se produit avec le texte : non seulement ces modèles prennent un fragment de texte et le classent, mais, en fonction d’une demande, ces modèles peuvent essentiellement effectuer une classification à l’envers et produire le texte plausible qui pourrait correspondre à la catégorie donnée.

Angwin : une autre catégorie d’IA dont vous parlez est celle qui prétend établir des jugements automatiques. Pouvez-vous nous dire ce que ça implique ?

Narayanan : je pense que le meilleur exemple d’automatisation du jugement est celui de la modération des contenus sur les médias sociaux. Elle est nettement imparfaite ; il y a eu énormément d’échecs notables de la modération des contenus, dont beaucoup ont eu des conséquences mortelles. Les médias sociaux ont été utilisés pour inciter à la violence, voire à la violence génocidaire dans de nombreuses régions du monde, notamment au Myanmar, au Sri Lanka et en Éthiopie. Il s’agissait dans tous les cas d’échecs de la modération des contenus, y compris de la modération du contenu par l’IA.

Toutefois les choses s’améliorent. Il est possible, du moins jusqu’à un certain point, de s’emparer du travail des modérateurs de contenus humains et d’entraîner des modèles à repérer dans une image de la nudité ou du discours de haine. Il existera toujours des limitations intrinsèques, mais la modération de contenu est un boulot horrible. C’est un travail traumatisant où l’on doit regarder en continu des images atroces, de décapitations ou autres horreurs. Si l’IA peut réduire la part du travail humain, c’est une bonne chose.

Je pense que certains aspects du processus de modération des contenus ne devraient pas être automatisés. Définir où passe la frontière entre ce qui est acceptable et ce qui est inacceptable est chronophage. C’est très compliqué. Ça demande d’impliquer la société civile. C’est constamment mouvant et propre à chaque culture. Et il faut le faire pour tous les types possibles de discours. C’est à cause de tout cela que l’IA n’a pas de rôle à y jouer.

Angwin : vous décrivez une autre catégorie d’IA qui vise à prédire les événements sociaux. Vous êtes sceptique sur les capacités de ce genre d’IA. Pourquoi ?

Narayanan : c’est le genre d’IA avec laquelle les décisionnaires prédisent ce que pourraient faire certaines personnes à l’avenir, et qu’ils utilisent pour prendre des décisions les concernant, le plus souvent pour exclure certaines possibilités. On l’utilise pour la sélection à l’embauche, c’est aussi célèbre pour le pronostic de risque de délinquance. C’est aussi utilisé dans des contextes où l’intention est d’aider des personnes. Par exemple, quelqu’un risque de décrocher de ses études ; intervenons pour suggérer un changement de filière.

Ce que toutes ces pratiques ont en commun, ce sont des prédictions statistiques basées sur des schémas et des corrélations grossières entre les données concernant ce que des personnes pourraient faire. Ces prédictions sont ensuite utilisées dans une certaine mesure pour prendre des décisions à leur sujet et, dans de nombreux cas, leur interdire certaines possibilités, limiter leur autonomie et leur ôter la possibilité de faire leurs preuves et de montrer qu’elles ne sont pas définies par des modèles statistiques. Il existe de nombreuses raisons fondamentales pour lesquelles nous pourrions considérer la plupart de ces applications de l’IA comme illégitimes et moralement inadmissibles.

Lorsqu’on intervient sur la base d’une prédiction, on doit se demander : « Est-ce la meilleure décision que nous puissions prendre ? Ou bien la meilleure décision ne serait-elle pas celle qui ne correspond pas du tout à une prédiction ? » Par exemple, dans le scénario de prédiction du risque de délinquance, la décision que nous prenons sur la base des prédictions est de refuser la mise en liberté sous caution ou la libération conditionnelle, mais si nous sortons du cadre prédictif, nous pourrions nous demander : « Quelle est la meilleure façon de réhabiliter cette personne au sein de la société et de diminuer les risques qu’elle ne commette un autre délit ? » Ce qui ouvre la possibilité d’un ensemble beaucoup plus large d’interventions.

Angwin : certains s’alarment en prétendant que ChatGPT conduit à “l’apocalypse,” pourrait supprimer des emplois et entraîner une dévalorisation des connaissances. Qu’en pensez-vous ?

Narayanan : Admettons que certaines des prédictions les plus folles concernant ChatGPT se réalisent et qu’il permette d’automatiser des secteurs entiers de l’emploi. Par analogie, pensez aux développements informatiques les plus importants de ces dernières décennies, comme l’internet et les smartphones. Ils ont remodelé des industries entières, mais nous avons appris à vivre avec. Certains emplois sont devenus plus efficaces. Certains emplois ont été automatisés, ce qui a permis aux gens de se recycler ou de changer de carrière. Il y a des effets douloureux de ces technologies, mais nous apprenons à les réguler.

Même pour quelque chose d’aussi impactant que l’internet, les moteurs de recherche ou les smartphones, on a pu trouver une adaptation, en maximisant les bénéfices et minimisant les risques, plutôt qu’une révolution. Je ne pense pas que les grands modèles de langage soient même à la hauteur. Il peut y avoir de soudains changements massifs, des avantages et des risques dans de nombreux secteurs industriels, mais je ne vois pas de scénario catastrophe dans lequel le ciel nous tomberait sur la tête.

Comme toujours, merci de votre attention.

À bientôt,
Julia Angwin
The Markup

On peut s’abonner ici à la lettre hebdomadaire (en anglais) du magazine The Markup, envoyée le samedi.




Humains après tout

S’il y a une expression dont le marketing nous rebat les oreilles, depuis pas mal de temps, c’est bien « intelligence artificielle ». S’il est important de rappeler avant tout qu’un ordinateur de 2019 ou de 1970 reste invariablement aussi con, il est aussi intéressant de suivre ce qui se passe en coulisses, quand on gratte le vernis marketing.

Sources :

Crédit : Simon Gee Giraudot (Creative Commons By-Sa)