1

Que veut dire « libre » (ou « open source ») pour un grand modèle de langage ?

Le flou entretenu entre open source et libre, déjà ancien et persistant dans l’industrie des technologies de l’information, revêt une nouvelle importance maintenant que les entreprises se lancent dans la course aux IA…
Explications, décantation et clarification par Stéphane Bortzmeyer, auquel nous ouvrons bien volontiers nos colonnes.


Vous le savez, les grands modèles de langage (ou LLM, pour « Large Language Model ») sont à la mode. Ces mécanismes, que le marketing met sous l’étiquette vague et sensationnaliste d’IA (Intelligence Artificielle), ont connu des progrès spectaculaires ces dernières années.
Une de leurs applications les plus connues est la génération de textes ou d’images. L’ouverture au public de ChatGPT, en novembre 2022, a popularisé cette application. Chaque grande entreprise de l’informatique sort désormais son propre modèle, son propre LLM.
Il faut donc se distinguer du concurrent et, pour cela, certains utilisent des arguments qui devraient plaire aux lecteurs et lectrices du Framablog, en affirmant que leur modèle est (en anglais dans le texte) « open source ». Est-ce vrai ou bien est-ce du « libre-washing » ?
Et qu’est-ce que cela veut dire pour cet objet un peu particulier qu’est un modèle de langage ?

Copie d'écran d'un tweet de Viva technology citant le président Macron au salon Vivatech où il insiste sur les LLM souverains. le texte le cite "on doit accélérer l'open source et tous les grands modèles et avoir des LMM européens qui permettront de réguler. i faut ensuite qu'on arrive à régler des cas critiques, savoir si c'est de l'IA ou pas".
Tout le monde parle des LLM (ici, avec une faute de frappe).

Source ouverte ?

Traitons d’abord un cas pénible mais fréquent : que veut dire « open source » ? Le terme désigne normalement l’information qui est librement disponible. C’est en ce sens que les diplomates, les chercheurs, les journalistes et les espions parlent de ROSO (Renseignement d’Origine en Sources Ouvertes) ou d’OSINT (Open Source Intelligence). Mais, dans le contexte du logiciel, le terme a acquis un autre sens quand un groupe de personnes, en 1998, a décidé d’essayer de remplacer le terme de « logiciel libre », qui faisait peur aux décideurs, par celui d’« open source ». Ils ont produit une définition du terme qu’on peut considérer comme la définition officielle d’« open source ». Il est intéressant de noter qu’en pratique, cette définition est quasiment équivalente aux définitions classiques du logiciel libre et que des phrases comme « le logiciel X n’est pas libre mais est open source » n’ont donc pas de sens. Ceci dit, la plupart des gens qui utilisent le terme « open source » ne connaissent ni l’histoire, ni la politique, ni la définition « officielle » et ce terme, en réalité, est utilisé pour tout et n’importe quoi. On peut donc se dire « open source » sans risque d’être contredit. Je vais donc plutôt me pencher sur la question « ces modèles sont-ils libres ? ».

Grand modèle de langage ?

Le cas du logiciel est désormais bien connu et, sauf grande malhonnêteté intellectuelle, il est facile de dire si un logiciel est libre ou pas. Mais un modèle de langage ? C’est plus compliqué, Revenons un peu sur le fonctionnement d’un LLM (grand modèle de langage). On part d’une certaine quantité de données, par exemple des textes, le « dataset ». On applique divers traitements à ces données pour produire un premier modèle. Un modèle n’est ni un programme, ni un pur ensemble de données. C’est un objet intermédiaire, qui tient des deux. Après d’éventuels raffinements et ajouts, le modèle va être utilisé par un programme (le moteur) qui va le faire tourner et, par exemple, générer du texte. Le moteur en question peut être libre ou pas. Ainsi, la bibliothèque transformers est clairement libre (licence Apache), ainsi que les bibliothèques dont elle dépend (comme PyTorch). Mais c’est le modèle qu’elle va exécuter qui détermine la qualité du résultat. Et la question du caractère libre ou pas du modèle est bien plus délicate.

Notons au passage que, vu l’importante consommation de ressources matérielles qu’utilisent ces LLM, ils sont souvent exécutés sur une grosse machine distante (le mythique « cloud »). Lorsque vous jouez avec ChatGPT, le modèle (GPT 3 au début, GPT 4 désormais) n’est pas téléchargé chez vous. Vous avez donc le service ChatGPT, qui utilise le modèle GPT.

Mais qui produit ces modèles (on verra plus loin que c’est une tâche non triviale) ? Toutes les grandes entreprises du numérique ont le leur (OpenAI a le GPT qui propulse ChatGPT, Meta a Llama), mais il en existe bien d’autres (Bloom, Falcon, etc), sans compter ceux qui sont dérivés d’un modèle existant. Beaucoup de ces modèles sont disponibles sur Hugging Face (« le GitHub de l’IA », si vous cherchez une « catch phrase ») et vous verrez donc bien des références à Hugging Face dans la suite de cet article.  Prenons par exemple le modèle Falcon. Sa fiche sur Hugging Face nous donne ses caractéristiques techniques, le jeu de données sur lequel il a été entrainé (on verra que tous les modèles sont loin d’être aussi transparents sur leur création) et la licence utilisée (licence Apache, une licence libre). Hugging Face distribue également des jeux de données d’entrainement.

Dans cet exemple ci-dessous (trouvé dans la documentation de Hugging Face), on fait tourner le moteur transformers (plus exactement, transformers, plus diverses bibliothèques logicielles) sur le modèle xlnet-base-cased en lui posant la question « Es-tu du logiciel libre ? » :

% python run_generation.py --model_type=xlnet --model_name_or_path=xlnet-base-cased
...
Model prompt >>> Are you free software?
This is a friendly reminder - the current text generation call will exceed the model's predefined maximum length (-1). Depending on the model, you may observe exceptions, performance degradation, or nothing at all.
=== GENERATED SEQUENCE 1 ===
Are you free software? Are you a professional? Are you a Master of Technical Knowledge? Are you a Professional?

Ce modèle, comme vous le voyez, est bien moins performant que celui qui est derrière le service ChatGPT ; je l’ai choisi parce qu’il peut tourner sur un ordinateur ordinaire.

Vous voulez voir du code source en langage Python ? Voici un exemple d’un programme qui fait à peu près la même chose :

from transformers import pipeline

generator = pipeline("text-generation", model="DunnBC22/xlnet-base-cased-finetuned-WikiNeural-PoS") 
print(generator("Are you free software?"))

Le modèle utilisé est un raffinement du précédent, DunnBC22/xlnet-base-cased-finetuned-WikiNeural-PoS. Il produit lui aussi du contenu de qualité contestable([{‘generated_text’: « Are you free software? What ever you may have played online over your days? Are you playing these games? Any these these hours where you aren’t wearing any heavy clothing?) mais, bon, c’est un simple exemple, pas un usage intelligent de ces modèles.

 

Un chat gris pensif dans une librairie, assis sur un bac empli de livres

Les LLM n’ont pas de corps (comme Scarlett Johansson dans le film « Her ») et ne sont donc pas faciles à illustrer. Plutôt qu’une de ces stupides illustrations de robot (les LLM n’ont pas de corps, bon sang !), je mets une image d’un chat certainement intelligent. Drew Coffman, CC BY 2.0, via Wikimedia Commons

 

Que veut dire « libre » pour un LLM ?

Les définitions classiques du logiciel libre ne s’appliquent pas telles quelles. Des entreprises (et les journalistes paresseux qui relaient leurs communiqués de presse sans vérifier) peuvent dire que leur modèle est « open source » simplement parce qu’on peut le télécharger et l’utiliser. C’est très loin de la liberté. En effet, cette simple autorisation ne permet pas les libertés suivantes :

  • Connaître le jeu de données utilisé pour l’entrainement, ce qui permettrait de connaitre les choix effectués par les auteurs du modèle (quels textes ils ont retenu, quels textes ils ont écarté) et savoir qui a écrit les textes en question (et n’était pas forcément d’accord pour cette utilisation).
  • Connaître les innombrables choix techniques qui ont été faits pour transformer ces textes en un modèle. (Rappelez-vous  : un algorithme, ce sont les décisions de quelqu’un d’autre.)

Sans ces informations, on ne peut pas refaire le modèle différemment (alors que la possibilité de modifier le programme est une des libertés essentielles pour qu’un logiciel soit qualifié de libre). Certes, on peut affiner le modèle (« fine-tuning a pre-trained model », diront les documentations) mais cela ne modifie pas le modèle lui-même, certains choix sont irréversibles (par exemple des choix de censure). Vous pouvez créer un nouveau modèle à partir du modèle initial (si la licence prétendument « open source » le permet) mais c’est tout.

Un exemple de libre-washing

Le 18 juillet 2023, l’entreprise Meta a annoncé la disponibilité de la version 2 de son modèle Llama, et le fait qu’il soit « open source ». Meta avait même convaincu un certain nombre de personnalités de signer un appel de soutien, une initiative rare dans le capitalisme. Imagine-t-on Microsoft faire signer un appel de soutien et de félicitations pour une nouvelle version de Windows ? En réalité, la licence est très restrictive, même le simple usage du modèle est limité. Par exemple, on ne peut pas utiliser Llama pour améliorer un autre modèle (concurrent). La démonstration la plus simple de la non-liberté est que, pour utiliser le modèle Llama sur Hugging Face, vous devez soumettre une candidature, que Meta accepte ou pas (« Cannot access gated repo for url https://huggingface.co/meta-llama/Llama-2-7b/resolve/main/config.json. Access to model meta-llama/Llama-2-7b is restricted and you are not in the authorized list. Visit https://huggingface.co/meta-llama/Llama-2-7b to ask for access. »)

Mais la communication dans l’industrie du numérique est telle que très peu de gens ont vérifié. Beaucoup de commentateurs et de gourous ont simplement relayé la propagande de Meta. Les auteurs de la définition originale d’« open source » ont expliqué clairement que Llama n’avait rien d’« open source », même en étant très laxiste sur l’utilisation du terme. Ceci dit, il y a une certaine ironie derrière le fait que les mêmes personnes, celles de cette Open Source Initiative, critiquent Meta alors même qu’elles avaient inventé le terme « open source » pour brouiller les pistes et relativiser l’importance de la liberté.

Au contraire, un modèle comme Falcon coche toutes les cases et peut très probablement être qualifié de libre.

La taille compte

Si une organisation qui crée un LLM publie le jeu de données utilisé, tous les réglages utilisés pendant l’entrainement, et permet ensuite son utilisation, sa modification et sa redistribution, est-ce que le modèle peut être qualifié de libre ? Oui, certainement, mais on peut ajouter une restriction, le problème pratique. En effet, un modèle significatif (disons, permettant des résultats qui ne sont pas ridicules par rapport à ceux de ChatGPT) nécessite une quantité colossale de données et des machines énormes pour l’entrainement. L’exécution du modèle par le moteur peut être plus économe. Encore qu’elle soit hors de portée, par exemple, de l’ordiphone classique. Si une application « utilisant l’IA » tourne soi-disant sur votre ordiphone, c’est simplement parce que le gros du travail est fait par un ordinateur distant, à qui l’application envoie vos données (ce qui pose divers problèmes liés à la vie privée, mais c’est une autre histoire). Même si l’ordiphone avait les capacités nécessaires, faire tourner un modèle non trivial épuiserait vite sa batterie. Certains fabricants promettent des LLM tournant sur l’ordiphone lui-même (« on-device ») mais c’est loin d’être réalisé.

Mais l’entraînement d’un modèle non trivial est bien pire. Non seulement il faut télécharger des téra-octets sur son disque dur, et les stocker, mais il faut des dizaines d’ordinateurs rapides équipés de GPU (puces graphiques) pour créer le modèle. Le modèle Llama aurait nécessité des milliers de machines et Bloom une bonne partie d’un super-calculateur. Cette histoire de taille ne remet pas en question le caractère libre du modèle, mais cela limite quand même cette liberté en pratique. Un peu comme si on vous disait « vous êtes libre de passer votre week-end sur la Lune, d’ailleurs voici les plans de la fusée ». Le monde du logiciel libre n’a pas encore beaucoup réfléchi à ce genre de problèmes. (Qui ne touche pas que l’IA : ainsi, un logiciel très complexe, comme un navigateur Web, peut être libre, sans que pour autant les modifications soit une entreprise raisonnable.) En pratique, pour l’instant, il y a donc peu de gens qui ré-entrainent le modèle, faisant au contraire une confiance aveugle à ce qu’ils ont téléchargé (voire utilisé à distance).

Conclusion

Pour l’instant, la question de savoir ce que signifie la liberté pour un modèle de langage reste donc ouverte. L’Open Source Initiative a lancé un projet pour arriver à une définition. Je ne connais pas d’effort analogue du côté de la FSF mais plus tard, peut-être ?




Le X de Musk n’est pas une inconnue…

L’actualité récente nous invite à republier avec son accord l’article de Kazhnuz sur son blog (il est sous licence CC BY-SA 4.0) qui souligne un point assez peu observé de la stratégie d’Elon Musk : elle n’est guère innovante et ne vise qu’à ajouter un X aux GAFAM pour capter une base utilisateur à des fins mercantiles…


Twitter vers X, la marketplacisation1 d’Internet

Photo Blue bird seen at Lake Merritt Oakland par Michael Slaten.

par Kazhnuz

L’annonce a été faite le 23 juillet, Twitter va être remplacé par X, le « rêve » de Musk de créer l’app-à-tout-faire à la WeChat en Chine. Le logo va être changé, et la marque Twitter va être abandonnée au profit de celle de X, et le domaine x.com redirige déjà vers Twitter. Le nom a déjà été utilisé jadis par Musk pour sa banque en ligne (qui après moult péripéties deviendra Paypal, justement parce que le nom est nul et pose des tonnes de soucis – ressembler à un nom de site X justement), et cette fois comme y’a personne pour lui dire « stop mec ton idée pue », il le fait.

Cependant, je pense qu’il y a quelques trucs intéressants à dire sur la situation, parce qu’au final, plus qu’une « lubie de Musk », il y a dedans quelque chose qui informe de la transformation faite de twitter, et de la façon dont Musk fait juste partie d’un mouvement fortement présent dans la Silicon Valley.

Encore un

Je pense qu’il ne faut pas voir ce changement de nom comme quelque chose de si surprenant, imprévisible, parce que c’est jouer le jeu de Musk de croire qu’il est l’électron libre qu’il prétend être. Parce que même s’il va plus loin en changeant carrément la marque du produit, Musk ne fait (encore une fois) que copier-coller un comportement déjà présent dans le milieu de la tech.

Parce qu’au final, Twitter appartenant et devenant X Corp, c’est comme Facebook qui devient Meta Plateform, ou Google qui devient Alphabet Inc. Un changement en grande partie pour tenter de forger la « hype », l’idée que le site fait partie de quelque chose de plus grand, du futur, de ce qui va former l’Internet – non la vie – de demain. Bon je pense que ça se voit que je suis un peu sarcastique de tout ça, mais y’a cette idée derrière les grandes entreprises de la tech. Elles ne sont plus dans l’idée de tourner autour de quelques produits, elles se présentent comme le « futur ». X Corp n’est qu’une tentative de créer un autre GAFAM, et fait partie des mêmes mouvements, des mêmes visions, du même aspect « techbro ».

C’est pour ça que le nom « rigolo » est moins mis en avant par rapport au nom plus « générique-mais-cool-regardez ». Meta, pour ceux qui vont au-delà et le métavers. X pour la variable inconnue. Alphabet pour aller de A à Z. Tout cela est de l’esbroufe, parce que plus que vendre un produit, ils vendent de la hype aux investisseurs.

Et le fait que Musk a voulu réutiliser ce nom dans le passé ne change pas grand-chose à tout ça. Le but, l’ego est le même. Donner l’impression qu’on est face à une grosse mégacorporation du futur. Et ce manque d’originalité n’est pas que dans le changement de nom, mais aussi au final dans son plan derrière tout ça : transformer Twitter en une marketplace.

X, une autre marketplace

Le passage de Twitter à X.com, montre le même cœur que les metaverse et crypto… et au final une grande partie des transformations qui se sont produites : tout transformer en marketplace, enrobé dans une esthétique de technofuturisme. Cela se voit encore plus dans le message de Linda Yaccarino, la CEO de Twitter :

X est l’état futur de l’interactivité illimitée – centrée sur l’audio, la vidéo, la messagerie, les paiements/les banques – créant une place de marché globale pour les idées, les biens, les services et les opportunités. Propulsé par l’IA, X va nous connecter d’une manière que nous commençons juste à imaginer.

— Linda Yaccarino, twitter

On peut remarquer deux choses dans ce message :

Le premier est qu’il n’y a rien d’original dedans. Nous y retrouvons exactement la même chose que l’on retrouvait à l’époque des crypto et des NFT : le truc qui fait tout mais surtout des trucs qui existent déjà, et basé sur la technologie du turfu. Y’a déjà 500 plateformes pour faire payer pour des services, que ce soit en crowdfunding, au format « patreon », via des commissions, etc. Des ventes de biens sur internet, y’a aussi des tonnes de moyens, etc. Tout ce qui est rajouté c’est « on va faire tous ces trucs qui existent déjà, et on a dit « IA » dedans donc c’est le futur ça va tout révolutionner tavu ». C’est le modus operandi classique, et il n’y a rien d’original dans ce que propose Twitter. D’ailleurs, le rôle que peut avoir l’IA dedans est très vague : est-ce que c’est pour modifier les algorithmes ? (cela ne sert pas à grand-chose, on les hait tous déjà). Est-ce que c’est pour pouvoir générer des produits par IA pour les vendre ? Le produit que veut proposer X Corp n’a pas besoin d’IA pour fonctionner, elle est là juste pour dire « c’est le futur », et hyper les investisseurs.

Le second est que cela transforme l’idée de base de Twitter (l’endroit où les gens parlent) en avant tout une « place de marché », comme indiqué plus haut. Twitter était le lieu de la discussion, du partage de l’idée à la con qu’on a eue sous la douche. D’où le format du microblogging. Là aussi, même cet aspect devient quelque chose de commercialisable, ce qui rappelle encore une fois le mouvement qu’il y avait eu autour de la crypto et des NFT : tout doit pouvoir devenir commercialisable, tout doit pouvoir devenir un produit. C’est aussi ce mouvement qui fait qu’on a de plus en plus de « jeux-services », qui servent avant tout à vendre des produits dématérialisés n’ayant de valeur qu’à l’intérieur du jeu (et encore). Beaucoup de jeux ne peuvent plus juste « être un jeu », ils doivent être une « marketplace ».

Conclusion

La transformation de twitter en X n’est donc pas une surprise – en plus du fait que c’était annoncé depuis longtemps. Il ne s’agit que d’un phénomène qui arrive tout le temps sur Internet. Une volonté de transformer un site populaire en une « place de marché du futur » pour hyper des investisseurs. Encore une fois.

Et au final, on sait bien ce qu’a acheté Musk quand il a acheté Twitter. Il n’a pas acheté un produit. Il a acheté une userbase (une base d’utilisateurs et utilisatrices) pour l’injecter directement dans le nouveau produit qu’il voulait faire. C’est assez ironique de voir que Twitter a fini de la même manière que certains comptes populaires : revendu pour être renommé et envoyer sa pub à des tonnes d’utilisateurs.

l'oiseau bleu de twitter sur le dos et à terre, mort avec un X qui lui ferme l'œil.




David Revoy, un artiste face aux IA génératives

Depuis plusieurs années, Framasoft est honoré et enchanté des illustrations que lui fournit David Revoy, comme sont ravi⋅es les lectrices et lecteurs qui apprécient les aventures de Pepper et Carrot et les graphistes qui bénéficient de ses tutoriels. Ses créations graphiques sont sous licence libre (CC-BY), ce qui est un choix courageux compte tenu des « éditeurs » dépourvus de scrupules comme on peut le lire dans cet article.

Cet artiste talentueux autant que généreux explique aujourd’hui son embarras face aux IA génératives et pourquoi son éthique ainsi que son processus créatif personnel l’empêchent de les utiliser comme le font les « IArtistes »…

Article original en anglais sur le blog de David Revoy

Traduction : Goofy, révisée par l’auteur.

Intelligence artificielle : voici pourquoi je n’utiliserai pas pour mes créations artistiques de hashtag #HumanArt, #HumanMade ou #NoAI

par David REVOY

 

Pepper sur une chaise entourée de flammes, reprise d'un célèbre mème "this is fine"
Image d’illustration : « This is not fine », licence CC-BY 4.0, source en haute résolution disponible

« C’est cool, vous avez utilisé quel IA pour faire ça ? »

« Son travail est sans aucun doute de l’IA »

« C’est de l’art fait avec de l’IA et je trouve ça déprimant… »

… voilà un échantillon des commentaires que je reçois de plus en plus sur mon travail artistique.

Et ce n’est pas agréable.

Dans un monde où des légions d’IArtistes envahissent les plateformes comme celles des médias sociaux, de DeviantArt ou ArtStation, je remarque que dans l’esprit du plus grand nombre on commence à mettre l’Art-par-IA et l’art numérique dans le même panier. En tant qu’artiste numérique qui crée son œuvre comme une vraie peinture, je trouve cette situation très injuste. J’utilise une tablette graphique, des layers (couches d’images), des peintures numériques et des pinceaux numériques. J’y travaille dur des heures et des heures. Je ne me contente pas de saisir au clavier une invite et d’appuyer sur Entrée pour avoir mes images.
C’est pourquoi j’ai commencé à ajouter les hashtags #HumanArt puis #HumanMade à mes œuvres sur les réseaux sociaux pour indiquer clairement que mon art est « fait à la main » et qu’il n’utilise pas Stable Diffusion, Dall-E, Midjourney ou n’importe quel outil de génération automatique d’images disponible aujourd’hui. Je voulais clarifier cela pour ne plus recevoir le genre de commentaires que j’ai cités au début de mon intro. Mais quel est le meilleur hashtag pour cela ?

Je ne savais pas trop, alors j’ai lancé un sondage sur mon fil Mastodon

sondage sur le fil mastodon de David : Quel hashtag recommanderiez-vous à un artiste qui veut montrer que son art n'est paz créé par IA ? réponses : 55% #HumanMade 30% #Human Art 15% Autre (commentez)
Source: https://framapiaf.org/@davidrevoy/110618065523294522

Résultats

Sur 954 personnes qui ont voté (je les remercie), #HumanMade l’emporte par 55 % contre 30 % pour #HumanArt. Mais ce qui m’a fait changer d’idée c’est la diversité et la richesse des points de vue que j’ai reçus en commentaires. Bon nombre d’entre eux étaient privés et donc vous ne pouvez pas les parcourir. Mais ils m’ont vraiment fait changer d’avis sur la question. C’est pourquoi j’ai décidé de rédiger cet article pour en parler un peu.

Critiques des hashtags #HumanMade et #HumanArt

Tout d’abord, #HumanArt sonne comme une opposition au célèbre tag #FurryArt de la communauté Furry. Bien vu, ce n’est pas ce que je veux.

Et puis #HumanMade est un choix qui a été critiqué parce que l’IA aussi était une création humaine, ce qui lui faisait perdre sa pertinence. Mais la plupart des personnes pouvaient facilement comprendre ce que #HumanMade signifierait sous une création artistique. Donc 55 % des votes était un score cohérent.

J’ai aussi reçu pas mal de propositions d’alternatives comme #HandCrafted, #HandMade, #Art et autres suggestions.

Le succès de #NoAI

J’ai également reçu beaucoup de suggestions en faveur du hashtag #NoAI, ainsi que des variantes plus drôles et surtout plus crues. C’était tout à fait marrant, mais je n’ai pas l’intention de m’attaquer à toute l’intelligence artificielle. Certains de ses usages qui reposent sur des jeux de données éthiques pourraient à l’avenir s’avérer de bons outils. J’y reviendrai plus loin dans cet article.
De toutes façons, j’ai toujours essayé d’avoir un état d’esprit « favorable à » plutôt que « opposé à » quelque chose.

C’est aux artistes qui utilisent l’IA de taguer leur message

Ceci est revenu aussi très fréquemment dans les commentaires. Malheureusement, les IArtistes taguent rarement leur travail, comme on peut le voir sur les réseaux sociaux, DeviantArt ou ArtStation. Et je les comprends, vu le nombre d’avantages qu’ils ont à ne pas le faire.

Pour commencer, ils peuvent se faire passer pour des artistes sans grand effort. Ensuite, ils peuvent conférer à leur art davantage de légitimité à leurs yeux et aux yeux de leur public. Enfin, ils peuvent probablement éviter les commentaires hostiles et les signalements des artistes anti-IA des diverses plateformes.
Je n’ai donc pas l’espoir qu’ils le feront un jour. Je déteste cette situation parce qu’elle est injuste.
Mais récemment j’ai commencé à apprécier ce comportement sous un autre angle, dans la mesure où ces impostures pourraient ruiner tous les jeux de données et les modèles d’apprentissage : les IA se dévorent elles-mêmes.

Quand David propose de saboter les jeux de données… 😛 

Pas de hashtag du tout

La dernière suggestion que j’ai fréquemment reçue était de ne pas utiliser de hashtag du tout.
En effet, écrire #HumanArt, #HumanMade ou #NoAI signalerait immédiatement le message et l’œuvre comme une cible de qualité pour l’apprentissage sur les jeux de données à venir. Comme je l’ai écrit plus haut, obtenir des jeux de données réalisées par des humains est le futur défi des IA. Je ne veux surtout pas leur faciliter la tâche.
Il m’est toujours possible d’indiquer mon éthique personnelle en écrivant « Œuvre réalisée sans utilisation de générateur d’image par IA qui repose sur des jeux de données non éthiques » dans la section d’informations de mon profil de média social, ou bien d’ajouter simplement un lien vers l’article que j’écris en ce moment même.

Conclusion et considérations sur les IA

J’ai donc pris ma décision : je n’utiliserai pour ma création artistique aucun hashtag, ni #HumanArt, ni #HumanMade, ni #NoAI.
Je continuerai à publier en ligne mes œuvres numériques, comme je le fais depuis le début des années 2000.
Je continuerai à tout publier sous une licence permissive Creative Commons et avec les fichiers sources, parce que c’est ainsi que j’aime qualifier mon art : libre et gratuit.

Malheureusement, je ne serai jamais en mesure d’empêcher des entreprises dépourvues d’éthique de siphonner complètement mes collections d’œuvres. Le mal est en tout cas déjà fait : des centaines, voire des milliers de mes illustrations et cases de bandes dessinées ont été utilisées pour entraîner leurs IA. Il est facile d’en avoir la preuve (par exemple sur haveibeentrained.com  ou bien en parcourant le jeu de données d’apprentissage Laion5B).

Je ne suis pas du tout d’accord avec ça.

Quelles sont mes possibilités ? Pas grand-chose… Je ne peux pas supprimer mes créations une à une de leur jeu de données. Elles ont été copiées sur tellement de sites de fonds d’écran, de galeries, forums et autres projets. Je n’ai pas les ressources pour me lancer là-dedans. Je ne peux pas non plus exclure mes créations futures des prochaines moissons par scans. De plus, les méthodes de protection comme Glaze me paraissent une piètre solution au problème, je ne suis pas convaincu. Pas plus que par la perspective d’imposer des filigranes à mes images…

Ne vous y trompez pas : je n’ai rien contre la technologie des IA en elle-même.On la trouve partout en ce moment. Dans le smartphones pour améliorer les photos, dans les logiciels de 3D pour éliminer le « bruit » des processeurs graphiques, dans les outils de traduction [N. de T. la présente traduction a en effet été réalisée avec l’aide DeepL pour le premier jet], derrière les moteurs de recherche etc. Les techniques de réseaux neuronaux et d’apprentissage machine sur les jeux de données s’avèrent très efficaces pour certaines tâches.
Les projets FLOSS (Free Libre and Open Source Software) eux-mêmes comme GMIC développent leurs propres bibliothèques de réseaux neuronaux. Bien sûr elles reposeront sur des jeux de données éthiques. Comme d’habitude, mon problème n’est pas la technologie en elle-même. Mon problème, c’est le mode de gouvernance et l’éthique de ceux qui utilisent de telles technologies.

Pour ma part, je continuerai à ne pas utiliser d’IA génératives dans mon travail (Stable Diffusion, Dall-E, Midjourney et Cie). Je les ai expérimentées sur les médias sociaux par le passé, parfois sérieusement, parfois en étant impressionné, mais le plus souvent de façon sarcastique .

Je n’aime pas du tout le processus des IA…

Quand je crée une nouvelle œuvre, je n’exprime pas mes idées avec des mots.
Quand je crée une nouvelle œuvre, je n’envoie pas l’idée par texto à mon cerveau.

C’est un mixage complexe d’émotions, de formes, de couleurs et de textures. C’est comme saisir au vol une scène éphémère venue d’un rêve passager rendant visite à mon cerveau. Elle n’a nul besoin d’être traduite en une formulation verbale. Quand je fais cela, je partage une part intime de mon rêve intérieur. Cela va au-delà des mots pour atteindre certaines émotions, souvenirs et sensations.
Avec les IA, les IArtistes se contentent de saisir au clavier un certains nombre de mots-clés pour le thème. Ils l’agrémentent d’autres mots-clés, ciblent l’imitation d’un artiste ou d’un style. Puis ils laissent le hasard opérer pour avoir un résultat. Ensuite ils découvrent que ce résultat, bien sûr, inclut des émotions sous forme picturale, des formes, des couleurs et des textures. Mais ces émotions sont-elles les leurs ou bien un sous-produit de leur processus ? Quoi qu’il en soit, ils peuvent posséder ces émotions.

Les IArtistes sont juste des mineurs qui forent dans les œuvres d’art générées artificiellement, c’est le nouveau Readymade numérique de notre temps. Cette technologie recherche la productivité au moindre coût et au moindre effort. Je pense que c’est très cohérent avec notre époque. Cela fournit à beaucoup d’écrivains des illustrations médiocres pour les couvertures de leurs livres, aux rédacteurs pour leurs articles, aux musiciens pour leurs albums et aux IArtistes pour leurs portfolios…

Je comprends bien qu’on ne peut pas revenir en arrière, ce public se sent comme empuissanté par les IA. Il peut finalement avoir des illustrations vite et pas cher. Et il va traiter de luddites tous les artistes qui luttent contre ça…

Mais je vais persister ici à déclarer que personnellement je n’aime pas cette forme d’art, parce qu’elle ne dit rien de ses créateurs. Ce qu’ils pensent, quel est leur goût esthétique, ce qu’ils ont en eux-mêmes pour tracer une ligne ou donner tel coup de pinceau, quelle lumière brille en eux, comment ils masquent leurs imperfections, leurs délicieuses inexactitudes en les maquillant… Je veux voir tout cela et suivre la vie des personnes, œuvre après œuvre.

J’espère que vous continuerez à suivre et soutenir mon travail artistique, les épisodes de mes bandes dessinées, mes articles et tutoriels, pour les mêmes raisons.


Vous pouvez soutenir la travail de David Revoy en devenant un mécène ou en parcourant sa boutique.




ChatGPT, Bard et cie : nouvelle course à l’IA, et pourquoi faire déjà ?

Google va ajouter de l’IA générative dans Gmail et Docs. Énième actualité d’un feuilleton permanent depuis « l’irruption » de ChatGPT. Et chez moi, un sentiment de malaise, d’incompréhension, et même de colère.

Qu’est-ce que ChatGPT ? Qu’est-ce que l’IA2 ? Ce sont d’abord d’immenses infrastructures : les câbles sous-marins, les serveurs des datacenters, mais aussi nos ordinateurs et nos smartphones. Donc ce sont des terres rares et des minerais, dégueulasses à excaver et à purifier (heureusement un jour il n’y en aura plus3). Ensuite, c’est du traitement MASSIF de données. Du vrai gavage de programmes d’apprentissages par des quantités phénoménales de données. C’est donc des infrastructures (encore) et de l’énergie. Une quantité phénoménale d’énergie, très largement carbonée. Enfin, c’est beaucoup de main-d’œuvre sous-payée pour entraîner, tester, et entretenir les systèmes d’IA. ChatGPT, il ne faut pas l’oublier, ce n’est que la face émergée d’un très très gros iceberg. Très gros et très sale.

vue d'une vallée étroite et du cheminement de mineurs vers une mine de cobalt

Ce n’est pas un film. ÇA, c’est l’ambiance dans une mine de cobalt.

Image issue du documentaire d’Arte : Cobalt, l’envers du rêve électrique

Bref, développer une IA a un coût environnemental et humain énorme (et largement opaque), ce n’est pas que du code informatique tout propre. À la rigueur, si le rapport coût/bénéfice était largement positif… Par exemple, si l’IA développée permettait des économies d’énergie de 30 % dans le monde, ou qu’elle permettait de mieux gérer les flux alimentaires et donc d’endiguer la faim, alors on pourrait sérieusement discuter de moralité (est-ce acceptable de détruire la planète et d’exploiter des humains pour sauver la planète et d’autres humains ?).

Mais à quoi servent ces IA génératives ? Pour le moment, à faire joujou, principalement. À chanter les louanges de l’innovation, évidemment. À se faire peur sur l’éternelle question du dépassement de l’humain par la machine, bien sûr. Et ensuite ? Supprimer des postes dans des domaines plutôt créatifs et valorisés ? Défoncer les droits d’auteur en pillant leur travail via des données amassées sans régulation ? Gagner un peu de temps en rédigeant ses mails et ses documents ? Transformer encore un peu plus les moteurs de recherche en moteurs de réponses (avec tous les risques que ça comporte) ? Est-ce bien sérieux ? Est-ce bien acceptable ?

copie d'écran d'un site "cadremploi", avec ce texte "comment s'aider de chatgpt pour rédiger sa lettre de motivation - ChatGPT est une intelligence artificielle capable de rédiger des contenus à votre place.
C’est ça, le principal défi du siècle que les technologies doivent nous aider à relever ???

Tout ça me laisse interrogateur, et même, en pleine urgence environnementale et sociale, ça me révolte. À un moment, on ne peut pas continuer d’alerter sur l’impact environnemental réel et croissant du numérique, et s’enthousiasmer pour des produits comme ChatGPT et consorts. Or souvent, ce sont les mêmes qui le font ! Ce qui me révolte, c’est que toute cette exploitation humaine et naturelle4, inhérente à la construction des Intelligences Artificielles, est tellement loin de ChatGPT que nous ne la voyons pas, ou plus, et nous ne voulons pas la voir. Cela se traduit par tous les messages, enthousiastes et même volubiles, postés quotidiennement, sans mauvaise intention de la plupart de leurs auteur⋅ice⋅s.

Symboliquement, je propose de boycotter ces technologies d’IA génératives. Je ne suis heureusement pas utilisateur de Google et Microsoft, qui veulent en mettre à toutes les sauces (pour quoi faire ?). J’espère que mes éditeurs de services numériques (a priori plus éthiques) ne céderont pas un pouce de leurs valeurs à cette hype mortifère…

schéma mettant en relation par des flèches bi-directionnelles : Le numérique acceptable :Emancipateur et non aliénant /Choisi et non subi / Soutenable humainement et environnementalement
Au vu de ce qu’elles apportent, les IA génératives sont-elles vraiment soutenables humainement et environnementalement ? Je ne le crois pas.

Pour poursuivre sa lecture et ses réflexions




Google et son robot pipoteur(*), selon Doctorow

Source de commentaires alarmants ou sarcastiques, les robots conversationnels qui reposent sur l’apprentissage automatique ne provoquent pas seulement l’intérêt du grand public, mais font l’objet d’une course de vitesse chez les GAFAM.

Tout récemment, peut-être pour ne pas être à la traîne derrière Microsoft qui veut adjoindre un chatbot à son moteur de recherche Bing, voilà que Google annonce sa ferme résolution d’en faire autant. Dans l’article traduit pour vous par framalang, Cory Doctorow met en perspective cette décision qui lui semble absurde en rappelant les échecs de Google qui a rarement réussi à créer quoi que ce soit…

(*) Merci à Clochix dont nous adoptons dans notre titre la suggestion.

Article original : Google’s chatbot panic

Traduction Framalang : Fabrice, goofy, jums, Henri-Paul, Sysy, wisi_eu,

L’assistant conversationnel de Google en panique

par Cory Doctorow

 

Photo Jonathan Worth CC-BY-SA

 

 

Il n’y a rien d’étonnant à ce que Microsoft décide que l’avenir de la recherche en ligne ne soit plus fondé sur les liens dans une page web, mais de là à la remplacer par des longs paragraphes fleuris écrits dans un chatbot qui se trouve être souvent mensonger… — et en plus Google est d’accord avec ce concept.

Microsoft n’a rien à perdre. Il a dépensé des milliards pour Bing, un moteur de recherche que personne n’utilise volontairement. Alors, sait-on jamais, essayer quelque chose d’aussi stupide pourrait marcher. Mais pourquoi Google, qui monopolise plus de 90 % des parts des moteurs de recherche dans le monde, saute-t-il dans le même bateau que Microsoft ?

le long d'un mur de brique rouge sur lequel est suspendu un personnage ovoïde au visage très inquiet (Humpty-Dumpty le gros œuf), deux silhouettes jumelles (Tweedle-dee et Tweedle-dum les personnages de De l'autre côté du_miroir de Lewis Carroll) représentent avec leur logo sur le ventre Bing et google, chacun d'eaux a une tête qui évoque le robot Hal de 2001, à savoir une lueur rouge sur fond noir qui fait penser à un œil.

Il y a un délicieux fil à dérouler sur Mastodon, écrit par Dan Hon, qui compare les interfaces de recherche merdiques de Bing et Google à Tweedledee et Tweedledum :

https://mamot.fr/@danhon@dan.mastohon.com/109832788458972865

Devant la maison, Alice tomba sur deux étranges personnages, tous deux étaient des moteurs de recherche.
— moi, c’est Google-E, se présenta celui qui était entièrement recouvert de publicités
— et moi, c’est Bingle-Dum, fit l’autre, le plus petit des deux, et il fit la grimace comme s’il avait moins de visiteurs et moins d’occasions de mener des conversations que l’autre.
— je vous connais, répondit Alice, vous allez me soumettre une énigme ? Peut-être que l’un de vous dit la vérité et que l’autre ment ?
— Oh non, fit Bingle-Dum
— Nous mentons tous les deux, ajouta Google-E

Mais voilà le meilleur :

— Cette situation est vraiment intolérable, si vous mentez tous les deux.

— mais nous mentons de façon très convaincante, précisa Bingle-Dum

— D’accord, merci bien. Dans ce cas, comment puis-je vous faire jamais confiance ni / confiance à l’un ni/ou à l’autre ? Dans ce cas, comment puis-je faire confiance à l’un d’entre vous ?

Google-E et Bingle-Dum se tournèrent l’un vers l’autre et haussèrent les épaules.

La recherche par chatbot est une très mauvaise idée, surtout à un moment où le Web est prompt à se remplir de vastes montagnes de conneries générées via l’intelligence artificielle, comme des jacassements statiques de perroquets aléatoires :

La stratégie du chatbot de Google ne devrait pas consister à ajouter plus de délires à Internet, mais plutôt à essayer de trouver comment exclure (ou, au moins, vérifier) les absurdités des spammeurs et des escrocs du référencement.

Et pourtant, Google est à fond dans les chatbots, son PDG a ordonné à tout le monde de déployer des assistants conversationnels dans chaque recoin de l’univers Google. Pourquoi diable est-ce que l’entreprise court après Microsoft pour savoir qui sera le premier à décevoir des espérances démesurées ?

J’ai publié une théorie dans The Atlantic, sous le titre « Comment Google a épuisé toutes ses idées », dans lequel j’étudie la théorie de la compétition pour expliquer l’insécurité croissante de Google, un complexe d’anxiété qui touche l’entreprise quasiment depuis sa création:

L’idée de base : il y a 25 ans, les fondateurs de Google ont eu une idée extraordinaire — un meilleur moyen de faire des recherches. Les marchés financiers ont inondé l’entreprise en liquidités, et elle a engagé les meilleurs, les personnes les plus brillantes et les plus créatives qu’elle pouvait trouver, mais cela a créé une culture d’entreprise qui était incapable de capitaliser sur leurs idées.

Tous les produits que Google a créés en interne, à part son clone de Hotmail, sont morts. Certains de ces produits étaient bons, certains horribles, mais cela n’avait aucune importance. Google, une entreprise qui promouvait la culture du baby-foot et la fantaisie de l’usine Willy Wonka [NdT: dans Charlie et la chocolaterie, de Roald Dahl], était totalement incapable d’innover.

Toutes les réussites de Google, hormis son moteur de recherche et gmail, viennent d’une acquisition : mobile, technologie publicitaire, vidéos, infogérance de serveurs, docs, agenda, cartes, tout ce que vous voulez. L’entreprise souhaite plus que tout être une société qui « fabrique des choses », mais en réalité elle « achète des choses ». Bien sûr, ils sont très bons pour rendre ces produits opérationnels et à les faire « passer à l’échelle », mais ce sont les enjeux de n’importe quel monopole :

La dissonance cognitive d’un « génie créatif » autoproclamé, dont le véritable génie est de dépenser l’argent des autres pour acheter les produits des autres, et de s’en attribuer le mérite, pousse les gens à faire des choses vraiment stupides (comme tout utilisateur de Twitter peut en témoigner).
Google a longtemps montré cette pathologie. Au milieu des années 2000 – après que Google a chassé Yahoo en Chine et qu’il a commencé à censurer ses résultats de recherche, puis collaboré à la surveillance d’État — nous avions l’habitude de dire que le moyen d’amener Google à faire quelque chose de stupide et d’autodestructeur était d’amener Yahoo à le faire en premier lieu.

C’était toute une époque. Yahoo était désespéré et échouait, devenant un cimetière d’acquisitions prometteuses qui étaient dépecées et qu’on laissait se vider de leur sang, laissées à l’abandon sur l’Internet public, alors que les princes duellistes de la haute direction de Yahoo se donnaient des coups de poignard dans le dos comme dans un jeu de rôle genre les Médicis, pour savoir lequel saboterait le mieux l’autre. Aller en Chine fut un acte de désespoir après l’humiliation pour l’entreprise que fut le moteur de recherche largement supérieur de Google. Regarder Google copier les manœuvres idiotes de Yahoo était stupéfiant.

C’était déconcertant, à l’époque. Mais à mesure que le temps passait, Google copiait servilement d’autres rivaux et révélait ainsi une certaine pathologie d’insécurité. L’entreprise échouait de manière récurrente à créer son réseau « social », et comme Facebook prenait toujours plus de parts de marché dans la publicité, Google faisait tout pour le concurrencer. L’entreprise fit de l’intégration de Google Plus un « indictateur5 de performance » dans chaque division, et le résultat était une agrégation étrange de fonctionnalités « sociales » défaillantes dans chaque produit Google — produits sur lesquels des milliards d’utilisateurs se reposaient pour des opérations sensibles, qui devenaient tout à coup polluées avec des boutons sociaux qui n’avaient aucun sens.

La débâcle de G+ fut à peine croyable : certaines fonctionnalités et leur intégration étaient excellentes, et donc logiquement utilisées, mais elles subissaient l’ombrage des incohérences insistantes de la hiérarchie de Google pour en faire une entreprise orientée réseaux sociaux. Quand G+ est mort, il a totalement implosé, et les parties utiles de G+ sur lesquelles les gens se reposaient ont disparu avec les parties aberrantes.

Pour toutes celles et ceux qui ont vécu la tragi-comédie de G+, le virage de Google vers Bard, l’interface chatbot pour les résultats du moteur de recherche, semble tristement familier. C’est vraiment le moment « Mourir en héros ou vivre assez longtemps pour devenir un méchant ». Microsoft, le monopole qui n’a pas pu tuer la jeune pousse Google à cause de son expérience traumatisante des lois antitrust, est passé d’une entreprise qui créait et développait des produits à une entreprise d’acquisitions et d’opérations, et Google est juste derrière elle.

Pour la seule année dernière, Google a viré 12 000 personnes pour satisfaire un « investisseur activiste » privé. La même année, l’entreprise a racheté 70 milliards de dollars en actions, ce qui lui permet de dégager suffisamment de capitaux pour payer les salaires de ses 12 000 « Googleurs » pendant les 27 prochaines années. Google est une société financière avec une activité secondaire dans la publicité en ligne. C’est une nécessité : lorsque votre seul moyen de croissance passe par l’accès aux marchés financiers pour financer des acquisitions anticoncurrentielles, vous ne pouvez pas vous permettre d’énerver les dieux de l’argent, même si vous avez une structure à « double pouvoir » qui permet aux fondateurs de l’emporter au vote contre tous les autres actionnaires :

https://abc.xyz/investor/founders-letters/2004-ipo-letter/

ChatGPT et ses clones cochent toutes les cases d’une mode technologique, et sont les dignes héritiers de la dernière saison du Web3 et des pics des cryptomonnaies. Une des critiques les plus claires et les plus inspirantes des chatbots vient de l’écrivain de science-fiction Ted Chiang, dont la critique déjà culte est intitulée « ChatGPT est un une image JPEG floue du Web » :

https://www.newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg-of-the-web

Chiang souligne une différence essentielle entre les résultats de ChatGPT et ceux des humains : le premier jet d’un auteur humain est souvent une idée originale, mal exprimée, alors que le mieux que ChatGPT puisse espérer est une idée non originale, exprimée avec compétence. ChatGPT est parfaitement positionné pour améliorer la soupe de référencement que des légions de travailleurs mal payés produisent dans le but de grimper dans les résultats de recherche de Google.

En mentionnant l’article de Chiang dans l’épisode du podcast « This Machine Kills », Jathan Sadowski perce de manière experte la bulle de la hype ChatGPT4, qui soutient que la prochaine version du chatbot sera si étonnante que toute critique de la technologie actuelle en deviendra obsolète.

Sadowski note que les ingénieurs d’OpenAI font tout leur possible pour s’assurer que la prochaine version ne sera pas entraînée sur les résultats de ChatGPT3. Cela en dit long : si un grand modèle de langage peut produire du matériel aussi bon qu’un texte produit par un humain, alors pourquoi les résultats issus de ChatGPT3 ne peuvent-ils pas être utilisés pour créer ChatGPT4 ?

Sadowski utilise une expression géniale pour décrire le problème :  « une IA des Habsbourg ». De même que la consanguinité royale a produit une génération de prétendus surhommes incapables de se reproduire, l’alimentation d’un nouveau modèle par le flux de sortie du modèle précédent produira une spirale infernale toujours pire d’absurdités qui finira par disparaître dans son propre trou du cul.

 

Crédit image (modifiée) : Cryteria, CC BY 3.0




Démystifier les conneries sur l’IA – Une interview

Cet article a été publié à l’origine par THE MARKUP, il a été traduit et republié selon les termes de la licence Creative Commons Attribution-NonCommercial-NoDerivatives
Publication originale sur le site themarkup.org

Démystifier le buzz autour de l’IA

Un entretien avec Arvind Narayanan

par JULIA ANGWIN
Si vous avez parcouru tout le battage médiatique sur ChatGPT le dernier robot conversationnel qui repose sur l’intelligence artificielle, vous pouvez avoir quelque raison de croire que la fin du monde est proche.

Le chat « intelligent » de l’IA a enflammé l’imagination du public pour sa capacité à générer instantanément des poèmes, des essais, sa capacité à imiter divers styles d’écrits, et à réussir à des examens d’écoles de droit et de commerce.

Les enseignants s’inquiètent de la tricherie possible de leurs étudiants (des écoles publiques de New York City l’ont déjà interdit). Les rédacteurs se demandent si cela ne va pas faire disparaître leur travail (BuzzFeed et CNET ont déjà utilisé l’IA pour créer des contenus). Le journal The Atlantic a déclaré que cela pourrait « déstabiliser les professions de cadres supérieurs ». L’investisseur en capital-risque Paul Kedrosky l’a qualifié de « bombe nucléaire de poche » et blâmé ses concepteurs pour l’avoir lancé dans une société qui n’y est pas prête.

Même le PDG de l’entreprise qui a lancé ChatGPT, Sam Altman, a déclaré aux médias que le pire scénario pour l’IA pourrait signifier « notre extinction finale ».

Cependant pour d’autres ce buzz est démesuré. Le principal scientifique chargé de l’IA chez Meta’s AI, Yann LeCun, a déclaré à des journalistes que ChatGPT n’a « rien de révolutionnaire ». Le professeur de langage informatique de l’université de Washington Emily Bender précise que « la croyance en un programme informatique omniscient vient de la science-fiction et devrait y rester ».

Alors, jusqu’à quel point devrions-nous nous inquiéter ? Pour recueillir un avis autorisé, je me suis adressée au professeur d’informatique de Princeton Arvind Narayanan, qui est en train de co-rédiger un livre sur « Le charlatanisme de l’IA ». En 2019, Narayanan a fait une conférence au MIT intitulée « Comment identifier le charlatanisme del’IA » qui exposait une classification des IA en fonction de leur validité ou non. À sa grande surprise, son obscure conférence universitaire est devenue virale, et ses diapos ont été téléchargées plusieurs dizaines de milliers de fois ; ses messages sur twitter qui ont suivi ont reçu plus de deux millions de vues.

Narayanan s’est alors associé à l’un de ses étudiants, Sayash Kapoor, pour développer dans un livre la classification des IA. L’année dernière, leur duo a publié une liste de 18 pièges courants dans lesquels tombent régulièrement les journalistes qui couvrent le sujet des IA. Presque en haut de la liste : « illustrer des articles sur l’IA avec de chouettes images de robots ». La raison : donner une image anthropomorphique des IA implique de façon fallacieuse qu’elles ont le potentiel d’agir dans le monde réel.

Narayanan est également le co-auteur d’un manuel sur l’équité et l’apprentissage machine et dirige le projet Web Transparency and Accountability de l’université de Princeton pour contrôler comment les entreprises collectent et utilisent les informations personnelles. Il a reçu de la Maison-Blanche le Presidential Early Career Award for Scientists and Engineers [N. de T. : une distinction honorifique pour les scientifiques et ingénieurs qui entament brillamment leur carrière].

Voici notre échange, édité par souci de clarté et brièveté.

Angwin : vous avez qualifié ChatGPT de « générateur de conneries ». Pouvez-vous expliquer ce que vous voulez dire ?

Narayanan : Sayash Kapoor et moi-même l’appelons générateur de conneries et nous ne sommes pas les seuls à le qualifier ainsi. Pas au sens strict mais dans un sens précis. Ce que nous voulons dire, c’est qu’il est entraîné pour produire du texte vraisemblable. Il est très bon pour être persuasif, mais n’est pas entraîné pour produire des énoncés vrais ; s’il génère souvent des énoncés vrais, c’est un effet collatéral du fait qu’il doit être plausible et persuasif, mais ce n’est pas son but.

Cela rejoint vraiment ce que le philosophe Harry Frankfurt a appelé du bullshit, c’est-à-dire du langage qui a pour objet de persuader sans égards pour le critère de vérité. Ceux qui débitent du bullshit se moquent de savoir si ce qu’ils disent est vrai ; ils ont en tête certains objectifs. Tant qu’ils persuadent, ces objectifs sont atteints. Et en effet, c’est ce que fait ChatGPT. Il tente de persuader, et n’a aucun moyen de savoir à coup sûr si ses énoncés sont vrais ou non.

Angwin : Qu’est-ce qui vous inquiète le plus avec ChatGPT ?

Narayanan : il existe des cas très clairs et dangereux de mésinformation dont nous devons nous inquiéter. Par exemple si des personnes l’utilisent comme outil d’apprentissage et accidentellement apprennent des informations erronées, ou si des étudiants rédigent des essais en utilisant ChatGPT quand ils ont un devoir maison à faire. J’ai appris récemment que le CNET a depuis plusieurs mois maintenant utilisé des outils d’IA générative pour écrire des articles. Même s’ils prétendent que des éditeurs humains ont vérifié rigoureusement les affirmations de ces textes, il est apparu que ce n’était pas le cas. Le CNET a publié des articles écrits par une IA sans en informer correctement, c’est le cas pour 75 articles, et plusieurs d’entre eux se sont avérés contenir des erreurs qu’un rédacteur humain n’aurait très probablement jamais commises. Ce n’était pas dans une mauvaise intention, mais c’est le genre de danger dont nous devons nous préoccuper davantage quand des personnes se tournent vers l’IA en raison des contraintes pratiques qu’elles affrontent. Ajoutez à cela le fait que l’outil ne dispose pas d’une notion claire de la vérité, et vous avez la recette du désastre.

Angwin : Vous avez développé une classification des l’IA dans laquelle vous décrivez différents types de technologies qui répondent au terme générique de « IA ». Pouvez-vous nous dire où se situe ChatGPT dans cette taxonomie ?

Narayanan : ChatGPT appartient à la catégorie des IA génératives. Au plan technologique, elle est assez comparable aux modèles de conversion de texte en image, comme DALL-E [qui crée des images en fonction des instructions textuelles d’un utilisateur]. Ils sont liés aux IA utilisées pour les tâches de perception. Ce type d’IA utilise ce que l’on appelle des modèles d’apprentissage profond. Il y a environ dix ans, les technologies d’identification par ordinateur ont commencé à devenir performantes pour distinguer un chat d’un chien, ce que les humains peuvent faire très facilement.

Ce qui a changé au cours des cinq dernières années, c’est que, grâce à une nouvelle technologie qu’on appelle des transformateurs et à d’autres technologies associées, les ordinateurs sont devenus capables d’inverser la tâche de perception qui consiste à distinguer un chat ou un chien. Cela signifie qu’à partir d’un texte, ils peuvent générer une image crédible d’un chat ou d’un chien, ou même des choses fantaisistes comme un astronaute à cheval. La même chose se produit avec le texte : non seulement ces modèles prennent un fragment de texte et le classent, mais, en fonction d’une demande, ces modèles peuvent essentiellement effectuer une classification à l’envers et produire le texte plausible qui pourrait correspondre à la catégorie donnée.

Angwin : une autre catégorie d’IA dont vous parlez est celle qui prétend établir des jugements automatiques. Pouvez-vous nous dire ce que ça implique ?

Narayanan : je pense que le meilleur exemple d’automatisation du jugement est celui de la modération des contenus sur les médias sociaux. Elle est nettement imparfaite ; il y a eu énormément d’échecs notables de la modération des contenus, dont beaucoup ont eu des conséquences mortelles. Les médias sociaux ont été utilisés pour inciter à la violence, voire à la violence génocidaire dans de nombreuses régions du monde, notamment au Myanmar, au Sri Lanka et en Éthiopie. Il s’agissait dans tous les cas d’échecs de la modération des contenus, y compris de la modération du contenu par l’IA.

Toutefois les choses s’améliorent. Il est possible, du moins jusqu’à un certain point, de s’emparer du travail des modérateurs de contenus humains et d’entraîner des modèles à repérer dans une image de la nudité ou du discours de haine. Il existera toujours des limitations intrinsèques, mais la modération de contenu est un boulot horrible. C’est un travail traumatisant où l’on doit regarder en continu des images atroces, de décapitations ou autres horreurs. Si l’IA peut réduire la part du travail humain, c’est une bonne chose.

Je pense que certains aspects du processus de modération des contenus ne devraient pas être automatisés. Définir où passe la frontière entre ce qui est acceptable et ce qui est inacceptable est chronophage. C’est très compliqué. Ça demande d’impliquer la société civile. C’est constamment mouvant et propre à chaque culture. Et il faut le faire pour tous les types possibles de discours. C’est à cause de tout cela que l’IA n’a pas de rôle à y jouer.

Angwin : vous décrivez une autre catégorie d’IA qui vise à prédire les événements sociaux. Vous êtes sceptique sur les capacités de ce genre d’IA. Pourquoi ?

Narayanan : c’est le genre d’IA avec laquelle les décisionnaires prédisent ce que pourraient faire certaines personnes à l’avenir, et qu’ils utilisent pour prendre des décisions les concernant, le plus souvent pour exclure certaines possibilités. On l’utilise pour la sélection à l’embauche, c’est aussi célèbre pour le pronostic de risque de délinquance. C’est aussi utilisé dans des contextes où l’intention est d’aider des personnes. Par exemple, quelqu’un risque de décrocher de ses études ; intervenons pour suggérer un changement de filière.

Ce que toutes ces pratiques ont en commun, ce sont des prédictions statistiques basées sur des schémas et des corrélations grossières entre les données concernant ce que des personnes pourraient faire. Ces prédictions sont ensuite utilisées dans une certaine mesure pour prendre des décisions à leur sujet et, dans de nombreux cas, leur interdire certaines possibilités, limiter leur autonomie et leur ôter la possibilité de faire leurs preuves et de montrer qu’elles ne sont pas définies par des modèles statistiques. Il existe de nombreuses raisons fondamentales pour lesquelles nous pourrions considérer la plupart de ces applications de l’IA comme illégitimes et moralement inadmissibles.

Lorsqu’on intervient sur la base d’une prédiction, on doit se demander : « Est-ce la meilleure décision que nous puissions prendre ? Ou bien la meilleure décision ne serait-elle pas celle qui ne correspond pas du tout à une prédiction ? » Par exemple, dans le scénario de prédiction du risque de délinquance, la décision que nous prenons sur la base des prédictions est de refuser la mise en liberté sous caution ou la libération conditionnelle, mais si nous sortons du cadre prédictif, nous pourrions nous demander : « Quelle est la meilleure façon de réhabiliter cette personne au sein de la société et de diminuer les risques qu’elle ne commette un autre délit ? » Ce qui ouvre la possibilité d’un ensemble beaucoup plus large d’interventions.

Angwin : certains s’alarment en prétendant que ChatGPT conduit à “l’apocalypse,” pourrait supprimer des emplois et entraîner une dévalorisation des connaissances. Qu’en pensez-vous ?

Narayanan : Admettons que certaines des prédictions les plus folles concernant ChatGPT se réalisent et qu’il permette d’automatiser des secteurs entiers de l’emploi. Par analogie, pensez aux développements informatiques les plus importants de ces dernières décennies, comme l’internet et les smartphones. Ils ont remodelé des industries entières, mais nous avons appris à vivre avec. Certains emplois sont devenus plus efficaces. Certains emplois ont été automatisés, ce qui a permis aux gens de se recycler ou de changer de carrière. Il y a des effets douloureux de ces technologies, mais nous apprenons à les réguler.

Même pour quelque chose d’aussi impactant que l’internet, les moteurs de recherche ou les smartphones, on a pu trouver une adaptation, en maximisant les bénéfices et minimisant les risques, plutôt qu’une révolution. Je ne pense pas que les grands modèles de langage soient même à la hauteur. Il peut y avoir de soudains changements massifs, des avantages et des risques dans de nombreux secteurs industriels, mais je ne vois pas de scénario catastrophe dans lequel le ciel nous tomberait sur la tête.

Comme toujours, merci de votre attention.

À bientôt,
Julia Angwin
The Markup

On peut s’abonner ici à la lettre hebdomadaire (en anglais) du magazine The Markup, envoyée le samedi.




Humains après tout

S’il y a une expression dont le marketing nous rebat les oreilles, depuis pas mal de temps, c’est bien « intelligence artificielle ». S’il est important de rappeler avant tout qu’un ordinateur de 2019 ou de 1970 reste invariablement aussi con, il est aussi intéressant de suivre ce qui se passe en coulisses, quand on gratte le vernis marketing.

Sources :

Crédit : Simon Gee Giraudot (Creative Commons By-Sa)




C’est Qwant qu’on va où ?

L’actualité récente de Qwant était mouvementée, mais il nous a semblé qu’au-delà des polémiques c’était le bon moment pour faire le point avec Qwant, ses projets et ses valeurs.

Si comme moi vous étiez un peu distrait⋅e et en étiez resté⋅e à Qwant-le-moteur-de-recherche, vous allez peut-être partager ma surprise : en fouinant un peu, on trouve tout un archipel de services, certains déjà en place et disponibles, d’autres en phase expérimentale, d’autres encore en couveuse dans le labo.

Voyons un peu avec Tristan Nitot, Vice-président Advocacy de Qwant, de quoi il retourne et si le principe affiché de respecter la vie privée des utilisateurs et utilisatrices demeure une ligne directrice pour les applications qui arrivent.

Tristan Nitot, autoporttrait juillet 2019
Tristan Nitot, autoportrait (licence CC-BY)

Bonjour Tristan, tu es toujours content de travailler pour Qwant malgré les périodes de turbulence ?
Oui, bien sûr ! Je reviens un peu en arrière : début 2018, j’ai déjeuné avec un ancien collègue de chez Mozilla, David Scravaglieri, qui travaillait chez Qwant. Il m’a parlé de tous les projets en logiciel libre qu’il lançait chez Qwant en tant que directeur de la recherche. C’est ce qui m’a convaincu de postuler chez Qwant.

J’étais déjà fan de l’approche liée au respect de la vie privée et à la volonté de faire un moteur de recherche européen, mais là, en plus, Qwant se préparait à faire du logiciel libre, j’étais conquis. À peine arrivé au dessert, j’envoie un texto au président, Eric Léandri pour savoir quand il m’embauchait. Sa réponse fut immédiate : « Quand tu veux ! ». J’étais aux anges de pouvoir travailler sur des projets qui rassemblent mes deux casquettes, à savoir vie privée et logiciel libre.

Depuis, 18 mois ont passé, les équipes n’ont pas chômé et les premiers produits arrivent en version Alpha puis Bêta. C’est un moment très excitant !

Récemment, Qwant a proposé Maps en version Bêta… Vous comptez vraiment rivaliser avec Google Maps ? Parce que moi j’aime bien Street View par exemple, est-ce que c’est une fonctionnalité qui viendra un jour pour Qwant Maps ?

Rivaliser avec les géants américains du capitalisme de surveillance n’est pas facile, justement parce qu’on cherche un autre modèle, respectueux de la vie privée. En plus, ils ont des budgets incroyables, parce que le capitalisme de surveillance est extrêmement lucratif. Plutôt que d’essayer de trouver des financements comparables, on change les règles du jeu et on se rapproche de l’écosystème libre OpenStreetMap, qu’on pourrait décrire comme le Wikipédia de la donnée géographique. C’est une base de données géographiques contenant des données et des logiciels sous licence libre, créée par des bénévoles autour desquels viennent aussi des entreprises pour former ensemble un écosystème. Qwant fait partie de cet écosystème.
En ce qui concerne les fonctionnalités futures, c’est difficile d’être précis, mais il y a plein de choses que nous pouvons mettre en place grâce à l’écosystème OSM. On a déjà ajouté le calcul d’itinéraires il y a quelques mois, et on pourrait se reposer sur Mapillary pour avoir des images façon StreetView, mais libres !

Dis donc, en comparant 2 cartes du même endroit, on voit que Qwant Maps a encore des progrès à faire en précision ! Pourquoi est-ce que Qwant Maps ne reprend pas l’intégralité d’Open Street Maps ?

vue du centre de la ville de La Riche avec la requête "médiathèque la Riche" par OpenStreetMap
vue du centre de la ville de La Riche avec la requête « médiathèque la Riche » par OpenStreetMap

vue du centre de la ville de La Riche avec la requête "médiathèque la Riche" par QwantMaps. La médiathèque est clairement et mieux signalée visuellement (efficacité) mais la carte est moins détaillée (précision) que la version OSM
vue du centre de la ville de La Riche avec la requête « médiathèque la Riche » par QwantMaps

 

En fait, OSM montre énormément de détails et on a choisi d’en avoir un peu moins mais plus utilisables. On a deux sources de données pour les points d’intérêt (POI) : Pages Jaunes, avec qui on a un contrat commercial et OSM. On n’affiche qu’un seul jeu de POI à un instant t, en fonction de ce que tu as recherché.

Quand tu choisis par exemple « Restaurants » ou « Banques », sans le savoir tu fais une recherche sur les POI Pages Jaunes. Donc tu as un fond de carte OSM avec des POI Pages Jaunes, qui sont moins riches que ceux d’OSM mais plus directement lisibles.

Bon d’accord, Qwant Maps utilise les données d’OSM, c’est tant mieux, mais alors vous vampirisez du travail bénévole et libre ? Quelle est la nature du deal avec OSM ?

au bas d el arcehrceh "tour eiffel" se trouve le lien vers Open Street MapsNon, bien sûr, Qwant n’a pas vocation à vampiriser l’écosystème OSM : nous voulons au contraire être un citoyen modèle d’OSM. Nous utilisons les données et logiciels d’OSM conformément à leur licence. Il n’y a donc pas vraiment de deal, juste un respect des licences dans la forme et dans l’esprit. Par exemple, on met un lien qui propose aux utilisateurs de Qwant Maps d’apprendre à utiliser et contribuer à OSM. En ce qui concerne les logiciels libres nécessaires au fonctionnement d’OSM, on les utilise et on y contribue, par exemple avec les projets Mimirsbrunn, Kartotherian et Idunn. Mes collègues ont écrit un billet de blog à ce sujet.

Nous avons aussi participé à la réunion annuelle d’OSM, State Of the Map (SOTM) à Montpellier le 14 juin dernier, où j’étais invité à parler justement des relations entre les entreprises comme Qwant et les projets libres de communs numériques comme OSM. Les mauvais exemples ne manquent pas, avec Apple qui, avec Safari et Webkit, a sabordé le projet Konqueror de navigateur libre, ou Google qui reprend de la data de Wikipédia mais ne met pas de lien sur comment y contribuer (alors que Qwant le fait). Chez Qwant, on vise à être en symbiose avec les projets libres qu’on utilise et auxquels on contribue.

Google Maps a commencé à monétiser les emplois de sa cartographie, est-ce qu’un jour Qwant Maps va être payant ?

En réalité, Google Maps est toujours gratuit pour les particuliers (approche B2C Business to consumer). Pour les organisations ou entreprises qui veulent mettre une carte sur leur site web (modèle B2B Business to business), Google Maps a longtemps été gratuit avant de devenir brutalement payant, une fois qu’il a éliminé tous ses concurrents commerciaux. Il apparaît assez clairement que Google a fait preuve de dumping.

Pour le moment, chez Qwant, il n’y a pas d’offre B2B. Le jour où il y en aura une, j’espère que le un coût associé sera beaucoup plus raisonnable que chez Google, qui prend vraiment ses clients pour des vaches à lait. Je comprends qu’il faille financer le service qui a un coût, mais là, c’est exagéré !

Quand j’utilise Qwant Maps, est-ce que je suis pisté par des traqueurs ? J’imagine et j’espère que non, mais qu’est-ce que Qwant Maps « récolte » et « garde » de moi et de ma connexion si je lui demande où se trouve Bure avec ses opposants à l’enfouissement de déchets nucléaires ? Quelles garanties m’offre Qwant Maps de la confidentialité de mes recherches en cartographie ?

C’est un principe fort chez Qwant : on ne veut pas collecter de données personnelles. Bien sûr, à un instant donné, le serveur doit disposer à la fois de la requête (quelle zone de la carte est demandée, à quelle échelle) et l’adresse IP qui la demande. L’adresse IP pourrait permettre de retrouver qui fait quelle recherche, et Qwant veut empêcher cela. C’est pourquoi l’adresse IP est salée  et hachée  aussitôt que possible et c’est le résultat qui est stocké. Ainsi, il est impossible de faire machine arrière et de retrouver quelle adresse IP a fait quelle recherche sur la carte. C’est cette méthode qui est utilisée dans Qwant Search pour empêcher de savoir qui a recherché quoi dans le moteur de recherche.

Est-ce que ça veut dire qu’on perd aussi le relatif confort d’avoir un historique utile de ses recherches cartographiques ou générales ? Si je veux gagner en confidentialité, j’accepte de perdre en confort ?
Effectivement, Qwant ne veut rien savoir sur la personne qui recherche, ce qui implique qu’on ne peut pas personnaliser les résultats, ni au niveau des recherches Web ni au niveau cartographique : pour une recherche donnée, chaque utilisateur reçoit les mêmes résultats que tout le monde.

Ça peut être un problème pour certaines personnes, qui aimeraient bien disposer de personnalisation. Mais Qwant n’a pas dit son dernier mot : c’est exactement pour ça que nous avons fait « Masq by Qwant ». Masq, c’est une application Web en logiciel libre qui permet de stocker localement dans le navigateur (en LocalStorage)6 et de façon chiffrée des données pour la personnalisation de l’expérience utilisateur. Masq est encore en Alpha et il ne permet pour l’instant que de stocker (localement !) ses favoris cartographiques. À terme, nous voulons que les différents services de Qwant utilisent Masq pour faire de la personnalisation respectueuse de la vie privée.

formulaire d’enregistrement de compte masq, avec de nombreux critères nécessaires pour le mot de passe
Ouverture d’un compte Masq.

Ah bon alors c’est fini le cloud, on met tout sur sa machine locale ? Et si on vient fouiner dans mon appareil alors ? N’importe quel intrus peut voir mes données personnelles stockées ?

Effectivement, tes données étant chiffrées, et comme tu es le seul à disposer du mot de passe, c’est ta responsabilité de conserver précieusement ledit mot de passe. Quant à la sauvegarde des données, tu as bien pensé à faire une sauvegarde, non ? 😉

Ah mais vous avez aussi un projet de reconnaissance d’images ? Comment ça marche ? Et à quoi ça peut être utile ?
C’est le résultat du travail de chercheurs de Qwant Research, une intelligence artificielle (plus concrètement un réseau de neurones) qu’on a entraînée avec Pytorch sur des serveurs spécialisés DGX-1 en vue de proposer des images similaires à celles que tu décris ou que tu téléverses.

copie d’écran de Qwant Qiss (recherche d’images)
On peut chercher une image ou bien « déposer une image » pour en trouver de similaires.

 Ah tiens j’ai essayé un peu, ça donne effectivement des résultats rigolos : si on cherche des saucisses, on a aussi des carottes, des crevettes et des dents…

C’est encore imparfait comme tu le soulignes, et c’est bien pour ça que ça n’est pas encore un produit en production ! On compte utiliser cette technologie de pointe pour la future version de notre moteur de recherche d’images.

Comment je fais pour signaler à l’IA qu’elle s’est plantée sur telle ou telle image ? C’est prévu de faire collaborer les bêta-testeurs ? Est-ce que Qwant accueille les contributions bénévoles ou militantes ?
Il est prévu d’ajouter un bouton pour que les utilisateurs puissent valider ou invalider une image par rapport à une description. Pour des projets de plus en plus nombreux, Qwant produit du logiciel libre et donc publie le code. Par exemple pour la recherche d’image, c’est sur https://github.com/QwantResearch/text-image-similarity. Les autres projets sont hébergés sur les dépôts https://github.com/QwantResearch : les contributions au code (Pull requests) et les descriptions de bugs (issues) sont les bienvenus !

Bon je vois que Qwant a l’ambition de couvrir autant de domaines que Google ? C’est pas un peu hégémonique tout ça ? On se croirait dans Dégooglisons Internet !

 

Effectivement, nos utilisateurs attendent de Qwant tout un univers de services. La recherche est pour nous une tête de pont, mais on travaille à de nouveaux services. Certains sont des moteurs de recherche spécialisés comme Qwant Junior, pour les enfants de 6 à 12 ans (pas de pornographie, de drogues, d’incitation à la haine ou à la violence).

Comment c’est calculé, les épineuses questions de résultats de recherche ou non avec Qwant Junior ? Ça doit être compliqué de filtrer…

échec de rceherche avec Qwant Junior : un petit dino dit "oups, je n’ai pas trouvé de résultats qui te conviennent"
Qwant Junior ne montre pas d’images de sexe masculin, tant mieux/tant pis ?

Nous avons des équipes qui gèrent cela et s’assurent que les sujets sont abordables par les enfants de 6 à 12 ans, qui sont notre cible pour Junior.
Ça n’est pas facile effectivement, mais nous pensons que c’est important. C’est une idée qui nous est venue au lendemain des attentats du Bataclan où trop d’images choquantes étaient publiées par les moteurs de recherche. C’était insupportable pour les enfants. Et puis Junior, comme je le disais, n’a pas vocation à afficher de publicité ni à capturer de données personnelles. C’est aussi pour cela que Qwant Junior est très utilisé dans les écoles, où il donne visiblement satisfaction aux enseignants et enseignantes.

Mais euh… « filtrer » les résultats, c’est le job d’un moteur de recherche ?

Il y a deux questions en fait. Pour un moteur de recherche pour enfants, ça me parait légitime de proposer aux parents un moteur qui ne propose pas de contenus choquants. Qwant Junior n’a pas vocation à être neutre : c’est un service éditorialisé qui fait remonter des contenus à valeur pédagogique pour les enfants. C’est aux parents de décider s’ils l’utilisent ou pas.
Pour un moteur de recherche généraliste revanche, la question est plutôt d’être neutre dans l’affichage des résultats, dans les limites de la loi.

Tiens vous avez même des trucs comme Causes qui propose de reverser l’argent des clics publicitaires à de bonnes causes ? Pour cela il faut désactiver les bloqueurs de pub auxquels nous sommes si attachés, ça va pas plaire aux antipubs…

En ce qui concerne Qwant Causes, c’est le moteur de recherche Qwant mais avec un peu plus de publicité. Et quand tu cliques dessus, cela rapporte de l’argent qui est donné à des associations que tu choisis. C’est une façon de donner à ces associations en faisant des recherches. Bien sûr si tu veux utiliser un bloqueur de pub, c’est autorisé chez Qwant, mais ça n’a pas de sens pour Qwant Causes, c’est pour ça qu’un message d’explication est affiché.

Est-ce que tous ces services sont là pour durer ou bien seront-ils fermés au bout d’un moment s’ils sont trop peu employés, pas rentables, etc. ?

Tous les services n’ont pas vocation à être rentables. Par exemple, il n’y a pas de pub sur Qwant Junior, parce que les enfants y sont déjà trop exposés. Mais Qwant reste une entreprise qui a vocation à générer de l’argent et à rémunérer ses actionnaires, donc la rentabilité est pour elle une chose importante. Et il y a encore de la marge pour concurrencer les dizaines de services proposés par Framasoft et les CHATONS 😉

Est-ce que Qwant est capable de dire combien de personnes utilisent ses services ? Qwant publie-t-elle des statistiques de fréquentation ?
Non. D’abord, on n’identifie pas nos utilisateurs, donc c’est impossible de les compter : on peut compter le nombre de recherches qui sont faites, mais pas par combien de personnes. Et c’est très bien comme ça ! Tout ce que je peux dire, c’est que le nombre de requêtes évolue très rapidement : on fait le point en comité de direction chaque semaine, et nous battons presque à chaque fois un nouveau record !

Bon venons-en aux questions que se posent souvent nos lecteurs et lectrices : Qwant et ses multiples services, c’est libre, open source, ça dépend ?

Non, tout n’est pas en logiciel libre chez Qwant, mais si tu vas sur les dépôts de Qwant et Qwant Research tu verras qu’il y a déjà plein de choses qui sont sous licence libre, y compris des choses stratégiques comme Graphee (calcul de graphe du Web) ou Mermoz (robot d’indexation du moteur). Et puis les nouveaux projets comme Qwant Maps et Masq y sont aussi.

La publicité est une source de revenus dans votre modèle économique, ou bien vous vendez des services à des entreprises ou institutions ? Qwant renonce à un modèle économique lucratif qui a fait les choux gras de Google, mais alors comment gagner de l’argent ?
Oui, Qwant facture aussi des services à des institutions dans le domaine de l’open data par exemple, mais l’essentiel du revenu vient de la publicité contextuelle, à ne pas confondre avec la publicité ciblée telle que faite par les géants américains du Web. C’est très différent.
La publicité ciblée, c’est quand tu sais tout de la personne (ses goûts, ses habitudes, ses déplacements, ses amis, son niveau de revenu, ses recherches web, son historique de navigation, et d’autres choses bien plus indiscrètes telles que ses opinions politiques, son orientation sexuelle ou religieuse, etc.). Alors tu vends à des annonceurs le droit de toucher avec de la pub des personnes qui sont ciblées. C’est le modèle des géants américains.
Qwant, pour sa part, ne veut pas collecter de données personnelles venant de ses utilisateurs. Tu as sûrement remarqué que quand tu vas sur Qwant.com la première fois, il n’y a pas de bannière « acceptez nos cookies ». C’est normal, nous ne déposons pas de cookies quand tu fais une recherche Qwant !

Personnane de Geektionerd : "Qwant avance, ta vie privée ne recule pas". intrelocuteur l’air sceptique fait : mmmmmh…
L’équipe Qwant’Comm en plein brainstorming…

Quand tu fais une recherche, Qwant te donne une réponse qui est la même pour tout le monde. Tu fais une recherche sur « Soupe à la tomate » ? On te donne les résultats et en même temps on voit avec les annonceurs qui est intéressé par ces mots-clés. On ignore tout de toi, ton identité ou ton niveau de revenu. Tout ce qu’on sait, c’est que tu as cherché « soupe à la tomate ». Et c’est ainsi que tu te retrouves avec de la pub pour du Gaspacho ou des ustensiles de cuisine. La publicité vaut un peu moins cher que chez nos concurrents, mais les gens cliquent dessus plus souvent. Au final, ça permet de financer les services et d’en inventer de nouveaux tout en respectant la vie privée des utilisateurs et de proposer une alternative aux services américains gourmands en données personnelles. On pourrait croire que ça ne rapporte pas assez, pourtant c’était le modèle commercial de Google jusqu’en 2006, où il a basculé dans la collecte massive de données personnelles…

Dans quelle mesure Qwant s’inscrit-il dans la reconquête de la souveraineté européenne contre la domination des géants US du Web ?
Effectivement, parmi les deux choses qui différencient Qwant de ses concurrents, il y a la non-collecte de données personnelles et le fait qu’il est français et à vocation européenne. Il y a un truc qui me dérange terriblement dans le numérique actuel, c’est que l’Europe est en train de devenir une colonie numérique des USA et peut-être à terme de la Chine. Or, le numérique est essentiel dans nos vies. Il les transforme ! Ces outils ne sont pas neutres, ils sont le reflet des valeurs de ceux qui les produisent.

Aux USA, les gens sont considérés comme des consommateurs : tout est à vendre à ou à acheter. En Europe, c’est différent. Ça n’est pas un hasard si la CNIL est née en France, si le RGPD est européen : on a conscience de l’enjeu des données personnelles sur la citoyenneté, sur la liberté des gens. Pour moi, que Qwant soit européen, c’est très important.

Merci d’avoir accepté de répondre à nos questions. Comme c’est la tradition de nos interviews, on te laisse le mot de la fin…

Je soutiens Framasoft depuis toujours ou presque, parce que je sais que ce qui y est fait est vraiment important : plus de libre, moins d’hégémonie des suspects habituels, plus de logiciel libre, plus de valeur dans les services proposés.
J’ai l’impression d’avoir avec Qwant une organisation différente par nature (c’est une société, avec des actionnaires), mais avec des objectifs finalement assez proches : fournir des services éthiques, respectueux de la vie pivée, plus proches des gens et de leurs valeurs, tout en contribuant au logiciel libre. C’est ce que j’ai tenté de faire chez Mozilla pendant 17 ans, et maintenant chez Qwant. Alors, je sais que toutes les organisations ne sont pas parfaites, et Qwant ne fait pas exception à la règle. En tout cas, chez Qwant on fait du mieux qu’on peut !

Vive l’Internet libre et ceux qui œuvrent à le mettre en place et à le défendre !

De Gaulle au balcon de Québec, bras en V, image de 1967 détournée en "Vive l’Internet Libre !" en rouge
D’après une image d’archive, De Gaulle s’adressant aux Québecois en 1967 (© Rare Historical Photos)