IA génératives : la fin des exercices rédactionnels à l’université ?

Stéphane Crozat est membre de Framasoft, auteur de « Traces » et de « Les libres », et surtout, enseignant à l’Université de Technologie de Compiègne (UTC). Il nous livre ci-dessous une réflexion personnelle – initialement publiée sur son blog – au sujet de l’usage des LLM (ChatGPT ou autre) dans les travaux des étudiant⋅es.

IA génératives : la fin des exercices rédactionnels à l’université ?

visage de Stéphane CrozatEn décembre 2022 le magazine États-unien The Atlantic titre : « The College Essay Is Dead » ( Marche, 2022 [1] ). L’auteur de l’article, écrivain, attribue un B+ à une rédaction produite avec le LLM [2] GPT-3 dans le cadre du cours de Mike Sharples, enseignant en sciences humaines. J’ai moi même attribué la note de 14/15 à un exercice rédactionnel réalisé avec ChatpGPT en février 2023 à l’UTC ( Turcs mécaniques ou magie noire ? ). Une enseignante de philosophie lui a attribué une note de 11/20 au baccalauréat ( Lellouche, 2023 [3] ).

J’ai depuis observé plusieurs cas de « triche » avec des LLM à l’UTC en 2023.

Se pose donc la question de la réaction à court terme pour les enseignants concernant les exercices rédactionnels qui sont réalisés par les étudiants à distance.

Je parlerai de LLM

Je parlerai de LLM [2] dans cet article plutôt que de ChatGPT.

ChatGPT est un outil de l’entreprise OpenIA basé sur un LLM [2] à vocation de conversation généraliste (capable d’aborder n’importe quel sujet) et le premier à avoir introduit une rupture d’usage dans ce domaine. Le problème abordé ici concerne bien cette classe d’outils, mais pas seulement ceux d’OpenIA : des outils concurrents existent à présent (certains pourront devenir plus puissants), des outils plus spécialisés existent (pour la traduction par exemple), d’autres sont probablement amenés à voir le jour (orientés vers la production de textes universitaires, pourquoi pas ?).

On pourra lire, par exemple, Bortzmeyer, 2023 [4] ou Tiernan, 2020 [5] pour plus d’informations.

Je ne parlerai pas de…

Les LLM [2] ne génèrent pas que des textes à la demande, ils génèrent aussi de nombreuses opinions parmi les spécialistes et les usagers ; j’essaierai de me borner aux faits présents, à ce que l’on peut raisonnablement anticiper à court terme (sans faire de science-fiction) et à la seule question de l’évaluation en contexte pédagogique (mais je n’y arriverai pas totalement…).

Je ne parlerai donc pas :

  • des autres enjeux pédagogiques : quel est le rôle de l’université face au développement des LLM ? doit-on former à leurs usages ? les enseignants doivent-il utiliser des LLM eux-mêmes ? est-ce que ça a du sens d’apprendre à rédiger à l’ère des LLM ?
  • des enjeux technico-fonctionnels : qu’est-ce que les LLM ne savent pas faire aujourd’hui ? qu’est-ce qu’on pense qu’ils ne seront jamais capables de faire ?
  • des enjeux politiques et éthiques : est-ce un progrès ? est-ce qu’on peut arrêter le progrès ? que penser de la dépendance croissante aux entreprises de la tech États-uniennes ? du déploiement du capitalisme de surveillance ?
  • des enjeux socio-écologiques : à quoi ça sert ? quels humains ça remplace ? quel est l’impact environnemental des LLM ?
  • des enjeux philosophiques : les LLM sont-ils neutres ? est-ce que ça dépend comment on s’en sert ? ou bien l’automatisation introduite change-t-elle radicalement notre rapport au langage et à la raison ? compléter des textes en utilisant des fonctions statistiques, est-ce penser ? qu’est-ce que l’intelligence ?
  • des enjeux juridiques : est-ce que les LLM respectent le droit d’auteur ? un texte produit avec un LLM est-il une création originale ?

TL;DR

Cet article étant un peu long, cette page en propose un résumé (TL;DR signifiant : « Too Long; Didn’t Read ») : Résumé du présent article.

Problématique et hypothèse

Problématique

Peut-on continuer à faire faire des exercices rédactionnels « à la maison » comme avant ?

Sans statuer sur la dimension de rupture des LLM — est-ce une nouvelle évolution liée au numérique qui percute le monde de la pédagogie, comme les moteurs de recherche ou Wikipédia avant elle, ou bien une révolution qui va changer radicalement les règles du jeu — il parait nécessaire de réinterroger nos pratiques : « sans sombrer dans le catastrophisme, il serait tout aussi idiot de ne pas envisager que nous sommes une nouvelle fois devant un changement absolument majeur de notre manière d’enseigner, de transmettre, et d’interagir dans un cadre éducatif, a fortiori lorsque celui-ci est asynchrone et/ou à distance. ( Ertzscheid, 2023 [6]) »

Hypothèse

L’automatisation permise par les LLM rend raisonnable une triche automatisée dont le rapport coût/bénéfice est beaucoup plus avantageux qu’une triche manuelle.

De nombreux modules universitaires comportent des exercices rédactionnels à réaliser chez soi. Ces travaux sont généralement évalués et cette évaluation compte pour la validation du module et donc in fine, pour l’attribution d’un diplôme.

  • Dans certains contextes, il n’y a pas d’évaluation en présentiel sans ordinateur et donc la totalité de la note peut bénéficier d’une « aide extérieure ».
  • Souvent à l’université la présence et/ou la participation effective des étudiants lors des cours et TD n’est pas elle-même évaluée, et parfois il n’y a pas d’examen classique, en conséquence un étudiant a la possibilité de valider un cours sans y assister en produisant des rendus écrits qualitatifs à domicile.

Cette situation pré-existe à l’arrivée des LLM, mais nous faisons l’hypothèse suivante :

  • sans LLM il reste un travail significatif pour se faire aider par un humain ou copier des contenus glanés sur le Web ;
  • sans LLM il reste un risque important d’une production de qualité insuffisante (l’humain qui a aidé ou fait à la place n’est pas assez compétent, les contenus Web copiés ont été mal sélectionnés, ou mal reformulés, etc.) ;
  • avec un LMM il est possible de produire un écrit standard sans aucun effort, pour exemple la copie de philo évaluée à 11 a été produite en 1,5 minute ( Lellouche, 2023 [3]).

Triche ?

J’utilise le terme de triche car si la consigne est de produire un texte original soi-même alors le faire produire par un tiers est de la triche. L’existence d’un moyen simple pour réaliser un exercice n’est pas en soi une autorisation à l’utiliser dans un contexte d’apprentissage. C’est similaire à ce qu’on peut trouver dans un contexte sportif par exemple, si vous faites une course à vélo, vous ne devez pas être aidé d’un moteur électrique.

LLM et moteurs de recherche : différence de degré ou de nature ?

J’écrivais en 2015 à propos de l’usage des moteurs de recherche ( Le syndrome de la Bibliothèque de Babel) : « La question intéressante qui se pose aux pédagogues n’est tant de savoir si l’élève va copier ou pas, s’il va « tricher ». La question est de savoir comment maintenir un travail d’élaboration d’une démarche et de production sensément originale et personnelle qui repose explicitement sur une recherche – donc une recherche sur le web – alors que la réponse à la question posée s’invite sur l’écran, formulée très exactement telle qu’attendue. C’est à peine une simplification en l’espèce de dire que la réponse a été jointe à la question, par celui même qui a posé cette question. »

Les LLM font sauter cette barrière : là où les moteurs de recherche permettaient une réponse facile à une question récurrente, les LLM permettent une réponse immédiate à une question originale.

L’évaluation de tout travail avec un ordinateur

Notons que le problème se pose pour tous les travaux rédactionnels avec ordinateur, même en présentiel ou en synchrone. En effet dès lors que l’on veut que nos exercices s’appuient sur un accès à un traitement de texte, des recherches Web ou d’autres outils numériques, alors ils ouvrent l’accès aux LLM.

Il existe des solutions humaines ou techniques de surveillance des examens pour ouvrir l’accès à certains outils seulement, mais d’une part elles posent des problèmes pratiques, éthiques et juridiques, et d’autre part les LLM s’introduisent progressivement au sein des autres outils, ainsi par exemple le moteur de recherche.

Les LLM et les étudiants

Les LLM sont utilisés par les étudiants

Lors de mes cours du semestre dernier (mars à juillet 2023), j’ai rencontré plusieurs cas d’usage de LLM.

  • Ces cas s’apparentent à de la triche.
  • Les étudiants n’ont pas facilement admis leur usage (allant dans certains cas jusqu’à nier des évidences).
  • Ce sont des cas d’usages stupides de la part des étudiants, car non nécessaires pour la validation du cours, sans intérêt du point de vue pédagogique, et facilement détectables.

On peut retenir les arguments principaux revendiqués par les étudiants :

  • Le gain de temps (même si je sais faire, « flemme » ou « retard »).
  • La nécessité de ne pas échouer et la peur d’être pénalisé sur le niveau d’expression écrite.
  • Le fait de ne pas être « sûr » de tricher (ce n’est pas explicitement interdit).

Des étudiants qui n’utilisent pas encore les LLM pour les exercices rédactionnels les utilisent plus facilement pour la traduction automatique.

UTC : Un premier étudiant utilise ChatGPT (IS03)

Au sein du cours de l’UTC IS03 («  Low-technicisation et numérique »), les étudiants doivent réaliser des notes de lecture sur la base d’articles scientifiques. Un étudiant étranger non-francophone utilise grossièrement un LLM (probablement ChatGPT) pour produire en une semaine le résumé de plusieurs dizaines de pages de lectures d’articles scientifiques difficiles et de rapports longs. J’avais donné une liste de plusieurs lectures possibles, mais n’attendais évidemment des notes que concernant un ou deux documents.

Il faut plusieurs minutes de discussion pour qu’il reconnaisse ne pas être l’auteur des notes. Mon premier argument étant sur le niveau de langue obtenue (aucune faute, très bonne expression…) l’étudiant commencera par reconnaître qu’il utilise des LLM pour corriger son français (on verra que cette « excuse » sera souvent mobilisée). Sur le volume de travail fournit, il reconnaît alors utiliser des LLM pour « résumer ».

In fine, il se justifiera en affirmant qu’il n’a pas utilisé ChatGPT mais d’autres outils (ce qui est très probablement faux, mais en l’espèce n’a pas beaucoup d’importance).

C’était un cas tout à fait « stupide », l’étudiant avait produit des notes sur près d’une dizaine de rapports et articles, sous-tendant plusieurs heures de lectures scientifiques et autant de résumés, et avait produit des énoncés sans aucune faute, tout cela en maîtrisant mal le français.

UTC : 6 cas identifiés lors de l’Api Libre Culture

Une Activité Pédagogique d’Intersemestre (Api) est un cours que les étudiants choisissent au lieu de partir en vacances, en général par intérêt, dont les conditions d’obtention sont faciles : les étudiants sont en mode stage pendant une semaine (ils ne suivent que l’Api) et leur présence régulière suffit en général pour valider le cours et obtenir les 2 crédits ECTS associés. Un devoir individuel était à réaliser sur machine pour clôturer l’Api Libre Culture de juillet 2023. Il consistait essentiellement en un retour personnel sur la semaine de formation.

Lors de ce devoir de fin d’Api, 6 étudiantes et étudiants (parmi 20 participants en tout) ont mobilisé de façon facilement visible un LLM (ChatGPT ou un autre). Pour 4 d’entre eux c’était un usage partiel (groupe 1), pour 2 d’entre eux un usage massif pour répondre à certaines questions (groupe 2). J’ai communiqué avec ces 6 personnes par mail.

3 des étudiants du groupe 1 ont avoué spontanément, en s’excusant, conscients donc d’avoir certainement transgressé les règles de l’examen. La 4e personne a reconnu les faits après que j’ai insisté (envoi d’un second mail en réponse à un premier mail de déni).

Pour les 2 étudiants du groupe 2 :

  • le premier n’a reconnu les faits qu’après plusieurs mails et que je lui aie montré l’historique d’un pad (traitement de texte en ligne) qui comportait un copie/coller évident de ChatGPT.
  • le second, étudiant étranger parlant très bien français, n’a jamais vraiment reconnu les faits, s’en tenant à un usage partiel « pour s’aider en français » (loin de ce que j’ai constaté).

À noter qu’aucun étudiant ne niait avoir utilisé un LLM, leur défense était un usage non déterminant pour s’aider à formuler des choses qu’ils avaient produites eux-mêmes.

Pour les deux étudiants du groupe 2, j’ai décidé de ne pas valider l’Api, ils n’ont donc pas eu les crédits qu’ils auraient eu facilement en me rendant un travail de leur fait, même de faible niveau. Ils n’ont pas contesté ma décision, l’un des deux précisera même : « d’autant plus que j’ai déjà les compétences du fait du cours suivi dans un semestre précédent ».

Un étudiant en Nouvelle-Zélande reconnaît utiliser ChatGPT

« In May, a student in New Zealand confessed to using AI to write their papers, justifying it as a tool like Grammarly or spell-check: “I have the knowledge, I have the lived experience, I’m a good student, I go to all the tutorials and I go to all the lectures and I read everything we have to read but I kind of felt I was being penalised because I don’t write eloquently and I didn’t feel that was right,” they told a student paper in Christchurch. They don’t feel like they’re cheating, because the student guidelines at their university state only that you’re not allowed to get somebody else to do your work for you. GPT-3 isn’t “somebody else”—it’s a program. » ( Marche, 2022 [1] )

On note les deux arguments principaux produits :

  • je l’utilise car je ne suis pas très fort à l’écrit et je ne trouve pas normal que cela ma pénalise ;
  • ce n’est pas clairement interdit à l’université.

J’ai interviewé des collégiens et lycéens

  • ChatGPT est déjà utilisé au collège et au lycée : surtout par les « mauvais » élèves (selon les bons élèves)…
  • …et par les bons élèves occasionnellement, mais pour une « bonne raison » : manque de temps, difficultés rencontrées, etc.
  • Des outils d’IA dédiés à la traduction sont plus largement utilisés, y compris par les bons élèves.
  • À l’école « l’échec c’est mal » donc le plus important est de rendre un bon devoir (voire un devoir parfait).

Interviews de 6 collégiens et lycéens à propos des LLM

Les LLM sont capables d’avoir de bonnes notes

A à un exercice rédactionnel à l’UTC

Cet article fait suite à «  Turcs mécaniques ou magie noire ? » un autre article écrit en janvier sur la base d’un test de ChatGPT à qui j’avais fait passer un de mes examens. Pour mémoire ChatGPT obtenait selon ma correction 14/15 à cet examen second, égalité donc avec les meilleurs étudiants du cours.

B+ à un exercice rédactionnel en Grande-Bretagne

En mai 2022, Mike Sharples utilise le LLM [2] GPT-3 pour produire une rédaction dans le cadre de son cours de pédagogie ( Sharples, 2022 [7] ). Il estime qu’un étudiant qui aurait produit ce résultat aurait validé son cours. Il en conclut que les LLM sont capables de produire des travaux rédactionnels du niveau attendu des étudiants et qu’il faut revoir nos façons d’évaluer (et même, selon lui, nos façons d’enseigner).

Le journaliste et écrivain qui rapport l’expérience dans The Antlantic attribue un B+ à la rédaction mise à disposition par Mike Sharples ( Marche, 2022 [1] ).

11 au bac de philo

ChatGPT s’est vu attribué la note de 11/20 par une correctrice (qui savait qu’elle corrigeait le produit d’une IA) au bac de philosophie 2023. Le protocole n’est pas rigoureux, mais le plus important, comme le note l’article de Numerama ( Lellouche, 2023 [3] ) c’est que le texte produit est loin d’être nul, alors même que le LLM n’est pas spécifiquement programmé pour cet exercice. Un « GPTphilo » aurait indubitablement obtenu une meilleure note, et la version 2024 aura progressé. Probablement pas assez pour être capable de réaliser de vraie productions de philosophe, mais certainement assez pour être capable de rendre caduque un tel exercice d’évaluation (s’il était réalisé à distance avec un ordinateur).

66% de réussite dans le cadre d’une étude comparative

Farazouli et al. ( 2023 [8] ) ont mené un travail plus rigoureux pour évaluer dans quelle mesure ChatGPT est capable de réussir dans le cadre de travaux réalisés à la maison, et quelles conséquences cela a sur les pratiques d’évaluation. 22 enseignants ont eu à corriger 6 copies dont 3 étaient des copies ChatGPT et 3 des copies d’étudiants ayant préalablement obtenu les notes A, C et E (pour 4 de ces enseignants, ils n’avaient que 5 copies dont 2 écrites avec ChatGPT).

« ChatGPT achieved a high passing grade rate of more than 66% in home examination questions in the fields of humanities, social sciences and law. »

Dont :

  • 1 travail noté A sans suspicion que c’était une copie ChatGPT ;
  • 4 rendus notés B, dont 1 seul était suspecté d’avoir été réalisé avec ChatGPT.

On observe des disparités assez importantes en fonction des domaines :

Les notes obtenues par ChatGPT ont été meilleures en philosophie et en sociologie et moins bonnes en droits et en éducation
F E D C B A
Philosophie 3 2 7 6 3 0
Droit 9 4 0 2 0 0
Sociologie 6 6 1 1 3 1
Éducation 5 2 0 1 0 0

Remarque

On observe une grande disparité dans les évaluations d’un même travail (humain ou ChatGPT) par des évaluateurs différents (de F à A), ce qui interroge sur le protocole suivi et/ou sur la nature même de l’évaluation.

Corriger c’était déjà chiant…

La plupart des enseignants s’accordent sur le fait que le plus ennuyeux dans leur métier est la correction des travaux étudiants. Savoir que l’on corrige potentiellement des travaux qui n’ont même pas été produits par les étudiants est tout à fait démobilisant…

« La question c’est celle d’une dilution exponentielle des heuristiques de preuve. Celle d’une loi de Brandolini dans laquelle toute production sémiotique, par ses conditions de production même (ces dernières étant par ailleurs souvent dissimulées ou indiscernables), poserait la question de l’énergie nécessaire à sa réfutation ou à l’établissement de ses propres heuristiques de preuve. » ( Ertzscheid, 2023 [6] ).

Il est coûteux pour un évaluateur de détecter du ChatGPT

Prenons un exemple, Devereaux ( 2023 [9] ) nous dit qu’il devrait être facile pour un évaluateur de savoir si une source existe ou non. Il prend cet exemple car ChatGPT produit des références bibliographiques imaginaires.

  1. C’est en effet possible, mais ce n’est pas « facile », au sens où si vous avez beaucoup de rédactions avec beaucoup de références à lire, cela demande un travail important et a priori inutile ; lors de la correction de l’exercice de ChatGPT ( Turcs mécaniques ou magie noire ?), je me suis moi-même « fait avoir » y compris avec un auteur que je connaissais très bien : je ne connaissais pas les ouvrages mentionnés, mais les titres et co-auteurs était crédibles (et l’auteur prolifique !).
  2. C’est aussi un bon exemple de limite conjoncturelle de l’outil, il paraît informatiquement assez facile de coupler un LLM avec des bases de données bibliographiques pour produire des références à des sources qui soient existantes. La détection ne supposera pas seulement de vérifier que la référence existe mais qu’on soit capable de dire à quel point elle est utilisée à propos. Le correcteur se retrouve alors plus proche d’une posture de révision d’article scientifique, ce qui suppose un travail beaucoup plus important, de plusieurs heures contre plusieurs minutes pour la correction d’un travail d’étudiant.

À quoi sert la rédaction à l’école ?

À quoi sert la rédaction à l’école ?

L’exercice rédactionnel est un moyen pour faire travailler un contenu, mais c’est surtout un moyen pour les étudiants d’apprendre à travailler leur raisonnement.

On peut penser que la généralisation de l’usage de LLM conduise à la perte de compétences à l’écrit, mais surtout à la perte de capacités de raisonnement, pour lesquelles l’écrit est un mode d’entraînement

Pourquoi faire écrire ?

Bret Devereaux ( 2023 [9] ) s’est posé la même question — à quoi sert un exercice rédactionnel ( « teaching essay ») — dans le même contexte de l’arrivée de ChatGPT ? Il propose trois fonctions pour cet exercice.

  1. L’exercice est un moyen pour travailler (chercher, lire, explorer, étudier…) un contenu tiers (histoire, idée…) : l’usage de ChatGPT rend l’exercice totalement inutile, mais on peut assez facilement imaginer d’autres façon de faire travailler le contenu.
  2. L’exercice est un moyen d’apprendre à faire des rédactions : l’usage de ChatGPT rend aussi l’exercice inutile, mais une part importante des étudiants n’aura plus à produire de rédaction en dehors de l’école.
  3. L’exercice est un moyen d’apprendre à mettre en forme des idées par écrit. Ici encore l’usage de ChatGPT rend l’exercice inutile, puisque bien entendu, le résultat final obtenu n’a aucune importance (le contenu sera détruit après usage), et que seul compte le processus suivi (analyse des idées, organisation…). On peut considérer que l’usage d’un LLM est ici plus dommageable en ce sens qu’apprendre à penser via l’exercice rédactionnel est un processus d’apprentissage assez fondamental.

Exemple

Un étudiant qui a utilisé ChatGPT pour un exercice rédactionnel à l’UTC m’a transmis un de ses exemples d’usage, pour me montrer qu’il n’avait pas « triché » puisque le contenu venait de lui.

Il a ainsi donné en entrée à ChatGPT le texte suivant : « Le droit d’auteur, est une licence qui protège les œuvres artistiques et intellectuelles, genre les bouquins, les musiques, les films ou les tableaux. Ça donne aux créateurs le pouvoir de décider comment on peut utiliser, copier ou diffuser leur travail, et ça leur assure d’être reconnus comme ceux qui l’ont créé. »

Si l’on demande une reformulation à ChatGPT on obtient : « Le droit d’auteur est une forme de protection légale qui s’applique aux œuvres artistiques et intellectuelles, telles que les livres, la musique, les films et les œuvres d’art. Il accorde aux créateurs le pouvoir de contrôler l’utilisation, la reproduction et la diffusion de leur travail, tout en garantissant qu’ils soient reconnus en tant que créateurs de ces œuvres. »

On observe une correction de style, mais aussi une correction de fond. Le droit d’auteur n’est pas une « licence » (cette phrase n’a pas de sens) comme l’écrit l’étudiant, mais bien « une forme de protection légale » . En outre le même texte écrit avec beaucoup de fautes ressortira parfaitement écrit en français (l’étudiant qui m’écrivait avait certainement déjà corrigé préalablement son texte car le mail qui l’accompagnait comportait beaucoup de fautes d’orthographe et de formulation).

Si ChatGPT peut l’écrire, ça ne sert à rien ?

Un argument que produit Bret Devereaux et pas mal d’autres commentateurs devant les résultats obtenus par ChatGPT est le suivant : si une machine y arrive c’est que l’exercice est sans intérêt. « If your essay prompt can be successfully answered using nothing but vague ChatGPT generated platitudes, it is a bad prompt » ( Devereaux, 2023 [9] ).

C’est discutable :

  • Cette assertion suppose que l’exercice n’avait pas de sens en soi, même s’il était pratiqué avec intérêt avant, et la preuve qui est donnée est qu’une machine peut le faire. On peut faire l’analogie avec le fait de s’entraîner à faire de la course à pied à l’ère de la voiture (des arts martiaux à l’ère du fusil, du jardinage à l’ère de l’agriculture industrielle, etc.), ce n’est pas parce qu’une machine peut réaliser une tâche qu’il est inutile pour un humain de s’entraîner à la réaliser.
  • Farazouli et al. ( 2023 [8]) relèvent que les qualités mise en avant par les évaluateurs après correction de copies produites par ChatGPT étaient notamment : la qualité du langage, la cohérence, et la créativité. Dans certains contextes les productions de ChatGPT ne sont donc pas évaluées comme médiocres.

Ce que ChatGPT ne fait pas bien

À l’inverse Farazouli et al. ( 2023 [8] ) ont identifié des lacunes dans l’argumentation, le manque de références au cours et au contraire la présence de contenus extérieurs au cours.

La faiblesse argumentative est peut-être un défaut intrinsèque au sens où la mécanique statistique des LLM ne serait pas capable de simuler certains raisonnements. En revanche on note que le manque de références au cours et la présence de références extérieures est discutable (ça peut rester un moyen de détecter, mais c’est un assez mauvais objectif en soi).

  • En premier cycle universitaire on ne souhaite pas en général cette relation étroite au cours (il existe plusieurs approches, et un étudiant qui ferait le travail par lui-même serait tout à fait dans son rôle).
  • En second cycle, cela peut être le cas lorsque le cours porte sur un domaine en lien avec la recherche de l’enseignant typiquement. Mais la recherche est en général publiée et le LLM peut tout à fait être entraîné sur ces données et donc « connaître » ce domaine.

À quoi servent les évaluations à l’école ?

L’évaluation joue un double rôle : l’évaluation formative sert à guider l’apprenant (elle a vocation à lui rendre service), tandis que l’évaluation sommative joue un rôle de certification (elle a vocation à rendre service à un tiers).

Or on est souvent en situation de confusion de ces deux fonctions et cela conduit l’apprenant à se comporter comme s’il était en situation d’évaluation sommative et à chercher à maximiser ses résultats.

On note en particulier :

  • la fonction de classement entre les élèves des notes ;
  • la confusion entre l’exercice rédactionnel comme moyen (c’est le processus qui compte) ou comme fin (c’est le résultat qui compte).

Certifier ou réguler ? (confusion des temps)

L’évaluation peut poursuivre trois fonctions ( Hadji, 1989 [10]) :

  • Certifier (évaluation sommative) afin de statuer sur les acquis, valider un module de cours, délivrer un diplôme ; cette évaluation se situe après la formation.
  • Réguler (évaluation formative) afin de guider l’apprenant dans son processus d’apprentissage ; cette évaluation se situe pendant la formation.
  • Orienter (évaluation diagnostique) afin d’aider à choisir les modalités d’étude les plus appropriées en fonction des intérêts, des aptitudes et de l’acquisition des pré-requis ; cette évaluation se situe avant la formation (et en cela l’évaluation diagnostique se distingue bien de l’évaluation sommative en ce qu’elle se place avant la formation du point de vue de l’évaluateur).

« L’évaluation survient souvent à un moment trop précoce par rapport au processus d’apprentissage en cours ( Astofi, 1992 [11]) ».

C’est un défaut du contrôle continu, arrivant tôt, dès le début du cours même, il nous place d’emblée en posture sommative. Celui qui ne sait pas encore faire est donc potentiellement stressé par l’évaluation dont il refuse ou minore la dimension formative.

Entraîner ou arbitrer ? (confusion des rôles)

« Les fonctions d’entraîneur et d’arbitre sont trop souvent confondues. C’est toujours celle d’entraîneur dont le poids est minoré. ( Astofi, 1992 [11]) »

« Il reste à articuler les deux logiques de l’évaluation, dont l’une exige la confiance alors que l’autre oppose évaluateur et évalué ( Perrenoud, 1997 [12]) ».

Cette confusion des temps entraîne une confusion des rôles : l’enseignant est toujours de fait un certificateur, celui qui permet la validation du cours, la poursuite des études, l’orientation…

Se faire confiance

La question de la confiance au sein de la relation apprenant-enseignant était également relevée par Farazouli et al. ( 2023 [8] ) qui insistait sur la dégradation potentielle introduite par les LLM :

« The presence of AI chatbots may prompt teachers to ask “who has written the text?” and thereby question students’ authorship, potentially reinforcing mistrust at the core of teacher–student relationship »

Évaluation des compétences

Philippe Perrenoud ( 1997 [12]) défend une approche par compétences qui s’écarte d’une « comparaison entre les élèves » pour se diriger vers une comparaison entre « ce que l’élève a fait, et qu’il ferait s’il était plus compétent ». L’auteur souligne que ce système est moins simple et moins économique : « l’évaluation par les compétences ne peut qu’être complexe, personnalisée, imbriquée au travail de formation proprement dit ». Il faut, nous dit-il, renoncer à organiser un « examen de compétence en plaçant tous les concurrents sur la même ligne ».
Cet éloignement à la fonction de classement est intéressante à interroger. La fonction de classement des évaluations n’est pas, en général, revendiquée comme telle, mais elle persiste à travers les notes (A, B, C, D, E), la courbe de Gauss attendue de la répartition de ces notes, le taux de réussite, d’échec, de A. Ces notes ont également une fonction de classement pour l’accès à des semestres d’étude à l’étranger par exemple, ou pour des stages.

Il ne s’agit donc pas seulement de la fonction formative et de l’apprenant face à sa note.

La tâche n’est qu’un prétexte

« La tâche n’est qu’un prétexte », nous rappelle Philippe Meirieu ( Meirieu, 2004 [13]), pour s’exercer en situation d’apprentissage ou pour vérifier qu’on a acquis certaines habiletés.

Il est déterminant de différencier les deux situations :

  • dans le premier cas on peut travailler à apprendre avec l’apprenant sans se focaliser sur ce qu’on produit ;
  • dans le second, en revanche, cas l’énergie de l’apprenant est concentrée sur le résultat, il cherche à se conformer aux attentes de l’évaluation.

On oublie que la tâche n’est qu’un prétexte, le « livrable » qu’on demande est un outil et non un objectif, dans l’immense majorité des cas la dissertation ne sera pas lue pour ce qu’elle raconte, mais uniquement pour produire une évaluation. La résolution du problème de mathématique ou le compte-rendu d’expérience de chimie ne revêt aucun intérêt en soi, puisque, par construction, le lecteur connaît déjà la réponse. C’est à la fois une évidence et quelque chose que le processus évaluatif fait oublier, et in fine, c’est bien au résultat qui est produit que l’étudiant, comme souvent l’enseignant, prête attention, plutôt qu’au processus d’apprentissage.

Évaluation des moyens mis en œuvre et non d’un niveau atteint

À travers l’étude des travaux de Joseph Jacotot, Jacques Rancière ( 1987 [14]) propose que ce qui compte n’est pas ce qu’on apprend mais le fait qu’on apprenne et qu’on sache que l’on peut apprendre, avec sa propre intelligence. Le « maître ignorant » n’est pas celui qui transmet le savoir, il est celui qui provoque l’engagement de l’apprenant, qui s’assure qu’il y a engagement. Selon ce dispositif, la notion même d’évaluation sommative n’est pas possible, puisque le maître est ignorant de ce que l’élève apprend (Jacotot enseigne ainsi les mathématiques ou la musique dont il n’a pas la connaissance).

Cette approche pourrait inspirer à l’évaluation un rôle de suivi de l’engagement (présence, travail…) décorrélé de toute évaluation de résultat : présence et participation en cours et en TD. Notons que le système ECTS [15] est déjà basé sur une charge de travail requise (25 à 30 heures pour 1 crédit).

Remise en question de l’évaluation sommative

L’évaluation via des examens et des notes est un processus peu fiable, en témoignent les variations que l’on observe entre différents évaluateurs, et les variations dans le temps observées auprès d’un même évaluateur ( Hadji, 1989 [10]). On peut donc minorer l’importance de la fonction certifiante de certaines notes. Or les notes coûtent cher à produire par le temps et l’attention qu’elles exigent des enseignants et des apprenants.

On peut donc se poser la question du supprimer, ou diminuer, l’évaluation sommative. Cela pour une partie des enseignements au moins, quitte à garder des espaces sommatifs pour répondre à des nécessités de classement ou certification.

Qu’est-ce qu’on peut faire maintenant ?

  • Interdire l’usage des LLM par défaut dans le règlement des études (en sachant que ça va devenir difficile d’identifier quand ils sont mobilisés) ?
  • Utiliser des moyens techniques de détection de fraude (et entrer dans une « course à l’armement ») ?
  • Améliorer nos exercices rédactionnel pour « échapper aux LLM » tout en restant en veille sur ce qu’ils savent adresser de nouveau ?
  • Renoncer aux travaux rédactionnels évalués à la maison ?
  • Évaluer uniquement en fin de module, voire en dehors des modules et/ou procéder à des évaluations de compétence individuelles ?
  • Organiser des évaluations certifiantes en dehors des cours (évaluation de compétences, examens transversaux…) ?
  • Diminuer la pression sur les étudiants et modifier le contrat pédagogique passé avec eux ?
  • Simplifier la notation, ne conserver que les résultats admis ou non admis, pour évacuer toute idée de classement ?
  • Passer d’une obligation de résultat à une obligation de moyen, c’est à dire valider les cours sur la base de la présence ?
  • Ne plus du tout évaluer certains cours (en réfléchissant contextuellement à la fonction de l’évaluation sommative) ?

Interdire ChatGPT ?

« And that’s the thing: in a free market, a competitor cannot simply exclude a disruptive new technology. But in a classroom, we can absolutely do this thing ( Devereaux, 2023 [9]) »

C’est vrai, et le règlement des études peut intégrer cette interdiction a priori. Mais les LLM vont s’immiscer au sein de tous les outils numériques, a commencer par les moteurs de recherche, et cela va être difficile de maintenir l’usage d’outils numériques sans LLM.

mème classique : Bernie Sanders, un vieil homme face caméra sous le titre "les profs" dit : "je vous demande une fois encore de ne pas utiliser chatGPT"

Utiliser des moyens techniques de détection de fraude ?

Des systèmes de contrôle dans le contexte de l’évaluation à distance ou des logiciels anti-plagiat existent, mais :

  • cela pose des problèmes de surveillance et d’intrusion dans les machines des apprenants ;
  • cela suppose une « course à l’armement » entre les systèmes de détection et les systèmes de triche.

Il faut des résultats fiables pour être en mesure d’accuser un étudiant de fraude.

Adapter nos exercices et rester en veille ?

« Likewise, poorly designed assignments will be easier for students to cheat on, but that simply calls on all of us to be more careful and intentional with our assignment design ( Devereaux, 2023 [9]). »

Certains exercices pourront être en effet aménagés pour rendre plus difficile l’usage de LLM. On peut avoir une exigence argumentative plus élevée et/ou poser des questions plus complexes (en réfléchissant à pourquoi on ne le faisait pas avant, ce qui doit être modifié pour atteindre ce nouvel objectif, etc.). On peut augmenter le niveau d’exigence demandé (en réfléchissant au fait que cela puisse exclure des étudiants, au fait qu’il faille relâcher d’autres exercices par ailleurs…).

Mais pour certains exercices ce ne sera pas possible (thème et version en langue par exemple). Et de plus cela implique une logique de veille active entre la conception de ces exercices et l’évolution rapide des capacités des outils qui intégreront des LLM.

Renoncer aux travaux à la maison (ou à leur évaluation)

On peut décider de ne plus évaluer les travaux réalisés à la maison.

On peut alors imaginer plusieurs formes de substitution : retour aux devoirs sur table et sans ordinateur, passage à l’oral…

Évaluer en dehors des cours ?

On peut imaginer :

  • des évaluations certifiantes totalement en dehors des cours (sur le modèle du TOEIC ou du baccalauréat, par exemple pour les langues donc, pour l’expression française, pour des connaissances dans certains domaines, des compétences rédactionnelles…) ;
  • des évaluations certifiantes calées uniquement en fin d’UV (examen final de sortie de cours, avec éventuellement rattrapage, sans plus aucune note intermédiaire) ;
  • des évaluations de compétences individuelles (intéressantes pédagogiquement, mais coûteuses à organiser et demandant des compétences avancées de la part des évaluateurs).

Diminuer la pression sur les étudiants ?

Le contrat ECTS est très exigeant. 30 crédits par semestre c’est 750 à 900 heures attendues de travail en 16 semaines, vacances comprises, soit 45h à 55h par semaine. Plus la pression sur le temps est importante plus la tentation de tricher est grande.

On peut imaginer de renouer un contrat pédagogique d’un autre ordre avec les étudiants, fondé sur la confiance réciproque et la recherche de leur intérêt.

Simplifier la notation (pass or fail) ?

L’UTC a connu un système à 3 notes : « admis », « non admis » et « mention » (équivalent à A). Dans ce système, on prête moins d’attention à la fonction sommative des évaluations. Si un apprenant obtient une note suffisante à un premier examen par exemple, il sait qu’il validera le module et il n’a pas d’intérêt particulier à optimiser ses autres évaluations sommatives.

Sauf à viser un A, mais on peut aussi se passer du A : c’est le cas des Activité Pédagogiques d’Inter-semestre à l’UTC qui sont évaluées juste avec « reçu » ou « non reçu ».

Mème classique avec personnage dégoûté par "corriger des copies d'étudiant⋅es rédigées par des IA", le même ravi par "Demander à des IA de corriger des copies d'étudiant⋅es rédigées par des IA"

Passer d’une obligation de résultat à une obligation de moyen ?

De fait certains cours sont mobilisés pour la validation du diplôme, voire la sélection et le classement des étudiants, et d’autres comptent très peu pour cet objectif en pratique.

Certains cours pourraient donc être exclus du processus d’évaluation sommative (comme en formation professionnelle). On économiserait le temps de travail d’évaluation sommative qui pourrait être réinvesti ailleurs. Quelques étudiants en profiteraient certainement pour « passer au travers » de certains contenus, il faudrait pouvoir évaluer dans quelle mesure cela serait pire qu’aujourd’hui.

Renoncer à noter ? (pourquoi note-t-on ?)

Certains cours, sinon tous, pourraient donc échapper totalement à la notation.

À quelle fin évalue-t-on les étudiants dans une école qui a sélectionné à l’entrée comme l’UTC ?

  • Pour valider que les étudiants ont été « bien » sélectionnés ?
  • Pour les « forcer » à travailler ?
  • Pour faire « sérieux » ?
  • Pour répondre aux demandes d’organismes de certification du diplôme ?

 

réunion de conseil d'administration d'université — nous avons un grave problème : comment allons-nous évaluer les étudiants s'ils fraudent avec un LLM ? — on interdit tout sauf le stylo ? — on les punit ? — on arrête de noter ? Le jeune homme décontracté qui faisait cette dernière suggestion déclenche la fureur de l'animateur de la réunion, qui le passe par la fenêtre de l'immeuble.

Notes et références

[1] – Marche Stephen. 2022. The College Essay Is Dead. in The Atlantic. https://www.theatlantic.com/technology/archive/2022/12/chatgpt-ai-writing-college-student-essays/672371/

[2] – LLM (Large Language Model) : Les grands modèles de langage (ou LLM, pour « Large Language Model ») sont des mécanismes d’Intelligence Artificielle. Une de leurs applications les plus connues est la génération de textes ou d’images. L’ouverture au public de ChatGPT, en novembre 2022, a popularisé cette application. Chaque grande entreprise de l’informatique sort désormais son propre modèle, son propre LLM.

https://framablog.org/2023/07/31/que-veut-dire-libre-ou-open-source-pour-un-grand-modele-de-langage/

[3] – Lellouche Nicolas. 2023. Oubliez Enthoven : ChatGPT a eu la moyenne au bac de philo et c’est ce qui compte, Oubliez Enthoven. in Numerama. https://www.numerama.com/tech/1415146-vous-navez-pas-besoin-de-neurone-pour-avoir-votre-bac-de-philo.html.

[4] – Bortzmeyer Stéphane. 2023. Que veut dire « libre » (ou « open source ») pour un grand modèle de langage ?. https://framablog.org/2023/07/31/que-veut-dire-libre-ou-open-source-pour-un-grand-modele-de-langage/.

[5] – Tiernan Ray. 2020. Qu’est-ce que GPT-3 ? Tout ce que votre entreprise doit savoir sur le programme de langage d’IA d’OpenAIQu’est-ce que GPT-3 ?. https://www.zdnet.fr/pratique/qu-est-ce-que-gpt-3-tout-ce-que-votre-entreprise-doit-savoir-sur-le-programme-de-langage-d-ia-d-openai-39908563.htm.

[6] – Ertzscheid Olivier. 2023. GPT-3 : c’est toi le Chat.GPT-3. https://affordance.framasoft.org/2023/01/gpt-3-cest-toi-le-chat/.

[7] – Sharples Mike. 2022. New AI tools that can write student essays require educators to rethink teaching and assessment. https://blogs.lse.ac.uk/impactofsocialsciences/2022/05/17/new-ai-tools-that-can-write-student-essays-require-educators-to-rethink-teaching-and-assessment/.

[8] – Farazouli Alexandra, Cerratto-Pargman Teresa, Bolander-Laksov Klara, McGrath Cormac. 2023. Hello GPT! Goodbye home examination? An exploratory study of AI chatbots impact on university teachers’ assessment practicesHello GPT! Goodbye home examination?. in Assessment & Evaluation in Higher Education. vol.0 n°0 pp1-13.https://doi.org/10.1080/02602938.2023.2241676.

[9] – Devereaux Bret. 2023. Collections: On ChatGPTCollections. in A Collection of Unmitigated Pedantry. https://acoup.blog/2023/02/17/collections-on-chatgpt/.

[10] – Hadji C.. 1989. L’évaluation, règles du jeu: des intentions aux outils. ESF.

[11] – Astolfi Jean-Pierre. 1992. L’école pour apprendre: l’élève face aux savoirsL’école pour apprendre. ESF.

[12] – Perrenoud Philippe. 1997. Construire des compétences dès l’école. ESF.

[13] – Meirieu Philippe. 2004. Faire l’école, faire la classe: démocratie et pédagogieFaire l’école, faire la classe. ESF.

[14] – Rancière Jacques. 1987. Le maître ignorant: cinq leçons sur l’émancipation intellectuelleLe maître ignorant. Fayard.

[15] – ECTS (European Credit Transfer and accumulation System). Le système européen de transfert et d’accumulation de crédits a pour objectif de faciliter la comparaison des programmes d’études au sein des différents pays européens. Le système ECTS s’applique principalement à la formation universitaire. Il a remplacé le système des unités de valeur (UV) jusque-là utilisé en France. wikipedia.org




Que veut dire « libre » (ou « open source ») pour un grand modèle de langage ?

Le flou entretenu entre open source et libre, déjà ancien et persistant dans l’industrie des technologies de l’information, revêt une nouvelle importance maintenant que les entreprises se lancent dans la course aux IA…
Explications, décantation et clarification par Stéphane Bortzmeyer, auquel nous ouvrons bien volontiers nos colonnes.


Vous le savez, les grands modèles de langage (ou LLM, pour « Large Language Model ») sont à la mode. Ces mécanismes, que le marketing met sous l’étiquette vague et sensationnaliste d’IA (Intelligence Artificielle), ont connu des progrès spectaculaires ces dernières années.
Une de leurs applications les plus connues est la génération de textes ou d’images. L’ouverture au public de ChatGPT, en novembre 2022, a popularisé cette application. Chaque grande entreprise de l’informatique sort désormais son propre modèle, son propre LLM.
Il faut donc se distinguer du concurrent et, pour cela, certains utilisent des arguments qui devraient plaire aux lecteurs et lectrices du Framablog, en affirmant que leur modèle est (en anglais dans le texte) « open source ». Est-ce vrai ou bien est-ce du « libre-washing » ?
Et qu’est-ce que cela veut dire pour cet objet un peu particulier qu’est un modèle de langage ?

Copie d'écran d'un tweet de Viva technology citant le président Macron au salon Vivatech où il insiste sur les LLM souverains. le texte le cite "on doit accélérer l'open source et tous les grands modèles et avoir des LMM européens qui permettront de réguler. i faut ensuite qu'on arrive à régler des cas critiques, savoir si c'est de l'IA ou pas".
Tout le monde parle des LLM (ici, avec une faute de frappe).

Source ouverte ?

Traitons d’abord un cas pénible mais fréquent : que veut dire « open source » ? Le terme désigne normalement l’information qui est librement disponible. C’est en ce sens que les diplomates, les chercheurs, les journalistes et les espions parlent de ROSO (Renseignement d’Origine en Sources Ouvertes) ou d’OSINT (Open Source Intelligence). Mais, dans le contexte du logiciel, le terme a acquis un autre sens quand un groupe de personnes, en 1998, a décidé d’essayer de remplacer le terme de « logiciel libre », qui faisait peur aux décideurs, par celui d’« open source ». Ils ont produit une définition du terme qu’on peut considérer comme la définition officielle d’« open source ». Il est intéressant de noter qu’en pratique, cette définition est quasiment équivalente aux définitions classiques du logiciel libre et que des phrases comme « le logiciel X n’est pas libre mais est open source » n’ont donc pas de sens. Ceci dit, la plupart des gens qui utilisent le terme « open source » ne connaissent ni l’histoire, ni la politique, ni la définition « officielle » et ce terme, en réalité, est utilisé pour tout et n’importe quoi. On peut donc se dire « open source » sans risque d’être contredit. Je vais donc plutôt me pencher sur la question « ces modèles sont-ils libres ? ».

Grand modèle de langage ?

Le cas du logiciel est désormais bien connu et, sauf grande malhonnêteté intellectuelle, il est facile de dire si un logiciel est libre ou pas. Mais un modèle de langage ? C’est plus compliqué, Revenons un peu sur le fonctionnement d’un LLM (grand modèle de langage). On part d’une certaine quantité de données, par exemple des textes, le « dataset ». On applique divers traitements à ces données pour produire un premier modèle. Un modèle n’est ni un programme, ni un pur ensemble de données. C’est un objet intermédiaire, qui tient des deux. Après d’éventuels raffinements et ajouts, le modèle va être utilisé par un programme (le moteur) qui va le faire tourner et, par exemple, générer du texte. Le moteur en question peut être libre ou pas. Ainsi, la bibliothèque transformers est clairement libre (licence Apache), ainsi que les bibliothèques dont elle dépend (comme PyTorch). Mais c’est le modèle qu’elle va exécuter qui détermine la qualité du résultat. Et la question du caractère libre ou pas du modèle est bien plus délicate.

Notons au passage que, vu l’importante consommation de ressources matérielles qu’utilisent ces LLM, ils sont souvent exécutés sur une grosse machine distante (le mythique « cloud »). Lorsque vous jouez avec ChatGPT, le modèle (GPT 3 au début, GPT 4 désormais) n’est pas téléchargé chez vous. Vous avez donc le service ChatGPT, qui utilise le modèle GPT.

Mais qui produit ces modèles (on verra plus loin que c’est une tâche non triviale) ? Toutes les grandes entreprises du numérique ont le leur (OpenAI a le GPT qui propulse ChatGPT, Meta a Llama), mais il en existe bien d’autres (Bloom, Falcon, etc), sans compter ceux qui sont dérivés d’un modèle existant. Beaucoup de ces modèles sont disponibles sur Hugging Face (« le GitHub de l’IA », si vous cherchez une « catch phrase ») et vous verrez donc bien des références à Hugging Face dans la suite de cet article.  Prenons par exemple le modèle Falcon. Sa fiche sur Hugging Face nous donne ses caractéristiques techniques, le jeu de données sur lequel il a été entrainé (on verra que tous les modèles sont loin d’être aussi transparents sur leur création) et la licence utilisée (licence Apache, une licence libre). Hugging Face distribue également des jeux de données d’entrainement.

Dans cet exemple ci-dessous (trouvé dans la documentation de Hugging Face), on fait tourner le moteur transformers (plus exactement, transformers, plus diverses bibliothèques logicielles) sur le modèle xlnet-base-cased en lui posant la question « Es-tu du logiciel libre ? » :

% python run_generation.py --model_type=xlnet --model_name_or_path=xlnet-base-cased
...
Model prompt >>> Are you free software?
This is a friendly reminder - the current text generation call will exceed the model's predefined maximum length (-1). Depending on the model, you may observe exceptions, performance degradation, or nothing at all.
=== GENERATED SEQUENCE 1 ===
Are you free software? Are you a professional? Are you a Master of Technical Knowledge? Are you a Professional?

Ce modèle, comme vous le voyez, est bien moins performant que celui qui est derrière le service ChatGPT ; je l’ai choisi parce qu’il peut tourner sur un ordinateur ordinaire.

Vous voulez voir du code source en langage Python ? Voici un exemple d’un programme qui fait à peu près la même chose :

from transformers import pipeline

generator = pipeline("text-generation", model="DunnBC22/xlnet-base-cased-finetuned-WikiNeural-PoS") 
print(generator("Are you free software?"))

Le modèle utilisé est un raffinement du précédent, DunnBC22/xlnet-base-cased-finetuned-WikiNeural-PoS. Il produit lui aussi du contenu de qualité contestable([{‘generated_text’: « Are you free software? What ever you may have played online over your days? Are you playing these games? Any these these hours where you aren’t wearing any heavy clothing?) mais, bon, c’est un simple exemple, pas un usage intelligent de ces modèles.

 

Un chat gris pensif dans une librairie, assis sur un bac empli de livres

Les LLM n’ont pas de corps (comme Scarlett Johansson dans le film « Her ») et ne sont donc pas faciles à illustrer. Plutôt qu’une de ces stupides illustrations de robot (les LLM n’ont pas de corps, bon sang !), je mets une image d’un chat certainement intelligent. Drew Coffman, CC BY 2.0, via Wikimedia Commons

 

Que veut dire « libre » pour un LLM ?

Les définitions classiques du logiciel libre ne s’appliquent pas telles quelles. Des entreprises (et les journalistes paresseux qui relaient leurs communiqués de presse sans vérifier) peuvent dire que leur modèle est « open source » simplement parce qu’on peut le télécharger et l’utiliser. C’est très loin de la liberté. En effet, cette simple autorisation ne permet pas les libertés suivantes :

  • Connaître le jeu de données utilisé pour l’entrainement, ce qui permettrait de connaitre les choix effectués par les auteurs du modèle (quels textes ils ont retenu, quels textes ils ont écarté) et savoir qui a écrit les textes en question (et n’était pas forcément d’accord pour cette utilisation).
  • Connaître les innombrables choix techniques qui ont été faits pour transformer ces textes en un modèle. (Rappelez-vous  : un algorithme, ce sont les décisions de quelqu’un d’autre.)

Sans ces informations, on ne peut pas refaire le modèle différemment (alors que la possibilité de modifier le programme est une des libertés essentielles pour qu’un logiciel soit qualifié de libre). Certes, on peut affiner le modèle (« fine-tuning a pre-trained model », diront les documentations) mais cela ne modifie pas le modèle lui-même, certains choix sont irréversibles (par exemple des choix de censure). Vous pouvez créer un nouveau modèle à partir du modèle initial (si la licence prétendument « open source » le permet) mais c’est tout.

Un exemple de libre-washing

Le 18 juillet 2023, l’entreprise Meta a annoncé la disponibilité de la version 2 de son modèle Llama, et le fait qu’il soit « open source ». Meta avait même convaincu un certain nombre de personnalités de signer un appel de soutien, une initiative rare dans le capitalisme. Imagine-t-on Microsoft faire signer un appel de soutien et de félicitations pour une nouvelle version de Windows ? En réalité, la licence est très restrictive, même le simple usage du modèle est limité. Par exemple, on ne peut pas utiliser Llama pour améliorer un autre modèle (concurrent). La démonstration la plus simple de la non-liberté est que, pour utiliser le modèle Llama sur Hugging Face, vous devez soumettre une candidature, que Meta accepte ou pas (« Cannot access gated repo for url https://huggingface.co/meta-llama/Llama-2-7b/resolve/main/config.json. Access to model meta-llama/Llama-2-7b is restricted and you are not in the authorized list. Visit https://huggingface.co/meta-llama/Llama-2-7b to ask for access. »)

Mais la communication dans l’industrie du numérique est telle que très peu de gens ont vérifié. Beaucoup de commentateurs et de gourous ont simplement relayé la propagande de Meta. Les auteurs de la définition originale d’« open source » ont expliqué clairement que Llama n’avait rien d’« open source », même en étant très laxiste sur l’utilisation du terme. Ceci dit, il y a une certaine ironie derrière le fait que les mêmes personnes, celles de cette Open Source Initiative, critiquent Meta alors même qu’elles avaient inventé le terme « open source » pour brouiller les pistes et relativiser l’importance de la liberté.

Au contraire, un modèle comme Falcon coche toutes les cases et peut très probablement être qualifié de libre.

La taille compte

Si une organisation qui crée un LLM publie le jeu de données utilisé, tous les réglages utilisés pendant l’entrainement, et permet ensuite son utilisation, sa modification et sa redistribution, est-ce que le modèle peut être qualifié de libre ? Oui, certainement, mais on peut ajouter une restriction, le problème pratique. En effet, un modèle significatif (disons, permettant des résultats qui ne sont pas ridicules par rapport à ceux de ChatGPT) nécessite une quantité colossale de données et des machines énormes pour l’entrainement. L’exécution du modèle par le moteur peut être plus économe. Encore qu’elle soit hors de portée, par exemple, de l’ordiphone classique. Si une application « utilisant l’IA » tourne soi-disant sur votre ordiphone, c’est simplement parce que le gros du travail est fait par un ordinateur distant, à qui l’application envoie vos données (ce qui pose divers problèmes liés à la vie privée, mais c’est une autre histoire). Même si l’ordiphone avait les capacités nécessaires, faire tourner un modèle non trivial épuiserait vite sa batterie. Certains fabricants promettent des LLM tournant sur l’ordiphone lui-même (« on-device ») mais c’est loin d’être réalisé.

Mais l’entraînement d’un modèle non trivial est bien pire. Non seulement il faut télécharger des téra-octets sur son disque dur, et les stocker, mais il faut des dizaines d’ordinateurs rapides équipés de GPU (puces graphiques) pour créer le modèle. Le modèle Llama aurait nécessité des milliers de machines et Bloom une bonne partie d’un super-calculateur. Cette histoire de taille ne remet pas en question le caractère libre du modèle, mais cela limite quand même cette liberté en pratique. Un peu comme si on vous disait « vous êtes libre de passer votre week-end sur la Lune, d’ailleurs voici les plans de la fusée ». Le monde du logiciel libre n’a pas encore beaucoup réfléchi à ce genre de problèmes. (Qui ne touche pas que l’IA : ainsi, un logiciel très complexe, comme un navigateur Web, peut être libre, sans que pour autant les modifications soit une entreprise raisonnable.) En pratique, pour l’instant, il y a donc peu de gens qui ré-entrainent le modèle, faisant au contraire une confiance aveugle à ce qu’ils ont téléchargé (voire utilisé à distance).

Conclusion

Pour l’instant, la question de savoir ce que signifie la liberté pour un modèle de langage reste donc ouverte. L’Open Source Initiative a lancé un projet pour arriver à une définition. Je ne connais pas d’effort analogue du côté de la FSF mais plus tard, peut-être ?




ChatGPT, Bard et cie : nouvelle course à l’IA, et pourquoi faire déjà ?

Google va ajouter de l’IA générative dans Gmail et Docs. Énième actualité d’un feuilleton permanent depuis « l’irruption » de ChatGPT. Et chez moi, un sentiment de malaise, d’incompréhension, et même de colère.

Qu’est-ce que ChatGPT ? Qu’est-ce que l’IA1 ? Ce sont d’abord d’immenses infrastructures : les câbles sous-marins, les serveurs des datacenters, mais aussi nos ordinateurs et nos smartphones. Donc ce sont des terres rares et des minerais, dégueulasses à excaver et à purifier (heureusement un jour il n’y en aura plus2). Ensuite, c’est du traitement MASSIF de données. Du vrai gavage de programmes d’apprentissages par des quantités phénoménales de données. C’est donc des infrastructures (encore) et de l’énergie. Une quantité phénoménale d’énergie, très largement carbonée. Enfin, c’est beaucoup de main-d’œuvre sous-payée pour entraîner, tester, et entretenir les systèmes d’IA. ChatGPT, il ne faut pas l’oublier, ce n’est que la face émergée d’un très très gros iceberg. Très gros et très sale.

vue d'une vallée étroite et du cheminement de mineurs vers une mine de cobalt

Ce n’est pas un film. ÇA, c’est l’ambiance dans une mine de cobalt.

Image issue du documentaire d’Arte : Cobalt, l’envers du rêve électrique

Bref, développer une IA a un coût environnemental et humain énorme (et largement opaque), ce n’est pas que du code informatique tout propre. À la rigueur, si le rapport coût/bénéfice était largement positif… Par exemple, si l’IA développée permettait des économies d’énergie de 30 % dans le monde, ou qu’elle permettait de mieux gérer les flux alimentaires et donc d’endiguer la faim, alors on pourrait sérieusement discuter de moralité (est-ce acceptable de détruire la planète et d’exploiter des humains pour sauver la planète et d’autres humains ?).

Mais à quoi servent ces IA génératives ? Pour le moment, à faire joujou, principalement. À chanter les louanges de l’innovation, évidemment. À se faire peur sur l’éternelle question du dépassement de l’humain par la machine, bien sûr. Et ensuite ? Supprimer des postes dans des domaines plutôt créatifs et valorisés ? Défoncer les droits d’auteur en pillant leur travail via des données amassées sans régulation ? Gagner un peu de temps en rédigeant ses mails et ses documents ? Transformer encore un peu plus les moteurs de recherche en moteurs de réponses (avec tous les risques que ça comporte) ? Est-ce bien sérieux ? Est-ce bien acceptable ?

copie d'écran d'un site "cadremploi", avec ce texte "comment s'aider de chatgpt pour rédiger sa lettre de motivation - ChatGPT est une intelligence artificielle capable de rédiger des contenus à votre place.
C’est ça, le principal défi du siècle que les technologies doivent nous aider à relever ???

Tout ça me laisse interrogateur, et même, en pleine urgence environnementale et sociale, ça me révolte. À un moment, on ne peut pas continuer d’alerter sur l’impact environnemental réel et croissant du numérique, et s’enthousiasmer pour des produits comme ChatGPT et consorts. Or souvent, ce sont les mêmes qui le font ! Ce qui me révolte, c’est que toute cette exploitation humaine et naturelle3, inhérente à la construction des Intelligences Artificielles, est tellement loin de ChatGPT que nous ne la voyons pas, ou plus, et nous ne voulons pas la voir. Cela se traduit par tous les messages, enthousiastes et même volubiles, postés quotidiennement, sans mauvaise intention de la plupart de leurs auteur⋅ice⋅s.

Symboliquement, je propose de boycotter ces technologies d’IA génératives. Je ne suis heureusement pas utilisateur de Google et Microsoft, qui veulent en mettre à toutes les sauces (pour quoi faire ?). J’espère que mes éditeurs de services numériques (a priori plus éthiques) ne céderont pas un pouce de leurs valeurs à cette hype mortifère…

schéma mettant en relation par des flèches bi-directionnelles : Le numérique acceptable :Emancipateur et non aliénant /Choisi et non subi / Soutenable humainement et environnementalement
Au vu de ce qu’elles apportent, les IA génératives sont-elles vraiment soutenables humainement et environnementalement ? Je ne le crois pas.

Pour poursuivre sa lecture et ses réflexions




Google et son robot pipoteur(*), selon Doctorow

Source de commentaires alarmants ou sarcastiques, les robots conversationnels qui reposent sur l’apprentissage automatique ne provoquent pas seulement l’intérêt du grand public, mais font l’objet d’une course de vitesse chez les GAFAM.

Tout récemment, peut-être pour ne pas être à la traîne derrière Microsoft qui veut adjoindre un chatbot à son moteur de recherche Bing, voilà que Google annonce sa ferme résolution d’en faire autant. Dans l’article traduit pour vous par framalang, Cory Doctorow met en perspective cette décision qui lui semble absurde en rappelant les échecs de Google qui a rarement réussi à créer quoi que ce soit…

(*) Merci à Clochix dont nous adoptons dans notre titre la suggestion.

Article original : Google’s chatbot panic

Traduction Framalang : Fabrice, goofy, jums, Henri-Paul, Sysy, wisi_eu,

L’assistant conversationnel de Google en panique

par Cory Doctorow

 

Photo Jonathan Worth CC-BY-SA

 

 

Il n’y a rien d’étonnant à ce que Microsoft décide que l’avenir de la recherche en ligne ne soit plus fondé sur les liens dans une page web, mais de là à la remplacer par des longs paragraphes fleuris écrits dans un chatbot qui se trouve être souvent mensonger… — et en plus Google est d’accord avec ce concept.

Microsoft n’a rien à perdre. Il a dépensé des milliards pour Bing, un moteur de recherche que personne n’utilise volontairement. Alors, sait-on jamais, essayer quelque chose d’aussi stupide pourrait marcher. Mais pourquoi Google, qui monopolise plus de 90 % des parts des moteurs de recherche dans le monde, saute-t-il dans le même bateau que Microsoft ?

le long d'un mur de brique rouge sur lequel est suspendu un personnage ovoïde au visage très inquiet (Humpty-Dumpty le gros œuf), deux silhouettes jumelles (Tweedle-dee et Tweedle-dum les personnages de De l'autre côté du_miroir de Lewis Carroll) représentent avec leur logo sur le ventre Bing et google, chacun d'eaux a une tête qui évoque le robot Hal de 2001, à savoir une lueur rouge sur fond noir qui fait penser à un œil.

Il y a un délicieux fil à dérouler sur Mastodon, écrit par Dan Hon, qui compare les interfaces de recherche merdiques de Bing et Google à Tweedledee et Tweedledum :

https://mamot.fr/@danhon@dan.mastohon.com/109832788458972865

Devant la maison, Alice tomba sur deux étranges personnages, tous deux étaient des moteurs de recherche.
— moi, c’est Google-E, se présenta celui qui était entièrement recouvert de publicités
— et moi, c’est Bingle-Dum, fit l’autre, le plus petit des deux, et il fit la grimace comme s’il avait moins de visiteurs et moins d’occasions de mener des conversations que l’autre.
— je vous connais, répondit Alice, vous allez me soumettre une énigme ? Peut-être que l’un de vous dit la vérité et que l’autre ment ?
— Oh non, fit Bingle-Dum
— Nous mentons tous les deux, ajouta Google-E

Mais voilà le meilleur :

— Cette situation est vraiment intolérable, si vous mentez tous les deux.

— mais nous mentons de façon très convaincante, précisa Bingle-Dum

— D’accord, merci bien. Dans ce cas, comment puis-je vous faire jamais confiance ni / confiance à l’un ni/ou à l’autre ? Dans ce cas, comment puis-je faire confiance à l’un d’entre vous ?

Google-E et Bingle-Dum se tournèrent l’un vers l’autre et haussèrent les épaules.

La recherche par chatbot est une très mauvaise idée, surtout à un moment où le Web est prompt à se remplir de vastes montagnes de conneries générées via l’intelligence artificielle, comme des jacassements statiques de perroquets aléatoires :

La stratégie du chatbot de Google ne devrait pas consister à ajouter plus de délires à Internet, mais plutôt à essayer de trouver comment exclure (ou, au moins, vérifier) les absurdités des spammeurs et des escrocs du référencement.

Et pourtant, Google est à fond dans les chatbots, son PDG a ordonné à tout le monde de déployer des assistants conversationnels dans chaque recoin de l’univers Google. Pourquoi diable est-ce que l’entreprise court après Microsoft pour savoir qui sera le premier à décevoir des espérances démesurées ?

J’ai publié une théorie dans The Atlantic, sous le titre « Comment Google a épuisé toutes ses idées », dans lequel j’étudie la théorie de la compétition pour expliquer l’insécurité croissante de Google, un complexe d’anxiété qui touche l’entreprise quasiment depuis sa création:

L’idée de base : il y a 25 ans, les fondateurs de Google ont eu une idée extraordinaire — un meilleur moyen de faire des recherches. Les marchés financiers ont inondé l’entreprise en liquidités, et elle a engagé les meilleurs, les personnes les plus brillantes et les plus créatives qu’elle pouvait trouver, mais cela a créé une culture d’entreprise qui était incapable de capitaliser sur leurs idées.

Tous les produits que Google a créés en interne, à part son clone de Hotmail, sont morts. Certains de ces produits étaient bons, certains horribles, mais cela n’avait aucune importance. Google, une entreprise qui promouvait la culture du baby-foot et la fantaisie de l’usine Willy Wonka [NdT: dans Charlie et la chocolaterie, de Roald Dahl], était totalement incapable d’innover.

Toutes les réussites de Google, hormis son moteur de recherche et gmail, viennent d’une acquisition : mobile, technologie publicitaire, vidéos, infogérance de serveurs, docs, agenda, cartes, tout ce que vous voulez. L’entreprise souhaite plus que tout être une société qui « fabrique des choses », mais en réalité elle « achète des choses ». Bien sûr, ils sont très bons pour rendre ces produits opérationnels et à les faire « passer à l’échelle », mais ce sont les enjeux de n’importe quel monopole :

La dissonance cognitive d’un « génie créatif » autoproclamé, dont le véritable génie est de dépenser l’argent des autres pour acheter les produits des autres, et de s’en attribuer le mérite, pousse les gens à faire des choses vraiment stupides (comme tout utilisateur de Twitter peut en témoigner).
Google a longtemps montré cette pathologie. Au milieu des années 2000 – après que Google a chassé Yahoo en Chine et qu’il a commencé à censurer ses résultats de recherche, puis collaboré à la surveillance d’État — nous avions l’habitude de dire que le moyen d’amener Google à faire quelque chose de stupide et d’autodestructeur était d’amener Yahoo à le faire en premier lieu.

C’était toute une époque. Yahoo était désespéré et échouait, devenant un cimetière d’acquisitions prometteuses qui étaient dépecées et qu’on laissait se vider de leur sang, laissées à l’abandon sur l’Internet public, alors que les princes duellistes de la haute direction de Yahoo se donnaient des coups de poignard dans le dos comme dans un jeu de rôle genre les Médicis, pour savoir lequel saboterait le mieux l’autre. Aller en Chine fut un acte de désespoir après l’humiliation pour l’entreprise que fut le moteur de recherche largement supérieur de Google. Regarder Google copier les manœuvres idiotes de Yahoo était stupéfiant.

C’était déconcertant, à l’époque. Mais à mesure que le temps passait, Google copiait servilement d’autres rivaux et révélait ainsi une certaine pathologie d’insécurité. L’entreprise échouait de manière récurrente à créer son réseau « social », et comme Facebook prenait toujours plus de parts de marché dans la publicité, Google faisait tout pour le concurrencer. L’entreprise fit de l’intégration de Google Plus un « indictateur4 de performance » dans chaque division, et le résultat était une agrégation étrange de fonctionnalités « sociales » défaillantes dans chaque produit Google — produits sur lesquels des milliards d’utilisateurs se reposaient pour des opérations sensibles, qui devenaient tout à coup polluées avec des boutons sociaux qui n’avaient aucun sens.

La débâcle de G+ fut à peine croyable : certaines fonctionnalités et leur intégration étaient excellentes, et donc logiquement utilisées, mais elles subissaient l’ombrage des incohérences insistantes de la hiérarchie de Google pour en faire une entreprise orientée réseaux sociaux. Quand G+ est mort, il a totalement implosé, et les parties utiles de G+ sur lesquelles les gens se reposaient ont disparu avec les parties aberrantes.

Pour toutes celles et ceux qui ont vécu la tragi-comédie de G+, le virage de Google vers Bard, l’interface chatbot pour les résultats du moteur de recherche, semble tristement familier. C’est vraiment le moment « Mourir en héros ou vivre assez longtemps pour devenir un méchant ». Microsoft, le monopole qui n’a pas pu tuer la jeune pousse Google à cause de son expérience traumatisante des lois antitrust, est passé d’une entreprise qui créait et développait des produits à une entreprise d’acquisitions et d’opérations, et Google est juste derrière elle.

Pour la seule année dernière, Google a viré 12 000 personnes pour satisfaire un « investisseur activiste » privé. La même année, l’entreprise a racheté 70 milliards de dollars en actions, ce qui lui permet de dégager suffisamment de capitaux pour payer les salaires de ses 12 000 « Googleurs » pendant les 27 prochaines années. Google est une société financière avec une activité secondaire dans la publicité en ligne. C’est une nécessité : lorsque votre seul moyen de croissance passe par l’accès aux marchés financiers pour financer des acquisitions anticoncurrentielles, vous ne pouvez pas vous permettre d’énerver les dieux de l’argent, même si vous avez une structure à « double pouvoir » qui permet aux fondateurs de l’emporter au vote contre tous les autres actionnaires :

https://abc.xyz/investor/founders-letters/2004-ipo-letter/

ChatGPT et ses clones cochent toutes les cases d’une mode technologique, et sont les dignes héritiers de la dernière saison du Web3 et des pics des cryptomonnaies. Une des critiques les plus claires et les plus inspirantes des chatbots vient de l’écrivain de science-fiction Ted Chiang, dont la critique déjà culte est intitulée « ChatGPT est un une image JPEG floue du Web » :

https://www.newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg-of-the-web

Chiang souligne une différence essentielle entre les résultats de ChatGPT et ceux des humains : le premier jet d’un auteur humain est souvent une idée originale, mal exprimée, alors que le mieux que ChatGPT puisse espérer est une idée non originale, exprimée avec compétence. ChatGPT est parfaitement positionné pour améliorer la soupe de référencement que des légions de travailleurs mal payés produisent dans le but de grimper dans les résultats de recherche de Google.

En mentionnant l’article de Chiang dans l’épisode du podcast « This Machine Kills », Jathan Sadowski perce de manière experte la bulle de la hype ChatGPT4, qui soutient que la prochaine version du chatbot sera si étonnante que toute critique de la technologie actuelle en deviendra obsolète.

Sadowski note que les ingénieurs d’OpenAI font tout leur possible pour s’assurer que la prochaine version ne sera pas entraînée sur les résultats de ChatGPT3. Cela en dit long : si un grand modèle de langage peut produire du matériel aussi bon qu’un texte produit par un humain, alors pourquoi les résultats issus de ChatGPT3 ne peuvent-ils pas être utilisés pour créer ChatGPT4 ?

Sadowski utilise une expression géniale pour décrire le problème :  « une IA des Habsbourg ». De même que la consanguinité royale a produit une génération de prétendus surhommes incapables de se reproduire, l’alimentation d’un nouveau modèle par le flux de sortie du modèle précédent produira une spirale infernale toujours pire d’absurdités qui finira par disparaître dans son propre trou du cul.

 

Crédit image (modifiée) : Cryteria, CC BY 3.0




Démystifier les conneries sur l’IA – Une interview

Cet article a été publié à l’origine par THE MARKUP, il a été traduit et republié selon les termes de la licence Creative Commons Attribution-NonCommercial-NoDerivatives
Publication originale sur le site themarkup.org

Démystifier le buzz autour de l’IA

Un entretien avec Arvind Narayanan

par JULIA ANGWIN
Si vous avez parcouru tout le battage médiatique sur ChatGPT le dernier robot conversationnel qui repose sur l’intelligence artificielle, vous pouvez avoir quelque raison de croire que la fin du monde est proche.

Le chat « intelligent » de l’IA a enflammé l’imagination du public pour sa capacité à générer instantanément des poèmes, des essais, sa capacité à imiter divers styles d’écrits, et à réussir à des examens d’écoles de droit et de commerce.

Les enseignants s’inquiètent de la tricherie possible de leurs étudiants (des écoles publiques de New York City l’ont déjà interdit). Les rédacteurs se demandent si cela ne va pas faire disparaître leur travail (BuzzFeed et CNET ont déjà utilisé l’IA pour créer des contenus). Le journal The Atlantic a déclaré que cela pourrait « déstabiliser les professions de cadres supérieurs ». L’investisseur en capital-risque Paul Kedrosky l’a qualifié de « bombe nucléaire de poche » et blâmé ses concepteurs pour l’avoir lancé dans une société qui n’y est pas prête.

Même le PDG de l’entreprise qui a lancé ChatGPT, Sam Altman, a déclaré aux médias que le pire scénario pour l’IA pourrait signifier « notre extinction finale ».

Cependant pour d’autres ce buzz est démesuré. Le principal scientifique chargé de l’IA chez Meta’s AI, Yann LeCun, a déclaré à des journalistes que ChatGPT n’a « rien de révolutionnaire ». Le professeur de langage informatique de l’université de Washington Emily Bender précise que « la croyance en un programme informatique omniscient vient de la science-fiction et devrait y rester ».

Alors, jusqu’à quel point devrions-nous nous inquiéter ? Pour recueillir un avis autorisé, je me suis adressée au professeur d’informatique de Princeton Arvind Narayanan, qui est en train de co-rédiger un livre sur « Le charlatanisme de l’IA ». En 2019, Narayanan a fait une conférence au MIT intitulée « Comment identifier le charlatanisme del’IA » qui exposait une classification des IA en fonction de leur validité ou non. À sa grande surprise, son obscure conférence universitaire est devenue virale, et ses diapos ont été téléchargées plusieurs dizaines de milliers de fois ; ses messages sur twitter qui ont suivi ont reçu plus de deux millions de vues.

Narayanan s’est alors associé à l’un de ses étudiants, Sayash Kapoor, pour développer dans un livre la classification des IA. L’année dernière, leur duo a publié une liste de 18 pièges courants dans lesquels tombent régulièrement les journalistes qui couvrent le sujet des IA. Presque en haut de la liste : « illustrer des articles sur l’IA avec de chouettes images de robots ». La raison : donner une image anthropomorphique des IA implique de façon fallacieuse qu’elles ont le potentiel d’agir dans le monde réel.

Narayanan est également le co-auteur d’un manuel sur l’équité et l’apprentissage machine et dirige le projet Web Transparency and Accountability de l’université de Princeton pour contrôler comment les entreprises collectent et utilisent les informations personnelles. Il a reçu de la Maison-Blanche le Presidential Early Career Award for Scientists and Engineers [N. de T. : une distinction honorifique pour les scientifiques et ingénieurs qui entament brillamment leur carrière].

Voici notre échange, édité par souci de clarté et brièveté.

Angwin : vous avez qualifié ChatGPT de « générateur de conneries ». Pouvez-vous expliquer ce que vous voulez dire ?

Narayanan : Sayash Kapoor et moi-même l’appelons générateur de conneries et nous ne sommes pas les seuls à le qualifier ainsi. Pas au sens strict mais dans un sens précis. Ce que nous voulons dire, c’est qu’il est entraîné pour produire du texte vraisemblable. Il est très bon pour être persuasif, mais n’est pas entraîné pour produire des énoncés vrais ; s’il génère souvent des énoncés vrais, c’est un effet collatéral du fait qu’il doit être plausible et persuasif, mais ce n’est pas son but.

Cela rejoint vraiment ce que le philosophe Harry Frankfurt a appelé du bullshit, c’est-à-dire du langage qui a pour objet de persuader sans égards pour le critère de vérité. Ceux qui débitent du bullshit se moquent de savoir si ce qu’ils disent est vrai ; ils ont en tête certains objectifs. Tant qu’ils persuadent, ces objectifs sont atteints. Et en effet, c’est ce que fait ChatGPT. Il tente de persuader, et n’a aucun moyen de savoir à coup sûr si ses énoncés sont vrais ou non.

Angwin : Qu’est-ce qui vous inquiète le plus avec ChatGPT ?

Narayanan : il existe des cas très clairs et dangereux de mésinformation dont nous devons nous inquiéter. Par exemple si des personnes l’utilisent comme outil d’apprentissage et accidentellement apprennent des informations erronées, ou si des étudiants rédigent des essais en utilisant ChatGPT quand ils ont un devoir maison à faire. J’ai appris récemment que le CNET a depuis plusieurs mois maintenant utilisé des outils d’IA générative pour écrire des articles. Même s’ils prétendent que des éditeurs humains ont vérifié rigoureusement les affirmations de ces textes, il est apparu que ce n’était pas le cas. Le CNET a publié des articles écrits par une IA sans en informer correctement, c’est le cas pour 75 articles, et plusieurs d’entre eux se sont avérés contenir des erreurs qu’un rédacteur humain n’aurait très probablement jamais commises. Ce n’était pas dans une mauvaise intention, mais c’est le genre de danger dont nous devons nous préoccuper davantage quand des personnes se tournent vers l’IA en raison des contraintes pratiques qu’elles affrontent. Ajoutez à cela le fait que l’outil ne dispose pas d’une notion claire de la vérité, et vous avez la recette du désastre.

Angwin : Vous avez développé une classification des l’IA dans laquelle vous décrivez différents types de technologies qui répondent au terme générique de « IA ». Pouvez-vous nous dire où se situe ChatGPT dans cette taxonomie ?

Narayanan : ChatGPT appartient à la catégorie des IA génératives. Au plan technologique, elle est assez comparable aux modèles de conversion de texte en image, comme DALL-E [qui crée des images en fonction des instructions textuelles d’un utilisateur]. Ils sont liés aux IA utilisées pour les tâches de perception. Ce type d’IA utilise ce que l’on appelle des modèles d’apprentissage profond. Il y a environ dix ans, les technologies d’identification par ordinateur ont commencé à devenir performantes pour distinguer un chat d’un chien, ce que les humains peuvent faire très facilement.

Ce qui a changé au cours des cinq dernières années, c’est que, grâce à une nouvelle technologie qu’on appelle des transformateurs et à d’autres technologies associées, les ordinateurs sont devenus capables d’inverser la tâche de perception qui consiste à distinguer un chat ou un chien. Cela signifie qu’à partir d’un texte, ils peuvent générer une image crédible d’un chat ou d’un chien, ou même des choses fantaisistes comme un astronaute à cheval. La même chose se produit avec le texte : non seulement ces modèles prennent un fragment de texte et le classent, mais, en fonction d’une demande, ces modèles peuvent essentiellement effectuer une classification à l’envers et produire le texte plausible qui pourrait correspondre à la catégorie donnée.

Angwin : une autre catégorie d’IA dont vous parlez est celle qui prétend établir des jugements automatiques. Pouvez-vous nous dire ce que ça implique ?

Narayanan : je pense que le meilleur exemple d’automatisation du jugement est celui de la modération des contenus sur les médias sociaux. Elle est nettement imparfaite ; il y a eu énormément d’échecs notables de la modération des contenus, dont beaucoup ont eu des conséquences mortelles. Les médias sociaux ont été utilisés pour inciter à la violence, voire à la violence génocidaire dans de nombreuses régions du monde, notamment au Myanmar, au Sri Lanka et en Éthiopie. Il s’agissait dans tous les cas d’échecs de la modération des contenus, y compris de la modération du contenu par l’IA.

Toutefois les choses s’améliorent. Il est possible, du moins jusqu’à un certain point, de s’emparer du travail des modérateurs de contenus humains et d’entraîner des modèles à repérer dans une image de la nudité ou du discours de haine. Il existera toujours des limitations intrinsèques, mais la modération de contenu est un boulot horrible. C’est un travail traumatisant où l’on doit regarder en continu des images atroces, de décapitations ou autres horreurs. Si l’IA peut réduire la part du travail humain, c’est une bonne chose.

Je pense que certains aspects du processus de modération des contenus ne devraient pas être automatisés. Définir où passe la frontière entre ce qui est acceptable et ce qui est inacceptable est chronophage. C’est très compliqué. Ça demande d’impliquer la société civile. C’est constamment mouvant et propre à chaque culture. Et il faut le faire pour tous les types possibles de discours. C’est à cause de tout cela que l’IA n’a pas de rôle à y jouer.

Angwin : vous décrivez une autre catégorie d’IA qui vise à prédire les événements sociaux. Vous êtes sceptique sur les capacités de ce genre d’IA. Pourquoi ?

Narayanan : c’est le genre d’IA avec laquelle les décisionnaires prédisent ce que pourraient faire certaines personnes à l’avenir, et qu’ils utilisent pour prendre des décisions les concernant, le plus souvent pour exclure certaines possibilités. On l’utilise pour la sélection à l’embauche, c’est aussi célèbre pour le pronostic de risque de délinquance. C’est aussi utilisé dans des contextes où l’intention est d’aider des personnes. Par exemple, quelqu’un risque de décrocher de ses études ; intervenons pour suggérer un changement de filière.

Ce que toutes ces pratiques ont en commun, ce sont des prédictions statistiques basées sur des schémas et des corrélations grossières entre les données concernant ce que des personnes pourraient faire. Ces prédictions sont ensuite utilisées dans une certaine mesure pour prendre des décisions à leur sujet et, dans de nombreux cas, leur interdire certaines possibilités, limiter leur autonomie et leur ôter la possibilité de faire leurs preuves et de montrer qu’elles ne sont pas définies par des modèles statistiques. Il existe de nombreuses raisons fondamentales pour lesquelles nous pourrions considérer la plupart de ces applications de l’IA comme illégitimes et moralement inadmissibles.

Lorsqu’on intervient sur la base d’une prédiction, on doit se demander : « Est-ce la meilleure décision que nous puissions prendre ? Ou bien la meilleure décision ne serait-elle pas celle qui ne correspond pas du tout à une prédiction ? » Par exemple, dans le scénario de prédiction du risque de délinquance, la décision que nous prenons sur la base des prédictions est de refuser la mise en liberté sous caution ou la libération conditionnelle, mais si nous sortons du cadre prédictif, nous pourrions nous demander : « Quelle est la meilleure façon de réhabiliter cette personne au sein de la société et de diminuer les risques qu’elle ne commette un autre délit ? » Ce qui ouvre la possibilité d’un ensemble beaucoup plus large d’interventions.

Angwin : certains s’alarment en prétendant que ChatGPT conduit à “l’apocalypse,” pourrait supprimer des emplois et entraîner une dévalorisation des connaissances. Qu’en pensez-vous ?

Narayanan : Admettons que certaines des prédictions les plus folles concernant ChatGPT se réalisent et qu’il permette d’automatiser des secteurs entiers de l’emploi. Par analogie, pensez aux développements informatiques les plus importants de ces dernières décennies, comme l’internet et les smartphones. Ils ont remodelé des industries entières, mais nous avons appris à vivre avec. Certains emplois sont devenus plus efficaces. Certains emplois ont été automatisés, ce qui a permis aux gens de se recycler ou de changer de carrière. Il y a des effets douloureux de ces technologies, mais nous apprenons à les réguler.

Même pour quelque chose d’aussi impactant que l’internet, les moteurs de recherche ou les smartphones, on a pu trouver une adaptation, en maximisant les bénéfices et minimisant les risques, plutôt qu’une révolution. Je ne pense pas que les grands modèles de langage soient même à la hauteur. Il peut y avoir de soudains changements massifs, des avantages et des risques dans de nombreux secteurs industriels, mais je ne vois pas de scénario catastrophe dans lequel le ciel nous tomberait sur la tête.

Comme toujours, merci de votre attention.

À bientôt,
Julia Angwin
The Markup

On peut s’abonner ici à la lettre hebdomadaire (en anglais) du magazine The Markup, envoyée le samedi.