Temps de lecture 21 min
Framasoft vous propose d’essayer le prototype de Lokas, une nouvelle application de transcription « speech to text » qui respecte votre vie privée. Cette démo fonctionnelle est aussi une expérimentation de Framasoft dans le domaine de l’IA, accompagnée du site Framamia, que l’on présente ici.
🎈 Framasoft a 20 ans🎈 : Contribuez pour financer une 21e année !
Grâce à vos dons (défiscalisables à 66 %), l’association Framasoft agit depuis 20 ans pour faire avancer le Web éthique et convivial. Retrouvez un focus sur certaines de nos actions en 2024 sur le site Soutenir Framasoft.
➡️ Lire la série d’articles de cette campagne (nov. – déc. 2024)
Veuillez noter que cet article est aussi disponible en anglais.
Facilitez vos prises de notes avec Lokas
Lokas est une application (sur smartphone Android ou iOS) qui permet de transcrire le son de voix en fichier texte.
En gros, pour une réunion : vous mettez le téléphone au centre de la table, vous appuyez sur le bouton « Enregistrer » en début de réunion, sur « Arrêter » en fin de réunion, et l’application vous renvoie quelques minutes après un fichier texte reprenant les phrases prononcées par chacun et chacune.
Lokas permet et surtout permettra pas mal d’autres choses, mais nous y reviendrons en fin d’annonce.
Lokas, c’est pour qui ?
Lokas s’adresse à toute personne qui participe à des réunions. Autant dire un paquet de personnes sur la planète :)
Nous pouvons cependant partager quelques cas d’usages.
Premier exemple : une AG associative
Imaginons une Assemblée Générale associative. Il y a 15 personnes dans la pièce, 2 animateur⋅ices, 1 personne à la prise de notes. Et une réunion de 2H.
Les soucis :
- La prise de notes est épuisante
- La personne qui prend les notes voit sa participation limitée
- Les notes peuvent être incomplètes (un « trou » dû à une pause pipi)
Ce qu’apporte Lokas ?
Lokas permet d’assister la personne qui prend les notes, et lui permettra de participer plus facilement (tout en autorisant la pause pipi !).
Second exemple : un atelier avec des ados
Un atelier de l’association « Les petits débrouillards ». 3 groupes de 5 adolescent⋅es. Une majorité de filles dans les groupes.
Les soucis :
- La prise de notes peut être très compliquée
- Les garçons monopolisent la parole
Ce qu’apporte Lokas ?
Lokas permet de garder trace (sonore et écrite) de ce qu’il s’est dit. Et permet d’établir des statistiques de temps de paroles, notamment par genre, afin d’objectiver le fait que les garçons ne laissent que peu de temps de paroles aux filles.
Troisième exemple : une réunion de travail en visio, en langue étrangère
Votre collectif militant est proche d’une association espagnole. C’est Camille, une bénévole de votre collectif, qui parle à peu près l’espagnol, qui fera la visio avec son interlocutrice madrilène. La visio a donc lieu dans une langue étrangère.
Les soucis :
- Vous avez besoin de pouvoir réécouter à tête reposée
- Vous avez besoin d’une transcription en français et de la partager aux membres du C.A.
Ce qu’apporte Lokas ?
Avec Lokas, Camille pourra réécouter la visio, la transcrire automatiquement en français, et la partager depuis votre smartphone (par mail, via Signal, Matrix, WhatsApp, Telegram, etc).
L’IA n’est pas magique ✨. Lokas non plus 🤷.
Lokas n’est qu’un outil. Il peut vous assister dans la prise de notes. Cependant, comme tout outil, il ne doit pas vous dispenser d’utiliser votre cerveau !
L’invention de l’écriture (une autre technologie, très perfectionnée) date d’au moins 3 000 ans. Cela fait donc au moins aussi longtemps que l’humanité est capable de se réunir et de garder des traces écrites. Sans IA. Sans smartphone. Ne jetez pas plusieurs millénaires de techniques avec l’eau de l’IA. Un outil comme Lokas pourra être utile dans certains cas, et complètement gadget, voire improductif, dans d’autres cas. Cela n’est pas sans rappeler le concept de Pharmakon, cher au philosophe Bernard Stiegler : Lokas, comme tout objet technique, est à la fois poison, remède, et bouc-émissaire.
Par exemple le web est « à la fois un dispositif technologique associé permettant la participation et un système industriel dépossédant les internautes de leurs données pour les soumettre à un marketing omniprésent et individuellement tracé et ciblé par les technologies du user profiling. ». Remède et poison.
De la même façon, Lokas pourra être émancipateur (en facilitant la participation plutôt que la prise de notes), ou au contraire contraignant (les réunions un peu foutraques dans un bar bruyant ont aussi leur intérêt, il ne faudrait pas s’en passer parce que l’outil fonctionne mieux dans un environnement calme), ou frustrant (« l’application a planté, je n’ai aucune note de secours ! La technologie, c’est de la mârde ! »).
Lokas, comme une voiture, un marteau, un stylo, n’est pas un outil « neutre ». À vous de voir, collectivement, si vous souhaitez l’utiliser, et comment.
« C’est l’histoire d’une app… »
Il nous semble intéressant de pouvoir vous raconter comment est née l’application Lokas. C’est lever un coin de rideau sur les coulisses de Framasoft, comprendre comment nous pouvons prendre la décision de faire (ou de ne pas faire) tel ou tel projet. C’est aussi montrer que parfois, avec un peu de chance et d’huile de coude clavier, on peut faire des choses qui pourraient paraître impossibles. Cependant, comme cette partie n’est pas indispensable, on vous laisse le choix d’en prendre connaissance ou pas.
Cliquez ici pour lire (l’improbable et fabuleuse) histoire de Lokas
Cela fait bien trois ou quatre ans que l’idée de Lokas traîne dans la tête de pyg, membre de Framasoft.
L’idée de départ (nom de code : « Brewawa »), c’était surtout d’imaginer une application qui serait capable de calculer le temps de parole de locuteur⋅ices dans une réunion. Le but (pas du tout caché) était de démontrer facilement que lors d’une discussion avec des personnes de genres différents, ce sont de façon très très majoritairement les hommes qui monopolisent la conversation.
Différents essais ont été réalisés ces dernières années (coucou Gee, coucou bjnbvr !) pour étudier la faisabilité d’une telle application. Mais le fait est qu’en 2020, même si les possibilités techniques étaient présentes, elles n’étaient pas vraiment accessibles pour notre toute petite association, surtout sur un projet parallèle à tous ceux que Framasoft menait déjà.
« C’est l’histoire d’améliorations techniques… »
Cependant, avec le développement de logiciels tels que Vosk ou Whisper, les capacités de transcription audio (c’est-à-dire la capacité à transformer le son de phrases en texte) se sont largement améliorées.
À tel point qu’aujourd’hui, ces technologies sont utilisées par énormément de logiciels (de YouTube à PeerTube, en passant par BigBlueButton ou WhatsApp), et souvent même directement intégrée dans des appareils (Samsung en fait clairement un argument de vente).
Par ailleurs cette dernière décennie a aussi vu s’améliorer les processus de « diarisation ». Ce terme un peu barbare est en fait la technique qui permet d’identifier différent⋅es locuteur⋅ices dans une discussion. Par exemple, si Alex, Camille et Fred font une réunion, la diarisation saura attribuer à chacun⋅e les phrases qu’il ou elle aura prononcées (non, le logiciel ne va pas deviner le prénom de la personne, mais il saura – à peu près – identifier qu’il y avait trois participant⋅es, et dire « Cette phrase a été prononcée par la personne #1. Cette phrase a été prononcée par la personne #2. », etc.
C’est évidemment une phase essentielle pour pouvoir comprendre « qui a dit quoi » dans une réunion.
Ce processus est encore imparfait, mais s’améliore de mois en mois. Il faut donc se projeter en 2026 ou 2027 pour imaginer une diarisation vraiment fiable, mais elle est aujourd’hui « suffisante » dans 60 à 80 % des usages en « bonnes conditions ».
« C’est l’histoire d’un alignement de planètes… »
Il se trouve qu’au sein de Framasoft, les compétences nécessaires pour le développement d’une telle application étaient réunies.
Chocobozzz, le développeur de PeerTube, avait déjà beaucoup travaillé sur le processus d’intégration de Whisper à PeerTube, afin de pouvoir générer automatiquement les sous-titres d’une vidéo. Il connait donc bien Whisper, ses options de configuration, ses performances, etc.
Wicklow, le développeur de l’application PeerTube, travaille depuis plusieurs mois avec le langage Dart et le SDK Flutter qui permet de développer en une seule base de code une application pour différents terminaux (Android, iPhone, ordinateur/tablette, web, etc).
Luc, notre administrateur système préféré (c’est pas compliqué, remarquez, nous n’en avons qu’un 😅) gère l’intégralité de l’infrastructure technique de Framasoft (une soixantaine de serveurs informatiques physiques). Donc, mettre en place la machine qui gère les transcriptions, l’installer, la sécuriser, etc, était pour lui un jeu d’enfant.
pyg, anciennement directeur de Framasoft, aujourd’hui coordinateur des services numériques de l’association, a géré d’innombrables projets pour Framasoft ces 20 dernières années. Alors, un de plus, même en pleine campagne, ça n’allait pas l’arrêter.
Entre cet ensemble de compétences, et les capacités techniques des logiciels de transcriptions et diarisation, les planètes étaient donc alignées pour lancer un tel projet.
« C’est une histoire de chance… »
Cependant, comme souvent, il faut un peu compter aussi sur le hasard ou la chance.
En effet, pyg avait un peu laissé tomber l’idée de cette application, tout simplement par ignorance des avancées techniques en termes de diarisation.
C’est en évoquant l’idée de cette application lors du dernier Framacamp, en juillet 2024, que Wicklow a lâché une info au détour de la conversation : « Ah, mais tu sais, Whisper fait maintenant une diarisation correcte. »
BIM 💣
« Ah, super intéressant ! Mais j’imagine qu’il faudrait longtemps pour développer une telle application de transcription libre ? » lui demanda pyg.
« Oh, je dirais qu’en 3 jours, je peux avoir un prototype fonctionnel si Chocobozzz se charge de la partie serveur. »
BOUM 💥
Autant vous dire qu’au lieu de profiter de sa soirée à jouer au poker, pyg a filé dans sa chambre, préparé une présentation d’une douzaine de diapositives sur un potentiel projet d’application, qu’il a présenté à l’association le lendemain matin.
Certain⋅es membres étaient enthousiastes, d’autres moins. Et on les comprend : d’une part, c’était encore ajouter du travail à une association déjà particulièrement chargée et épuisée ; d’autre part, c’était un projet utilisant un logiciel issu de l’intelligence artificielle, une technologie sur laquelle nous sommes (unanimement) très critiques.
Cependant, cette application, qui allait devenir Lokas, nous semblait un bon moyen « d’incarner » l’objet social de Framasoft : faire de l’éducation populaire aux enjeux du numérique et des communs culturels.
Cela nous permettait en effet de sortir de l’aspect discours pédagogique, à la fois indispensable, mais insuffisant en termes d’appropriation et d’autodétermination. En créant un « objet numérique manipulable », nous pouvions faire de Lokas une occasion complémentaire de faire comprendre ce qu’est l’IA, ses possibilités, mais aussi ses faiblesses. Et revenir, donc, à notre « Pharmakon » évoqué plus haut.
Par ailleurs, en plus de pouvoir assister tout collectif faisant des réunions, cela nous permettait de mettre en œuvre, concrètement, une application portant nos valeurs : un outil convivial, n’exploitant pas les données des utilisateur⋅ices, sous licence libre, s’adressant avant tout aux personnes qui changent le monde pour plus de progrès social et de justice sociale.
Au final, la majorité des membres présent⋅es s’est exprimée : « Banco la caravane ! On se lance ! ».
« C’est (aussi) une histoire de contraintes »
Comme évoqué plus haut, les contraintes étaient fortes.
Un projet, ça coûte forcément en temps et en argent. Du temps et de l’argent qui ne pourront pas être utilisés ailleurs.
Or, il ne vous a pas échappé que Framasoft vit des dons. Il faut donc faire des campagnes de dons. Et la fin de l’année était déjà particulièrement chargée par la finalisation de différents projets et leurs annonces
En discutant avec Thomas et Pouhiou, codirecteurs de l’association, il a donc été décidé que Lokas devrait rester un projet sous contraintes fortes : coûter moins de 10 000€ tout compris ; ne pas impacter fortement les missions de Chocobozzz, pyg, ou Wicklow ; être réalisé (à « temps perdu », donc) entre mi-septembre et mi-novembre (notamment à cause des délais de validation des stores Android et iOS, que nous ne maîtrisons pas).
Avec de telles contraintes, impossible pour nous de réaliser un produit bien finalisé. Nous avons donc décidé de viser plutôt la mise à disposition d’un prototype. Voyez ce prototype comme un appartement témoin. Nous avons produit cette version non pas en nous focalisant sur un projet de long terme, avec des fondations solides, mais plutôt comme une « preuve de concept », développée rapidement, pour voir si le concept est suffisamment attirant et intéressant pour qu’en 2025 nous priorisions le développement de cette application (si les dons sont suffisants, donc !).
Afin de vous donner suffisamment « envie » de voir un jour une version 1.0 de Lokas arriver, nous avons fait appel aux compétences de l’Atelier Domino pour la création d’un logotype et d’une charte graphique. Ce qui nous a guidés pour réalisé en interne le site web du projet : lokas.app
En parallèle, Wicklow et Chocobozzz se sont attaqués au développement du prototype, ainsi qu’à la partie serveur de transcription.
« C’est une histoire qui ne demande qu’à être écrite… »
Une quinzaine de jours de travail plus tard (et un coût estimé à 7 500€ tout compris, avec en gros moitié de temps de travail Framasoft, et moitié prestations : Atelier Domino, location du serveur, des noms de domaines, validation des stores), nous pouvons présenter, avec fierté et un peu d’anxiété, notre prototype !
Lokas, comment ça marche ?
1. Se mettre dans les bonnes conditions
Lokas, comme tous les outils de transcription, d’ailleurs, est imparfait. Des bruits extérieurs, une mauvaise articulation, une voix fluette en fond de salle, des personnes qui se coupent la parole… Autant de raisons qui peuvent nuire à la transcription.
En conséquence, prévoyez de vous mettre au calme, de placer le téléphone au centre de la table (meilleure est la qualité sonore, meilleure est la transcription), n’ayez pas plusieurs discussions en même temps, et… prenez des notes « à l’ancienne » à côté (papier+crayon, ordinateur+pad, etc) en cas de souci.
Une fois cela fait, le fonctionnement est très simple.
2. Lancer l’enregistrement
Cliquez simplement sur le bouton « Enregistrement ». Placez le téléphone de façon à ce qu’il puisse capter au mieux les échanges. Et commencez votre réunion.
Afin de limiter les abus, les enregistrements sont limités à 5 par jour et par appareil.
Notez que le modèle de langue géré par Lokas permet de l’utiliser d’ores et déjà dans une cinquantaine de langues, notamment : Néerlandais, espagnol, coréen, italien, allemand, thaïlandais, russe, portugais, polonais, indonésien, mandarin, suédois, tchèque, anglais, japonais et bien entendu français ! D’autres langues sont supportées, mais la reconnaissance sera moins performante.
À la fin de la réunion, cliquez sur « Finaliser ».
3. Envoyez votre fichier pour transcription (et patientez)
Vous pourrez éventuellement réécouter votre fichier avant de cliquer sur « Envoyer ».
Votre fichier est alors envoyé sur notre serveur où il sera placé dans la file d’attente pour sa transcription.
Cette étape pourra prendre de quelques minutes à quelques heures, suivant le nombre de fichiers en attente.
Vous pourrez vérifier manuellement si votre fichier a bien été transcrit, ou attendre tranquillement la notification (dont la tâche de vérification est exécutée toutes les 15mn)
Une fois la transcription reçue
Une fois la transcription reçue, vous pourrez l’afficher dans Lokas.
Vous pourrez évidemment la partager (avec l’application de votre choix : mail, Signal, WhatsApp, etc) pour la corriger.
Vous pourrez aussi voir les statistiques de temps de parole (NB : cette fonctionnalité est relativement expérimentale). Si vous le souhaitez, pour une meilleure lecture des notes, vous pouvez attribuer un prénom (ou pseudo) aux participant⋅es. Pour obtenir des temps de parole par genre, vous pouvez aussi les attribuer manuellement, en vous assurant évidemment du consentement des personnes concernées à communiquer cette information. Notez que ces informations sont volontairement manuelles, et ne quittent pas votre téléphone, et ne sont donc pas transmises à Framasoft ou qui que ce soit.
Point confidentialité : l’une des particularités de Lokas est que nous respectons votre vie privée : le fichier audio est enregistré sur votre téléphone. Il est envoyé, à votre demande, sur nos serveurs, qui se chargeront alors de sa transcription. Une fois la transcription terminée, une notification est envoyée sur votre téléphone ; lorsque vous ouvrez (dans « Mes fichiers ») la réunion en question, la transcription est alors téléchargée sur votre téléphone. Une fois cette étape réalisée, et après un léger délai pour s’assurer que tout s’est bien passé techniquement, tout est supprimé de notre serveur : le fichier audio ainsi que la transcription. Par ailleurs, si vous attribuez des noms, pseudos ou genres, pour les statistiques, sachez que ces informations ne font l’objet d’aucun traitement de notre côté.
Et l’IA dans tout ça ?
À Framasoft, nous ne sommes pas fans du tout de l’IA. Nous pensons que cette technologie (ou plutôt cet ensemble de technologies), pose plus de problèmes qu’elle n’apporte de solutions. Nous avons d’ailleurs essayé de présenter une synthèse de notre position sur l’I.A. au sein du site Framamia, que nous présentons ici sur le Framablog.
Alors, n’est-ce pas contradictoire d’utiliser l’IA au sein d’applications Framasoft, comme Lokas ou PeerTube ?
À notre sens, non. Et ce pour plusieurs raisons.
D’abord, comme nous l’écrivions dans le site Framamia, tous les modèles d’intelligence artificielle ne se valent pas. Whisper, le logiciel qui sert à la transcription, est une IA « spécialisée », et non une IA « généraliste » comme ChatGPT par exemple.
« Les modèles spécialisés, quant à eux sont optimisés pour résoudre efficacement une tâche précise. Leur impact est souvent maîtrisé, et peut correspondre à celui d’un autre logiciel. ».
Framasoft, sur le site Framamia.org
Whisper est certes une IA, mais qui tourne « en vase clos » sur nos serveurs.
Les algorithmes utilisés sont plus complexes qu’un filtre « Enlève les yeux rouges de cette photo » avec GIMP ou Photoshop, mais cela reste un modèle relativement simple (avec un processus d’entrées/sorties) infiniment moins énergivore qu’un modèle d’entraînement. En effet, l’inférence (le processus d’utiliser le modèle pour effectuer une tâche) consomme bien moins d’énergie que l’entraînement. Par exemple, exécuter Whisper pour transcrire un fichier audio de quelques minutes nécessite une puissance de calcul relativement modeste.
Ensuite, un projet comme Lokas ne nécessite pas d’acheter 350 000 puces GPU pour 9 milliards de dollars, comme l’a fait récemment Meta/Facebook, ce qui représente en gros le PIB du Togo en 2023. Nous ne pensons pas participer à la croissance de la bulle financière autour de l’IA, ou à faire faire s’emballer le capitalisme algorithmique.
Enfin (et surtout), avec Lokas ou PeerTube, nous demeurons cohérent⋅es avec une des valeurs au cœur de Framasoft, à savoir le respect de la confidentialité de vos données. En effet, nous ne faisons aucune exploitation de vos fichiers, en dehors de la tâche explicitement demandée, par exemple la transcription. Elles ne servent pas à enrichir un modèle d’IA à partir de vos discussions, de votre identité, etc. Nous ne conservons pas les fichiers audio ou texte, nous n’avons pas accès aux noms/prénoms/genres que vous attribuez manuellement aux participant⋅es d’une discussion (ça reste sur votre téléphone), etc. Et, évidemment, vos données ne sont JAMAIS monétisées.
Bref, Framasoft se fiche du contenu de vos données, elles vous appartiennent et ne regardent que vous.
Malgré cela, nous respectons le point de vue des personnes qui souhaitent boycotter l’IA, et nous entendons la contradiction qu’iels pourraient trouver à ce qu’une asso technocritique comme Framasoft propose des projets utilisant l’I.A.
Notre objectif est justement de proposer un outil qui permette d’avoir une réflexion concrète, afin de se forger un avis autonome, permettant à chacun et chacune de se construire sa propre position.
Lokas c’est pour quand ?
Vous pouvez d’ores et déjà télécharger l’application Lokas sur le Play Store, iOS (toujours en testflight chez Apple, parce qu’ils sont 🤬… disons tatillons), f-droid (en cours), ou avoir l’apk Android en téléchargement direct ici. Notez cependant que Lokas est un prototype (si ce n’est pas déjà fait, prenez deux minutes pour lire « L’histoire de Lokas » et comprendre pourquoi), et il est donc normal que plein plein plein de choses ne fonctionnent pas !
Nous avons déjà pris du temps, de l’énergie, et un peu d’argent sur des ressources pourtant limitées (on vous a déjà dit qu’on ne vivait que de vos dons ? ;-) ). De plus, comme toujours, le code est libre, nous l’avons publié ici sur notre forge logicielle.
Avant d’aller plus loin, nous avons donc besoin de confirmer que ce projet vous intéresse. Si les dons ne sont pas assez importants, ou si les contradictions sont trop fortes : nous nous arrêterons là. (le code est libre, donc ça ne sera pas « perdu »).
Si, par contre, vous trouvez ça pertinent, les possibilités de développements futurs sont innombrables. Citons par exemple :
- Reprendre complètement le design et l’accessibilité (en mode prototypage, nous sommes allé⋅es très vite, et Lokas est donc très perfectible) ;
- Possibilité de (re)transcrire le fichier de son choix (par exemple issu d’une vidéo ou d’une autre application) ;
- Ajouter un mode « web » à l’application. C’est à dire la possibilité d’utiliser Lokas depuis son ordinateur (sur le modèle de ce que fait le serveur Scribe de nos ami⋅es des Céméa) ;
- Ajouter la possibilité de synthèses automatiques des transcriptions, pour retrouver rapidement les points clés ;
- Traduire l’application (et le site web) dans d’autres langues que le français et l’anglais ;
- Possibilité d’éditer et corriger la transcription directement depuis votre téléphone ;
- Donner la possibilité d’obtenir la transcription dans la langue de son choix (par exemple une réunion en anglais, transcrite en français, ou l’inverse) ;
- etc
Mais pour cela, il va nous falloir du temps salarié, et donc de l’argent. Donc, au risque de paraître insistant, nous vous invitons, si vous le pouvez, à nous faire un don.
Faire une don pour soutenir Lokas
Le défi : 20 000 fois 20 € de dons pour les 20 ans de Framasoft !
Framasoft est financée par vos dons ! Chaque tranche de 20 euros de dons sera un nouveau ballon pour célébrer 20 d’aventures et nous aider à continuer et décoller une 21e année.
Framasoft, c’est un modèle solidaire :
- 8000 donatrices en 2023 ;
- plus de 2 millions de bénéficiaires chaque mois ;
- votre don (défiscalisable à 66 %) peut bénéficier à 249 autres personnes.
À ce jour, nous avons collecté 58 625 € sur notre objectif de campagne. Il nous reste 29 jours pour convaincre les copaines et récolter de quoi faire décoller Framasoft.
Alors : défi relevé ?
Cédric L
Oh non. Alors non. Je veux bien faire un don à framasoft (que je fais déjà), mais si c’est pour financer l’IA c’est non !
« Cette démo fonctionnelle est aussi une expérimentation de Framasoft dans le domaine de l’IA ».
Déjà, y’en a d’autre pour financer l’IA. Ensuite est-ce que le speech-to-text, la reconnaissance vocale est de l’IA, je ne suis pas sûr. Ah ok, le traitement est déporté, c’est donc bien du cloud computing…
Hé ben, il est hors de question que je supporte cela !
Dégoutté !
pyg
Bonjour Cédric.
Pas de souci si vous voulez ne pas faire de don.
Comme nous l’écrivions :
> Malgré cela, nous respectons le point de vue des personnes qui souhaitent boycotter l’IA, et nous entendons la contradiction qu’iels pourraient trouver à ce qu’une asso technocritique comme Framasoft propose des projets utilisant l’I.A.
> Notre objectif est justement de proposer un outil qui permette d’avoir une réflexion concrète, afin de se forger un avis autonome, permettant à chacun et chacune de se construire sa propre position.
Cependant, je reviens sur 2 de vos phrases :
> Déjà, y’en a d’autre pour financer l’IA.
Alors, Framasoft ne finance pas l’IA. Nous ne louons pas des GPU chez Amazon, et nous ne payons pas Whisper (qui reste un logiciel libre, mais j’entends que ça n’est pas votre point).
Notre boulot, en tant qu’asso d’éducation populaire aux enjeux du numérique, ce n’est pas d’être « guide suprême », gourou, ou quelque autorité que ce soit qui vous dira quelle technologie utiliser ou pas.
(par exemple, personnellement, je suis **contre** le développement et la généralisation de l’IA, et ça fait plusieurs années que je dis que j’aurai souhaité un moratoire sur l’IA, comme il y en a un sur le clonage humain. Ca n’a pas été le cas, ça ne sera pas le cas, et tout ce qu’on aura, ce sont des textes de loi de fausse régulation tardive, a posteriori).
Notre boulot, donc, c’est d’une part de donner de l’information, qu’on espère aussi objective que possible, sourcée, factuelle. C’est à ça que sert le site https://framamia.org
N’imaginez donc pas que nous ayons envie de « financer l’IA ». Sinon, nous n’aurions pas cité (parmi d’autres) le lien https://www.contretemps.eu/humanite-survivre-ia/ dans l’article 🙂
Mais notre boulot, c’est aussi de « sortir du discours ». Parce que des articles « pour » « contre » « on va toustes mourir » « c’est génial » « c’est la merde » sur l’IA, il y en a déjà des milliers.
Il y a 20 ans, Framasoft faisait la promotion du libre sur Windows, et on se faisait (déjà) cracher dessus. Aujourd’hui, même si ~~Macron~~ Framasoft ne le veut pas, l’IA est là 🎵 (et Windows est toujours là)
Et nous pensons donc (et j’entends que c’est à tort selon vous), que juste dire « l’IA c’est caca », ça a beau être ce que l’on pense à titre personnel, ça ne suffit pas pour générer un vrai débat dans la société.
Il y a déjà plein d’assos de plaidoyer (lisez par exemple la campagne de La Quadrature, sur l’IA : https://www.laquadrature.net/donner/ : si ce discours vous convient mieux, alors soutenez les elles et eux plutôt que Framasoft ! C’est 1000 fois OK).
Framasoft, elle, s’est toujours « imposée » de rester dans le concret. Que ça soit l’annuaire, les Framabooks, les Framakeys, ou Framadate/Framapad/etc : nous voulons que les gens puissent expérimenter, sans pour autant nourrir les géants du net. Et c’est ce que, modestement, Lokas fait. Aucun fichier n’est transmis à des tiers. Zéro publicité. Zéro traceur. Côté environnemental, on l’a dit et expliqué dans l’article : ça tourne sur « nos » machines, avec un Whisper installé par nos soins, ça n’entraine aucun modèle d’IA, et ça réclame un serveur dédié (pas des milliers) mutualisé pour potentiellement plusieurs milliers de personnes (car ce n’est PAS une IA généraliste).
Bref, nous accuser de financer l’IA avec Lokas, ça serait comme m’accuser de financer Total parce que mon covoitureur a mis de l’essence dans sa voiture le WE dernier. On ne peut pas dire qu’il n’y a aucun lien, mais il faut quand même aller le chercher tres tres tres loin. Cependant, si vous pensez être suffisamment informé, de nouveau, pas de souci pour nous. Un don doit se faire librement, et nous respectons évidemment votre choix.
> le traitement est déporté, c’est donc bien du cloud computing…
J’ai quand même un doute : vous êtes conscient que pour lire cette page web, et pour y laisser votre commentaire, vous avez aussi utilisé du « cloud computing » ?
Le Framablog tourne sur un serveur dédié. Vous demandez une page. Cette requête est envoyée sur notre serveur (en Allemagne), puis traitée par différents logiciels (un pare feu, un serveur ngnix, etc), puis calculée (WordPress/PHP/ etc) pour générer un contenu HTML, puis est renvoyée à votre ordinateur ou téléphone (où elle sera encore gérée par d’autres logiciels pour afficher HTML/CSS, images, etc).
Pour votre fichier audio dans Lokas, il y a certes des différences, mais le principe reste le même. Certes le traitement est plus important que de traiter le code PHP de quelques centaines de fichiers (oui, c’est WordPress, quoi 😅 ), mais ça reste un impact tout à fait maîtrisé. Vous envoyez un fichier audio, notre serveur (installé par **nos** soins) le traite, et vous le renvoie sous forme de texte. Le tout sans rien transmettre à qui que ce soit d’autre. Point.
Alors oui, on peut appeler ça « cloud computing », mais alors appelons aussi toute action web réclamant un calcul du « cloud computing ».
Tout ça pour dire que ce que je comprends de votre remarque (je peux me planter), c’est que vous auriez préféré que nous nous contentions de dénoncer les problèmes de l’IA.
Dénoncer nous paraît essentiel. C’est pour cela qu’il est écrit dans l’article « À Framasoft, nous ne sommes pas fans du tout de l’IA. Nous pensons que cette technologie (ou plutôt cet ensemble de technologies), pose plus de problèmes qu’elle n’apporte de solutions. ». C’est aussi pour cela que nous avons créé le site https://framamia.org
Mais dénoncer ne nous paraît pas suffisant (encore une fois, d’autres le font très très bien https://danslesalgorithmes.net/ ou https://affordance.framasoft.org/category/intelligence-artificielle/ pour ne citer que les copain⋅es).
Si vous avez décidé que « boycotter l’IA » était votre manière de lutter : alors c’est la bonne manière (je le pense sincèrement).
Nous, nous avons choisi une autre manière de créer du débat (vous noterez qu’au moins, c’est efficace pour générer du débat 😉 ). Elle ne vous convient pas ? Très bien. Je ne doute pas que vous trouverez, ailleurs, d’autres collectifs qui seront plus alignés avec vos valeurs et vos modalités d’action (et c’est tant mieux, non ?)
Cédric L
Bonjour Pyg.
Je suis très rémué par cette histoire au point d’avoir comblé une heure d’insomnie à lire Framamia (mais pas encore les articles de Mitchell). Bref ma réaction à chaud n’est pas encore tombé.
Je ne suis qu’un minime contributeur de 10€/mois depuis un an chez vous, donc quantité négligeable, mais merci de votre réponse.
Au sujet du financement :
Alors, c’est pas du tout votre co-voitureur qui a mis de l’essence. C’est vous qui venez d’acheter une voiture et qui nous proposez de co-voiturer avec vous.
Au sujet du cloud computing :
Il n’y a pas d’Intelligence dans IA, c’est pour cela que j’ai utilisé le terme de cloud computing. Nous sommes quand même loin du traitement à la volée des pages php.
Au sujet de « Zéro publicité. »
Alors désolé mais monter un site dédié nommé framamia, c’est faire de la publicité.
Au sujet de « Notre serveur » :
Alors vous nous expliquez que vous faites de l’IA et c’est bien marqué plusieurs fois « sur noS serveurS » et il suffit que je critique pour que cela devienne juste 1 serveur dans un coin ?
Je ne trouve pas l’argument fallacieux. D’ailleurs, vous ne vous êtes engagé à rien, rien sur la puissance du serveur, rien sur le nombre de serveurs à venir. 1 aujourd’hui, 3 dans deux mois, 10 à la fin de l’année ?
En toute confidentialité ? Ils disent tous cela…
Au sujet de Whisper
L’implémentation de Lokas n’est pas mentionée, on trouve la mention de Whisper très loin dans l’article, pas le lien vers de code source, pas de mention de licence. « qui tourne « en vase clos » sur nos serveurs, on aimerait bien vérifier et le simple fait qu’on ne le puisse pas est un red flag.
« si vous attribuez des noms, pseudos ou genres, pour les statistiques, sachez que ces informations ne font l’objet d’aucun traitement de notre côté.» Autre red flag. vous ne faites pas plus de traitements sur les noms, les pseudos, les genres, que tout autre information confidentielle. Ou alors, c’est que vous faites un traitement. Etes-vous capable d’identifier spécifiquement ces informations ? Je dirais que non et votre formulation est maladroite. Pour les statistiques ? justement, parlons-en. Que deviennent les statistiques ? sont-elles partagée avec Whisper ? vous dites, ces données ne font l’objet d’aucun traitement de notre coté ? Alors elles font l’objet de traitement de quelqu’un d’autre ?
Au départ, je pensais que vous aviez pris un étudiant sorti d’étude de LLM pour écrire Lokas, je découvre que c’est pas du tout le cas, et y’a de plus en plus de questions qui se posent. Comment Whisper s’est alimenté ? A quel prix ?
Bref, je ne suis qu’un récent donateur, je me suis fait une mauvaise idée de Framasoft. Je croyais que vous nous aidiez à contrôler nos données et on ne comprends plus rien du traitement que vous en faites (rien que le fait de passer par le smartphone, c’est nébuleux). Je croyais que vous souteniez le libre, et pouf c’est obscure, pas de licence communiqué.
Je ne suis pas non plus une pucelle, j’avoue, j’ai aussi ma contradiction avec mon email chez gogole, que j’ai planifié de quitter en 2025 (cela ne regarde que moi). Je veux arrêter les conneries, pas en commencer de nouvelles. Je ne retrouve pas les valeurs que j’attribuais à Framasoft dans ce projet. Je vais devoir aussi quitter ce cher framapiaf et je suspendrai mon paiement régulier à ce moment-là. Merci et au revoir.
Cédric L
Ah mais je découvre que Whisper, c’est OpenAI qui fait ça. Ah bah du coup on sait comment le modèle est alimenté. C’est pire que ce que je croyais.
Froggy01
Une fonctionnalité intéressante serait de pouvoir utiliser un fichier audio qu’on a déjà plutôt que d’accepter uniquement les enregistrements.
pyg
> Une fonctionnalité intéressante serait de pouvoir utiliser un fichier audio qu’on a déjà plutôt que d’accepter uniquement les enregistrements.
C’est envisagé en conclusion :
« Possibilité de (re)transcrire le fichier de son choix (par exemple issu d’une vidéo ou d’une autre application) ; »
Hugo
Hello,
Je suis un peu partagé. À la fois expérimenter permet de mieux appréhender la technique et les usages éventuels. Et en même temps, j’ai un grand sentiment de « fatigue » face à la hype autour de l’AI, y compris du côté de Nextcloud.
Est-ce que la retranscription de réunion répond à un vrai besoin exprimé ?
Je trouve que ça noie un peu le message de l’association que de faire du « on aime pas ça, mais on le fait quand même, parce que, rendez-vous compte, c’est waouh ».
Je suis pas contre dans l’absolu, mais alors on devrait pouvoir orienter nos dons vers « du sans IA » ; sinon vous risquez de perdre pas mal de soutien de gens qui ne voient pas l’intérêt de voir ce genre de projets soutenus. Je sais que vous n’avez jamais trop voulu orienter les dons vers tel ou tel projet. Peut-être que le raisonnement a atteint une limite ?
En tout cas c’est une tentative audacieuse 🙂
pyg
(j’ai quasi arrêté Facebook/Twitter et même Mastodon, mais on me dit dans l’oreillette qu’on s’y fait cracher dessus, donc merci d’exposer vos arguments aussi posément. C’est idiot de le rappeler, mais ce sont des humain⋅es qui se prennent les commentaires en pleine face. Bref, c’est pas le sujet 🙂 )
> Je suis un peu partagé.
Ah, mais nous le sommes aussi, hein !
C’est pas parce qu’on ne fait pas un site sur l’IA avec un design-qui-fait-peur, ou parce qu’on sort une application permettant de faire du speech-to-text, que nous sommes « POUR » l’IA.
> À la fois expérimenter permet de mieux appréhender la technique et les usages éventuels.
C’est cela. Je l’explique en réponse à un autre commentaire au-dessus : https://framablog.org/2024/12/03/enregistrer-et-transcrire-vos-reunions-avec-lokas/#comment-148676
> Et en même temps, j’ai un grand sentiment de « fatigue » face à la hype autour de l’AI, y compris du côté de Nextcloud.
De nouveau : sentiment TRES partagé !
En tant que coordinateur du projet Framaspace, ça me saaoooooule les annonces de Nextcloud autour de l’IA
Je ne crois pas (et je crois que personne à Framasoft ne croit) en une « IA Ethique » (pas plus qu’il y aurait un « smartphone éthique »). On peut tout au plus limiter la casse sur certains domaines (genre la réparabilité, lutter contre l’obsolescence programmée, etc). MAIS toute IA, comme tout smartphone, est écocidaire. Point. Et je ne connais aucun processus numérique qui ne le soit pas, avec des proportions variables (afficher cette page dans votre navigateur, sur votre ordinateur, avec votre electricité, etc EST écocidaire).
Par contre, si on reste sur le projet Framaspace par exemple, vous aurez noté que nous avons désactivé TOUTES les fonctionnalités liées à l’IA (alors que si on avait été IA-béat⋅es, ça ne nous aurait pas coûté grand chose de les activer).
> Est-ce que la retranscription de réunion répond à un vrai besoin exprimé ?
Clairement, quand la question est posée (et on l’a posée à un paquet de membres d’asso) : oui.
Maintenant, la réponse était surtout : « oui, mais il faut que ça marche « bien » ! »
Et là, tout aussi clairement, Lokas est un prototype : l’app ne fait pas de traduction temps réel, et de mauvaises conditions (bruit, etc) nuisent grandement à la transcription.
> Je trouve que ça noie un peu le message de l’association que de faire du « on aime pas ça, mais on le fait quand même, parce que, rendez-vous compte, c’est waouh ».
Sur ce point, je suis en désaccord. On ne le fait pas parce que « rendez-vous compte, c’est waouh ».
On le fait parce que le milieu du libre a regardé passer le train de l’IA (comme celui du smartphone, comme celui du SaaS, etc), avec un sentiment d’arrogance, voir de morgue, pendant des années.
On le fait parce que les communautés « alter » (parmi lesquelles on peut placer Framasoft) ont BESOIN de débattre de l’IA et de la place du numérique en général. Et que le débat à coup d’articles univoques, c’est bien (d’autant qu’on est plutôt de la team « L’IA, c’est caca »), MAIS à notre avis insuffisant pour sortir de l’entresoi où l’on se sent bien entre privilégiés à pouvoir boycotter l’IA (ce qui est mon cas, hein).
On le fait parce que l’IA, c’est pas **une** technologie, mais un champ de recherche, avec des centaines de technologies différentes. Certaines récentes, d’autres cinquantenaires. Certaines librement choisies, d’autres imposées à notre insu. Et que ça, ben c’est aussi notre boulot de tenter de l’expliquer.
Tout comme un⋅e journaliste se doit de croiser ses sources, Framasoft se doit de confronter ses publics aux usages et enjeux du numérique.
Le seul fait que vous, Hugo, nous interrogiez sur ce qui nous mène à cela, est pour moi la possibilité d’une dépolarisation du débat. Ce qui ne signifie pas qu’avoir une position polarisée soit mauvaise en soit, ça me va tout à fait que des personnes soient totalement contre l’usage de l’IA. Par contre, que le **débat** soit polarisé me pose souci. Parce qu’on pousse les gens à choisir une position, sans qu’iels aient nécessairement les différents arguments.
> Je suis pas contre dans l’absolu, mais alors on devrait pouvoir orienter nos dons vers « du sans IA » ; sinon vous risquez de perdre pas mal de soutien de gens qui ne voient pas l’intérêt de voir ce genre de projets soutenus. Je sais que vous n’avez jamais trop voulu orienter les dons vers tel ou tel projet. Peut-être que le raisonnement a atteint une limite ?
C’est un point de vue intéressant. Ca pourra faire partie de nos reflexions pour de prochaines campagnes (même si clairement, on préfère la notion de « pot commun » à celui de « financement par projets » 😛 )
De nouveau, je rappelle que Lokas à eu un coût total de 7 500€ environ. Ce n’est PAS un projet prioritaire pour Framasoft. En tout cas, il est loin derrière PeerTube, Framaspace, les interventions, etc.
Donc, si vous faites un don de 10€ à Framasoft, je peux d’ores et déjà vous assurer que la part de Lokas sera en gros entre 0,5€ et… 0€. Car rien ne dit, pour le moment, que nous travaillerons sur Lokas en 2025.
C’est un prototype servant à la fois à dire : « Les startups qui vous disent qu’il faut des millions de dollars et des milliers de GPU pour faire une app utilisant l’IA vous mentent : une micro-asso, avec 3 péquins et 7% du prix du prix de la Porsche Cayenne du CEO de la dite startup peuvent y arriver », mais aussi à dire « OK, ça fait des années qu’on a PAS ce débat sur l’IA, alors, parlons en sur pièce ». Typiquement, en discutant de Lokas ce midi (je bosse dans un tiers lieu), 80% des gens n’avaient aucune idée de la différence entre « IA spécialisée » et « IA généraliste ». Et bien, sans Lokas, ce débat n’aurait PAS eu lieu 🤷 (alors qu’on a déjà eu plein de débats sur l’IA et son impact écologique, par exemple).
> En tout cas c’est une tentative audacieuse 🙂
Merci de cette remarque. J’ai bien noté que vous étiez partagé, mais reconnaître « le geste » comme audacieux, nous aide à encaisser le courroux de certains.
Jonas
Bravo à vous pour avoir lancé ça !
J’ai lu avec attention l’histoire de la création, et c’est pratiquement les mêmes questions qui nous on traversé lors de nombreuses discussions dans des collectifs de libristes/maker en tiers lieux.
Dans ces lieux collectifs, les réunions sont souvent aussi nombreuses que les projets de zinzin qui trouvent de la ressource humaine pour les réaliser 🙂
Et le travail de compte rendu est très souvent harassant … épuisant … et pourtant, impossible de faire communauté si il n’existe pas de documentation.
Whipser n’est pas une IA générative, vous avez raison de le souligner, nous ne sommes pas du tout dans le même ordre de grandeur de gabegie écologique et sociale.
Ici, on parle d’une technologie qui existe depuis très longtemps et qui permet à de nombreux collectifs de trouver du temps pour créer, pour s’émanciper.
J’ai beaucoup tourné avec du whisper + pyannote et longtemps rêvé d’une interface graphique que chacun puisse utiliser.
J’ai pas mal utilisé Linto Studio aussi de Linagora.
Peut être un peu complexe encore pour tout un chacun.
Du coup, merci d’avoir fabriqué Lokas !
Merci de participer à l’émancipation de nos structures collectives 🙂
Lachez rien, longue vie à Framasoft 🙂
Jean
Hello,
moi je trouve ça super, parce que ça remplie un besoin, le speech-to-text, et si ce besoin peut ne pas être rempli par Google ou autre Gafam, ça enlèvera une charge de culpabilité à toutes et tous qui le font avec les gafam ou ne le font pas et galèrent avec leurs notes.
J’ai une question : comment ça va se passer si Lokas a un trop grand succès ? Votre serveur va tourner sans cesse et la file d’attente va s’allonger à l’infini non ? Est-il envisageable de mettre whisper sur le téléphone (je sais que techniquement oui, mais d’un point de vu facilité d’usage, efficacité selon le smartphone – ça peut être galère). Sinon est-ce que l’option de choisir un autre serveur whisper peut être envisagé ? Ça redonnerai encore plus de controle aux personnes qui l’utilisent et qui veulent vraiment être sur que vous écoutez pas ce qui est dit, et puis ça vous déchargerait de pas mal en termes de calcul.
Par ailleurs, j’entends les critiques sur l’IA, mais ce qu’on peut faire, c’est ne pas appeler ça une IA (vu que de toute façon ça ne veut plus rien dire), au même titre que l’algo qui enlève les yeux rouges ou un correcteur orthographique n’est pas appelé une IA (alors qu’ils pourraient totalement prétendre à cette appellation vu que tout et rien est une IA).
Merci !