Ouvrir le code des algorithmes ? — Oui, mais… (1/2)

Voici le premier des deux articles qu’Hubert Guillaud nous fait le plaisir de partager. Sans s’arrêter à la surface de l’actualité, il aborde la transparence du code des algorithmes, qui entraîne un grand nombre de questions épineuses sur lesquelles il s’est documenté pour nous faire part de ses réflexions.

Dans le code source de l’amplification algorithmique : publier le code ne suffit pas !

par Hubert GUILLAUD

Le 31 mars, Twitter a publié une partie du code source qui alimente son fil d’actualité, comme l’a expliqué l’équipe elle-même dans un billet. Ces dizaines de milliers de lignes de code contiennent pourtant peu d’informations nouvelles. Depuis le rachat de l’oiseau bleu par Musk, Twitter a beaucoup changé et ne cesse de se modifier sous les yeux des utilisateurs. La publication du code source d’un système, même partiel, qui a longtemps été l’un des grands enjeux de la transparence, montre ses limites.

un jeune homme montre une ligne d'une explication de l'encodage des algorithmes au rétroprojecteur — *« LZW encoding and decoding algorithms overlapped » par nayukim, licence CC BY 2.0.*

Publier le code ne suffit pas

Dans un excellent billet de blog, le chercheur Arvind Narayanan (sa newsletter mérite également de s’y abonner) explique ce qu’il faut en retenir. Comme ailleurs, les règles ne sont pas claires. Les algorithmes de recommandation utilisent l’apprentissage automatique ce qui fait que la manière de classer les tweets n’est pas directement spécifiée dans le code, mais apprise par des modèles à partir de données de Twitter sur la manière dont les utilisateurs ont réagi aux tweets dans le passé. Twitter ne divulgue ni ces modèles ni les données d’apprentissages, ce qui signifie qu’il n’est pas possible d’exécuter ces modèles. Le code ne permet pas de comprendre pourquoi un tweet est ou n’est pas recommandé à un utilisateur, ni pourquoi certains contenus sont amplifiés ou invisibilisés. C’est toute la limite de la transparence. Ce que résume très bien le journaliste Nicolas Kayser-Bril pour AlgorithmWatch (pertinemment traduit par le framablog) : « Vous ne pouvez pas auditer un code seulement en le lisant. Il faut l’exécuter sur un ordinateur. »

« Ce que Twitter a publié, c’est le code utilisé pour entraîner les modèles, à partir de données appropriées », explique Narayanan, ce qui ne permet pas de comprendre les propagations, notamment du fait de l’absence des données. De plus, les modèles pour détecter les tweets qui violent les politiques de Twitter et qui leur donnent des notes de confiance en fonction de ces politiques sont également absentes (afin que les usagers ne puissent pas déjouer le système, comme nous le répètent trop de systèmes rétifs à l’ouverture). Or, ces classements ont des effets de rétrogradation très importants sur la visibilité de ces tweets, sans qu’on puisse savoir quels tweets sont ainsi classés, selon quelles méthodes et surtout avec quelles limites.

La chose la plus importante que Twitter a révélée en publiant son code, c’est la formule qui spécifie comment les différents types d’engagement (likes, retweets, réponses, etc.) sont pondérés les uns par rapport aux autres… Mais cette formule n’est pas vraiment dans le code. Elle est publiée séparément, notamment parce qu’elle n’est pas statique, mais qu’elle doit être modifiée fréquemment.

Sans surprise, le code révèle ainsi que les abonnés à Twitter Blue, ceux qui payent leur abonnement, bénéficient d’une augmentation de leur portée (ce qui n’est pas sans poser un problème de fond, comme le remarque pertinemment sur Twitter, Guillaume Champeau, car cette préférence pourrait mettre ces utilisateurs dans la position d’être annonceurs, puisqu’ils payent pour être mis en avant, sans que l’interface ne le signale clairement, autrement que par la pastille bleue). Reste que le code n’est pas clair sur l’ampleur de cette accélération. Les notes attribuées aux tweets des abonnés Blue sont multipliées par 2 ou 4, mais cela ne signifie pas que leur portée est pareillement multipliée. « Une fois encore, le code ne nous dit pas le genre de choses que nous voudrions savoir », explique Narayanan.

Reste que la publication de la formule d’engagement est un événement majeur. Elle permet de saisir le poids des réactions sur un tweet. On constate que la réponse à tweet est bien plus forte que le like ou que le RT. Et la re-réponse de l’utilisateur originel est prédominante, puisque c’est le signe d’une conversation forte. À l’inverse, le fait qu’un lecteur bloque, mute ou se désabonne d’un utilisateur suite à un tweet est un facteur extrêmement pénalisant pour la propagation du tweet.

Tableau du poids attribué en fonction des types d’engagement possibles sur Twitter.

Ces quelques indications permettent néanmoins d’apprendre certaines choses. Par exemple que Twitter ne semble pas utiliser de prédictions d’actions implicites (comme lorsqu’on s’arrête de faire défiler son fil), ce qui permet d’éviter l’amplification du contenu trash que les gens ne peuvent s’empêcher de regarder, même s’ils ne s’y engagent pas. La formule nous apprend que les retours négatifs ont un poids très élevé, ce qui permet d’améliorer son flux en montrant à l’algorithme ce dont vous ne voulez pas – même si les plateformes devraient permettre des contrôles plus explicites pour les utilisateurs. Enfin, ces poids ont des valeurs souvent précises, ce qui signifie que ce tableau n’est valable qu’à l’instant de la publication et qu’il ne sera utile que si Twitter le met à jour.

Les algorithmes de recommandation qui optimisent l’engagement suivent des modèles assez proches. La publication du code n’est donc pas très révélatrice. Trois éléments sont surtout importants, insiste le chercheur :

« Le premier est la manière dont les algorithmes sont configurés : les signaux utilisés comme entrée, la manière dont l’engagement est défini, etc. Ces informations doivent être considérées comme un élément essentiel de la transparence et peuvent être publiées indépendamment du code. La seconde concerne les modèles d’apprentissage automatique qui, malheureusement, ne peuvent généralement pas être divulgués pour des raisons de protection de la vie privée. Le troisième est la boucle de rétroaction entre les utilisateurs et l’algorithme ».

Autant d’éléments qui demandent des recherches, des expériences et du temps pour en comprendre les limites.

Si la transparence n’est pas une fin en soi, elle reste un moyen de construire un meilleur internet en améliorant la responsabilité envers les utilisateurs, rappelle l’ingénieur Gabriel Nicholas pour le Center for Democracy & Technology. Il souligne néanmoins que la publication d’une partie du code source de Twitter ne contrebalance pas la fermeture du Consortium de recherche sur la modération, ni celle des rapports de transparence relatives aux demandes de retraits des autorités ni celle de l’accès à son API pour chercheurs, devenue extrêmement coûteuse.

« Twitter n’a pas exactement ’ouvert son algorithme’ comme certains l’ont dit. Le code est lourdement expurgé et il manque plusieurs fichiers de configuration, ce qui signifie qu’il est pratiquement impossible pour un chercheur indépendant d’exécuter l’algorithme sur des échantillons ou de le tester d’une autre manière. Le code publié n’est en outre qu’un instantané du système de recommandation de Twitter et n’est pas réellement connecté au code en cours d’exécution sur ses serveurs. Cela signifie que Twitter peut apporter des modifications à son code de production et ne pas l’inclure dans son référentiel public, ou apporter des modifications au référentiel public qui ne sont pas reflétées dans son code de production. »

L’algorithme publié par Twitter est principalement son système de recommandation. Il se décompose en 3 parties, explique encore Nicholas :

Un système de génération de contenus candidats. Ici, Twitter sélectionne 1500 tweets susceptibles d’intéresser un utilisateur en prédisant la probabilité que l’utilisateur s’engage dans certaines actions pour chaque tweet (c’est-à-dire qu’il RT ou like par exemple).
Un système de classement. Une fois que les 1 500 tweets susceptibles d’être servis sont sélectionnés, ils sont notés en fonction de la probabilité des actions d’engagement, certaines actions étant pondérées plus fortement que d’autres. Les tweets les mieux notés apparaîtront généralement plus haut dans le fil d’actualité de l’utilisateur.
Un système de filtrage. Les tweets ne sont pas classés strictement en fonction de leur score. Des heuristiques et des filtres sont appliqués pour, par exemple, éviter d’afficher plusieurs tweets du même auteur ou pour déclasser les tweets d’auteurs que l’utilisateur a déjà signalés pour violation de la politique du site.

Le score final est calculé en additionnant la probabilité de chaque action multipliée par son poids (en prenant certainement en compte la rareté ou la fréquence d’action, le fait de répondre à un tweet étant moins fréquent que de lui attribuer un like). Mais Twitter n’a pas publié la probabilité de base de chacune de ces actions ce qui rend impossible de déterminer l’importance de chacune d’elles dans les recommandations qui lui sont servies.

Twitter a également révélé quelques informations sur les autres facteurs qu’il prend en compte en plus du classement total d’un tweet. Par exemple, en équilibrant les recommandations des personnes que vous suivez avec celles que vous ne suivez pas, en évitant de recommander les tweets d’un même auteur ou en donnant une forte prime aux utilisateurs payants de Twitter Blue.

Il y a aussi beaucoup de code que Twitter n’a pas partagé. Il n’a pas divulgué beaucoup d’informations sur l’algorithme de génération des tweets candidats au classement ni sur ses paramètres et ses données d’entraînement. Twitter n’a pas non plus explicitement partagé ses algorithmes de confiance et de sécurité pour détecter des éléments tels que les abus, la toxicité ou les contenus pour adultes, afin d’empêcher les gens de trouver des solutions de contournement, bien qu’il ait publié certaines des catégories de contenu qu’il signale.

graphe des relations entre comptes twitter, tr-s nombreux traits bleus entre minuscules avatars de comptes, le tout donne une impression d'inextricable comlexité — *« 20120212-NodeXL-Twitter-socbiz network graph » par Marc_Smith; licence CC BY 2.0.*

Pour Gabriel Nicholas, la transparence de Twitter serait plus utile si Twitter avait maintenu ouverts ses outils aux chercheurs. Ce n’est pas le cas.

Il y a plein d’autres points que l’ouverture de l’algorithme de Twitter a documentés. Par exemple, l’existence d’un Tweepcred, un score qui classe les utilisateurs et qui permet de voir ses publications boostées si votre score est bon, comme l’expliquait Numerama. Ou encore le fait que chaque compte est clustérisé dans un groupe aux profils similaires dans lequel les tweets sont d’abord diffusés avant d’être envoyés plus largement s’ils rencontrent un premier succès… De même, il semblerait qu’il y ait certaines catégories d’utilisateurs spéciaux (dont une catégorie relative à Elon Musk) mais qui servent peut-être plus certaines statistiques qu’à doper la portée de certains comptes comme on l’a entendu (même s’il semble bien y avoir une catégorie VIP sur Twitter – comme il y a sur Facebook un statut d’exception à la modération)…

Ouvrir, mais ouvrir quoi ?

En conclusion de son article, Narayanan pointe vers un très intéressant article qui dresse une liste d’options de transparence pour ceux qui produisent des systèmes de recommandation, publiée par les chercheurs Priyanjana Bengani, Jonathan Stray et Luke Thorburn. Ils rappellent que les plateformes ont mis en place des mesures de transparence, allant de publications statistiques à des interfaces de programmation, en passant par des outils et des ensembles de données protégés. Mais ces mesures, très techniques, restent insuffisantes pour comprendre les algorithmes de recommandation et leur influence sur la société. Une grande partie de cette résistance à la transparence ne tient pas tant aux risques commerciaux qui pourraient être révélés qu’à éviter l’embarras d’avoir à se justifier de choix qui ne le sont pas toujours. D’une manière très pragmatique, les trois chercheurs proposent un menu d’actions pour améliorer la transparence et l’explicabilité des systèmes.

Documenter
L’un des premiers outils, et le plus simple, reste la documentation qui consiste à expliquer en termes clairs – selon différentes échelles et niveaux, me semble-t-il – ce qui est activé par une fonction. Pour les utilisateurs, c’est le cas du bouton « Pourquoi je vois ce message » de Facebook ou du panneau « Fréquemment achetés ensemble » d’Amazon. L’idée ici est de fourbir un « compte rendu honnête ». Pour les plus évoluées de ces interfaces, elles devraient permettre non seulement d’informer et d’expliquer pourquoi on nous recommande ce contenu, mais également, permettre de rectifier et mieux contrôler son expérience en ligne, c’est-à-dire d’avoir des leviers d’actions sur la recommandation.

Une autre forme de documentation est celle sur le fonctionnement général du système et ses décisions de classement, à l’image des rapports de transparence sur les questions de sécurité et d’intégrité que doivent produire la plupart des plateformes (voir celui de Google, par exemple). Cette documentation devrait intégrer des informations sur la conception des algorithmes, ce que les plateformes priorisent, minimisent et retirent, si elles donnent des priorités et à qui, tenir le journal des modifications, des nouvelles fonctionnalités, des changements de politiques. La documentation doit apporter une information solide et loyale, mais elle reste souvent insuffisante.

Les données
Pour comprendre ce qu’il se passe sur une plateforme, il est nécessaire d’obtenir des données. Twitter ou Facebook en ont publié (accessibles sous condition de recherche, ici pour Twitter, là pour Facebook). Une autre approche consiste à ouvrir des interfaces de programmation, à l’image de CrowdTangle de Facebook ou de l’API de Twitter. Depuis le scandale Cambridge Analytica, l’accès aux données est souvent devenu plus difficile, la protection de la vie privée servant parfois d’excuse aux plateformes pour éviter d’avoir à divulguer leurs pratiques. L’accès aux données, même pour la recherche, s’est beaucoup refermé ces dernières années. Les plateformes publient moins de données et CrowdTangle propose des accès toujours plus sélectifs. Chercheurs et journalistes ont été contraints de développer leurs propres outils, comme des extensions de navigateurs permettant aux utilisateurs de faire don de leurs données (à l’image du Citizen Browser de The Markup) ou des simulations automatisées (à l’image de l’analyse robotique de TikTok produite par le Wall Street Journal), que les plateformes ont plutôt eu tendance à bloquer en déniant les résultats obtenus sous prétexte d’incomplétude – ce qui est justement le problème que l’ouverture de données cherche à adresser.

Le code
L’ouverture du code des systèmes de recommandation pourrait être utile, mais elle ne suffit pas, d’abord parce que dans les systèmes de recommandation, il n’y a pas un algorithme unique. Nous sommes face à des ensembles complexes et enchevêtrés où « différents modèles d’apprentissage automatique formés sur différents ensembles de données remplissent diverses fonctions ». Même le classement ou le modèle de valeur pour déterminer le score n’explique pas tout. Ainsi, « le poids élevé sur un contenu d’un type particulier ne signifie pas nécessairement qu’un utilisateur le verra beaucoup, car l’exposition dépend de nombreux autres facteurs, notamment la quantité de ce type de contenu produite par d’autres utilisateurs. »

Peu de plateformes offrent une grande transparence au niveau du code source. Reddit a publié en 2008 son code source, mais a cessé de le mettre à jour. En l’absence de mesures de transparence, comprendre les systèmes nécessite d’écluser le travail des journalistes, des militants et des chercheurs pour tenter d’en obtenir un aperçu toujours incomplet.

La recherche
Les plateformes mènent en permanence une multitude de projets de recherche internes voire externes et testent différentes approches pour leurs systèmes de recommandation. Certains des résultats finissent par être accessibles dans des revues ou des articles soumis à des conférences ou via des fuites d’informations. Quelques efforts de partenariats entre la recherche et les plateformes ont été faits, qui restent embryonnaires et ne visent pas la transparence, mais qui offrent la possibilité à des chercheurs de mener des expériences et donc permettent de répondre à des questions de nature causale, qui ne peuvent pas être résolues uniquement par l’accès aux données.

Enfin, les audits peuvent être considérés comme un type particulier de recherche. À l’heure actuelle, il n’existe pas de bons exemples d’audits de systèmes de recommandation menés à bien. Reste que le Digital Service Act (DSA) européen autorise les audits externes, qu’ils soient lancés par l’entreprise ou dans le cadre d’une surveillance réglementaire, avec des accès élargis par rapport à ceux autorisés pour l’instant. Le DSA exige des évaluations sur le public mineur, sur la sécurité, la santé, les processus électoraux… mais ne précise ni comment ces audits doivent être réalisés ni selon quelles normes. Des méthodes spécifiques ont été avancées pour contrôler la discrimination, la polarisation et l’amplification dans les systèmes de recommandation.

En principe, on pourrait évaluer n’importe quel préjudice par des audits. Ceux-ci visent à vérifier si « la conception et le fonctionnement d’un système de recommandation respectent les meilleures pratiques et si l’entreprise fait ce qu’elle dit qu’elle fait. S’ils sont bien réalisés, les audits pourraient offrir la plupart des avantages d’un code source ouvert et d’un accès aux données des utilisateurs, sans qu’il soit nécessaire de les rendre publics. » Reste qu’il est peu probable que les audits imposés par la surveillance réglementaire couvrent tous les domaines qui préoccupent ceux qui sont confrontés aux effets des outils de recommandations.

Autres moteurs de transparence : la gouvernance et les calculs

Les chercheurs concluent en soulignant qu’il existe donc une gamme d’outils à disposition, mais qu’elle manque de règles et de bonnes pratiques partagées. Face aux obligations de transparence et de contrôles qui arrivent (pour les plus gros acteurs d’abord, mais parions que demain, elles concerneront bien d’autres acteurs), les entreprises peinent à se mettre en ordre de marche pour proposer des outillages et des productions dans ces différents secteurs qui leur permettent à la fois de se mettre en conformité et de faire progresser leurs outils. Ainsi, par exemple, dans le domaine des données, documenter les jeux et les champs de données, à défaut de publier les jeux de données, pourrait déjà permettre un net progrès. Dans le domaine de la documentation, les cartes et les registres permettent également d’expliquer ce que les calculs opèrent (en documentant par exemple leurs marges d’erreurs).

Reste que l’approche très technique que mobilisent les chercheurs oublie quelques leviers supplémentaires. Je pense notamment aux conseils de surveillance, aux conseils éthiques, aux conseils scientifiques, en passant par les organismes de contrôle indépendants, aux comités participatifs ou consultatifs d’utilisateurs… à tous les outils institutionnels, participatifs ou militants qui permettent de remettre les parties prenantes dans le contrôle des décisions que les systèmes prennent. Dans la lutte contre l’opacité des décisions, tous les leviers de gouvernance sont bons à prendre. Et ceux-ci sont de très bons moyens pour faire pression sur la transparence, comme l’expliquait très pertinemment David Robinson dans son livre Voices in the Code.

Un autre levier me semble absent de nombre de propositions… Alors qu’on ne parle que de rendre les calculs transparents, ceux-ci sont toujours absents des discussions. Or, les règles de traitements sont souvent particulièrement efficaces pour améliorer les choses. Il me semble qu’on peut esquisser au moins deux moyens pour rendre les calculs plus transparents et responsables : la minimisation et les interdictions.

La minimisation vise à rappeler qu’un bon calcul ne démultiplie pas nécessairement les critères pris en compte. Quand on regarde les calculs, bien souvent, on est stupéfait d’y trouver des critères qui ne devraient pas être pris en compte, qui n’ont pas de fondements autres que d’être rendus possibles par le calcul. Du risque de récidive au score de risque de fraude à la CAF, en passant par l’attribution de greffes ou aux systèmes de calculs des droits sociaux, on trouve toujours des éléments qui apprécient le calcul alors qu’ils n’ont aucune justification ou pertinence autres que d’être rendu possibles par le calcul ou les données. C’est le cas par exemple du questionnaire qui alimente le calcul de risque de récidive aux Etats-Unis, qui repose sur beaucoup de questions problématiques. Ou de celui du risque de fraude à la CAF, dont les anciennes versions au moins (on ne sait pas pour la plus récente) prenaient en compte par exemple le nombre de fois où les bénéficiaires se connectaient à leur espace en ligne (sur cette question, suivez les travaux de la Quadrature et de Changer de Cap). La minimisation, c’est aussi, comme l’explique l’ex-chercheur de chez Google, El Mahdi El Mhamdi, dans une excellente interview, limiter le nombre de paramètres pris en compte par les calculs et limiter l’hétérogénéité des données.

L’interdiction, elle, vise à déterminer que certains croisements ne devraient pas être autorisés, par exemple, la prise en compte des primes dans les logiciels qui calculent les données d’agenda du personnel, comme semble le faire le logiciel Orion mis en place par la Sncf, ou Isabel, le logiciel RH que Bol.com utilise pour gérer la main-d’œuvre étrangère dans ses entrepôts de logistique néerlandais. Ou encore, comme le soulignait Narayanan, le temps passé sur les contenus sur un réseau social par exemple, ou l’analyse de l’émotion dans les systèmes de recrutement (et ailleurs, tant cette technologie pose problème). A l’heure où tous les calculs sont possibles, il va être pertinent de rappeler que selon les secteurs, certains croisements doivent rester interdits parce qu’ils sont trop à risque pour être mobilisés dans le calcul ou que certains calculs ne peuvent être autorisés.

Priyanjana Bengani, Jonathan Stray et Luke Thorburn, pour en revenir à eux, notent enfin que l’exigence de transparence reste formulée en termes très généraux par les autorités réglementaires. Dans des systèmes vastes et complexes, il est difficile de savoir ce que doit signifier réellement la transparence. Pour ma part, je milite pour une transparence “projective”, active, qui permette de se projeter dans les explications, c’est-à-dire de saisir ses effets et dépasser le simple caractère narratif d’une explication loyale, mais bien de pouvoir agir et reprendre la main sur les calculs.

Coincés dans les boucles de l’amplification

Plus récemment, les trois mêmes chercheurs, passé leur article séminal, ont continué à documenter leur réflexion. Ainsi, dans « Rendre l’amplification mesurable », ils expliquent que l’amplification est souvent bien mal définie (notamment juridiquement, ils ont consacré un article entier à la question)… mais proposent d’améliorer les propriétés permettant de la définir. Ils rappellent d’abord que l’amplification est relative, elle consiste à introduire un changement par rapport à un calcul alternatif ou précédent qui va avoir un effet sans que le comportement de l’utilisateur n’ait été, lui, modifié.

L’amplification agit d’abord sur un contenu et nécessite de répondre à la question de savoir ce qui a été amplifié. Mais même dire que les fake news sont amplifiées n’est pas si simple, à défaut d’avoir une définition précise et commune des fake news qui nécessite de comprendre les classifications opérées. Ensuite, l’amplification se mesure par rapport à un point de référence précédent qui est rarement précisé. Enfin, quand l’amplification atteint son but, elle produit un résultat qui se voit dans les résultats liés à l’engagement (le nombre de fois où le contenu a été apprécié ou partagé) mais surtout ceux liés aux impressions (le nombre de fois où le contenu a été vu). Enfin, il faut saisir ce qui relève de l’algorithme et du comportement de l’utilisateur. Si les messages d’un parti politique reçoivent un nombre relativement important d’impressions, est-ce parce que l’algorithme est biaisé en faveur du parti politique en question ou parce que les gens ont tendance à s’engager davantage avec le contenu de ce parti ? Le problème, bien sûr, est de distinguer l’un de l’autre d’une manière claire, alors qu’une modification de l’algorithme entraîne également une modification du comportement de l’utilisateur. En fait, cela ne signifie pas que c’est impossible, mais que c’est difficile, expliquent les chercheurs. Cela nécessite un système d’évaluation de l’efficacité de l’algorithme et beaucoup de tests A/B pour comparer les effets des évolutions du calcul. Enfin, estiment-ils, il faut regarder les effets à long terme, car les changements dans le calcul prennent du temps à se diffuser et impliquent en retour des réactions des utilisateurs à ces changements, qui s’adaptent et réagissent aux transformations.

Dans un autre article, ils reviennent sur la difficulté à caractériser l’effet bulle de filtre des médias sociaux, notamment du fait de conceptions élastiques du phénomène. S’il y a bien des boucles de rétroaction, leur ampleur est très discutée et dépend beaucoup du contexte. Ils en appellent là encore à des mesures plus précises des phénomènes. Certes, ce que l’on fait sur les réseaux sociaux influe sur ce qui est montré, mais il est plus difficile de démontrer que ce qui est montré affecte ce que l’on pense. Il est probable que les effets médiatiques des recommandations soient faibles pour la plupart des gens et la plupart du temps, mais beaucoup plus importants pour quelques individus ou sous-groupes relativement à certaines questions ou enjeux. De plus, il est probable que changer nos façons de penser ne résulte pas d’une exposition ponctuelle, mais d’une exposition à des récits et des thèmes récurrents, cumulatifs et à long terme. Enfin, si les gens ont tendance à s’intéresser davantage à l’information si elle est cohérente avec leur pensée existante, il reste à savoir si ce que l’on pense affecte ce à quoi l’on s’engage. Mais cela est plus difficile à mesurer car cela suppose de savoir ce que les gens pensent et pas seulement constater leurs comportements en ligne. En général, les études montrent plutôt que l’exposition sélective a peu d’effets. Il est probable cependant que là encore, l’exposition sélective soit faible en moyenne, mais plus forte pour certains sous-groupes de personnes en fonction des contextes, des types d’informations.

Bref, là encore, les effets des réseaux sociaux sont difficiles à percer.

Pour comprendre les effets de l’amplification algorithmique, peut-être faut-il aller plus avant dans la compréhension que nous avons des évolutions de celle-ci, afin de mieux saisir ce que nous voulons vraiment savoir. C’est ce que nous tenterons de faire dans la suite de cet article…

Une extension qui meta-press.es à ta disposition

La veille sur la presse en ligne est laborieuse et exigeante, mais une extension pour Firefox peut la rendre plus légère, rapide et efficace… et plus éthique que Google News.

Nous rencontrons aujourd’hui Simon Descarpentries pour lui poser des questions sur le module Meta-Press.es qu’il a créé.

Bonjour Simon, pourrais-tu nous dire par quels chemins tu es arrivé à Meta-press.es…

Commençons par le début : je suis né en 1984 comme la FSF et comme elle, je préfère mes logiciels avec de l’éthique en plus d’un code source accessible (pour reprendre cette belle formule de Pouhiou). J’ai découvert GNU+Linux en l’an 2000, ai adhéré à l’April en 2002, terminé mes études en 2007 et travaillé pour Framasoft de 2009 à 2011. J’ai ensuite rejoint Sopinspace¹ jusqu’à sa mise en sommeil 4 ans plus tard et mon entrée dans Acoeuro.com².

Très tôt j’ai décidé de ne pas pousser le monde dans la mauvaise direction le jour en essayant de compenser les dégâts bénévolement la nuit. Je me suis donc efforcé de gagner ma vie en faisant directement ce qui me semble éthique et via Acoeuro.com j’ai une grande liberté de choix dans mes clients, qui ne sont que des associations, clubs sportifs ou collectivités locales³.

Mais ce n’est pas tout d’en vivre, j’ai aussi toujours eu envie de contribuer au Logiciel Libre en retour. J’ai commencé par des traductions (avec la formidable équipe Framalang), puis me suis attelé à la comptabilité de FDN.fr (pendant 5 ans), j’ai fait un peu de JavaScript pour lancer un widget de campagne de LQDN.fr ou aider à éplucher les 5000 réponses d’une consultation de la Commission Européenne… Mais ça me démangeait toujours.

Je me suis donc également occupé de la revue de presse de La Quadrature du Net pendant 5 ans, et c’est là que m’est venue l’envie de développer une alternative à Google News, afin de libérer l’association de sa dépendance envers un acteur qu’elle critique à juste titre le reste du temps. À la faveur d’un inter-contrats en 2017, j’ai repris mes prototypes précédents de méta-moteur de recherche pour la presse et j’ai exploré sérieusement cette piste.

…tu en arrives ainsi à Meta-Press.es ?

Voilà, j’ai réservé un nom de domaine dès que j’ai eu une preuve de concept fonctionnelle.

Alors c’est quoi exactement ?

Meta-Press.es est un moteur de recherche pour la presse sous forme d’une extension pour Firefox.

Directement depuis notre navigateur, il interroge un grand nombre de journaux⁴. L’extension récupère les derniers résultats de chaque journal et permet de…

trier ces résultats,
mener notre recherche dedans,
sélectionner ceux qui nous intéressent,
exporter cette sélection suivant plusieurs formats (JSON, RSS ou ATOM, bientôt CSV aussi).

Et comment ça marche au juste ?

Eh bien il faut bien sûr installer l’extension depuis sa page officielle.
Tu ouvres ensuite l’onglet de l’extension en cliquant sur l’icône tu saisis les termes de ta recherche, tu précises les sources dans lesquelles chercher : journaux, radios, agrégateurs de publications scientifiques… par défaut tu choisis celles qui sont dans ta langue, et tu lances la recherche.

Meta-Press.es va alors interroger les sources choisies et afficher les résultats.

Quelles différences avec un agrégateur RSS ou une poche-kangourou comme Wallabag ?
Contrairement à un agrégateur de flux RSS, Meta-Press.es donne accès aux contenus qui existaient avant qu’on s’abonne aux flux, puisque Meta-Press.es utilise la fonctionnalité de recherche des journaux. L’extension s’emploie à propager la requête de l’utilisateur auprès de chaque source pour agréger tous les résultats et les trier dans l’ordre chronologique. Google News ne fait pas beaucoup plus en apparence, or ça, n’importe quel ordinateur peut le faire.

Ensuite, Meta-Press.es intègre déjà un catalogue de sources connues (principalement des journaux, mais aussi des radios ou des agrégateurs de publications scientifiques), et est directement capable de chercher dans toutes ces sources, alors qu’un agrégateur de flux RSS doit être configuré flux par flux.

Actuellement, la base contient un peu plus de 100 sources (de 38 pays et en 21 langues), dont déjà 10 % ont été ajoutées par des contributeurs. Ces sources sont organisées par un système d’étiquettes pour les thèmes abordés, la langue ou d’autres critères techniques. Ce système permet d’accueillir toutes les contributions et l’utilisateur choisira ensuite dans quoi il veut chercher.

Apparemment c’est surtout pour faire de la veille sur la presse, est-ce que ça peut intéresser tout le monde ou est-ce un truc de « niche » pour un nombre limité de personnes qui peuvent y trouver des avantages ?

L’extension a été développée avec le cas d’usage de la revue de presse de la Quadrature du Net en tête. On est toujours plus efficace en grattant soi-même là où ça démange.

Mais les journalistes auxquels j’ai présenté Meta-Press.es se sont également montrés enthousiastes, car l’outil renvoie toujours les mêmes résultats quand on fait les mêmes recherches (même si on change d’ordinateur ou de connexion internet). Ce n’est pas le cas quand ils utilisent Google News, car l’entreprise traque leur comportement (historique des recherches, articles consultés) pour renvoyer ensuite des résultats de recherche « personnalisés » (donc différents d’une fois sur l’autre), et surtout, pour vendre aux annonceurs de la publicité ciblée.

Et puis un Mastonaute a récemment trouvé un autre moyen de se servir de Meta-Press.es :

Au-delà des recherches, ce que permet Meta-Press.es, c’est d’exporter les résultats d’une recherche dans un fichier. On peut ainsi :

• archiver les résultats ;
• les reprendre plus tard (même hors-connexion) ;
• les envoyer à un ami.

On peut également sélectionner les résultats que l’on souhaite exporter. Une sélection exportée au format RSS peut ensuite facilement être ajoutée au flux RSS de la revue de presse d’une association (comme c’est le cas pour LQDN).
Cela épargne les deux-tiers du travail dans ce domaine, qui consistait sinon à copier chaque information (titre, date, source, extrait…) de la page du journal à l’outil générant le flux de la revue de presse.

D’ailleurs, pendant mes années de revue de presse à LQDN, plusieurs associations amies nous ont demandé quels outils on utilisait de notre côté. On a répondu à chaque fois qu’on utilisait plusieurs outils faits main (la nuit par l’un des cofondateurs) emboîtés les uns dans les autres sans documentation technique et que l’essentiel du travail restait fait à la main. C’était frustrant pour tout le monde.

Aujourd’hui, l’outil est là, revenez les amis, nous pouvons désormais tous nous partager Meta-Press.es !

Logo de l’extension par Elisa de Guerra-Castro

———*———*———

Bon, pendant que les plus impatients sont déjà en train de tester l’extension et de s’en servir, nous avons d’autres lecteurs et lectrices un peu plus techniques qui veulent savoir comment ça se passe dans les coulisses, et pour commencer avec quelles briques tu as travaillé…

Techniquement, c’est fait en JavaScript moderne (ECMAScript6/7) avec tous les meilleurs exemples trouvés sur StackOverflow, developer.mozilla.org et surtout les API récentes comme : async/await, <script type= »module »>, fetch, crypto, domParser, XPathEvaluator…

Je suppose que certain⋅es vont vouloir ajouter des « sources »…

Le processus de contribution des sources a été simplifié au maximum.

D’ailleurs, la première contribution à Meta-Press.es en a détourné l’usage pour y intégrer une dizaine de sources de publications scientifiques. C’est un cas auquel je n’avais pas pensé en développant Meta-Press.es, mais la contribution s’est facilement intégrée au reste du projet, on a juste eu à y mettre l’étiquette de thème : « science ».

Si la source propose des résultats de recherche sous la forme d’un flux RSS, il suffit en gros de préciser le nom de la source et l’adresse du flux (en remplaçant les termes de recherche par : {}) dans le champ d’exemple de source des paramètres de l’extension. La plupart des journaux qui utilisent le moteur WordPress fournissent ce flux (sûrement sans même le savoir), ce qui représente un tiers des sources de Meta-Press.es à l’international. En revanche en France, beaucoup de journaux utilisent SPIP comme moteur de site web, or SPIP n’intègre pas cette fonctionnalité par défaut… Une mise à jour serait très bienvenue ! En proportion, les flux RSS représentent donc environ 30% des sources actuelles, contre 1% de flux ATOM (la bataille est moins serrée qu’entre vim et emacs).
Si la source ne propose pas de résultats en RSS, l’exercice peut se résumer à rassembler une URL et 4 sélecteurs CSS. Toutefois, il faut donc parler HTML et CSS couramment, et bien souvent RegEx aussi pour arriver à ses fins. J’ai listé des documentations synthétiques dans le README.adoc du projet sur Framagit.

Une source est donc décrite par un objet JSON dans lequel on détaille comment accéder à chaque information dans la page de résultats (par des sélecteurs CSS donc pour pointer les éléments) et éventuellement en ajoutant un retraitement du texte obtenu par motif de remplacement en expression rationnelle. Pour s’exercer, l’ajout d’une source peut se faire directement depuis les paramètres de l’extension (où vous trouverez des conseils et les sources fournies en exemples). Si vous avez un résultat fonctionnel, vous pouvez vous contenter de me l’envoyer simplement par courriel, je m’occuperai de l’intégrer au projet.

J’avais testé en 2013 plusieurs solutions pour voir ce qui était le plus rapide dans le rapatriement et l’analyse des pages web listant les résultats de recherche de chaque source. Entre autres, les pages de résultat sont analysées par Firefox dans ce qu’on appelle un fragment de HTML. Ce dernier n’est pas complètement interprété par le navigateur web (pas de rendu graphique). Entre autres, les images et les feuilles de style de la page ne sont pas chargées. Il n’y en a pas besoin. En se contentant du HTML les choses se passent bien plus rapidement que s’il fallait charger les mégaoctets d’images et de traqueurs des journaux.

En puisant les résultats dans des flux RSS, le traitement devrait aller encore plus vite car la structure XML d’un flux RSS est minimaliste. Mais les serveurs web priorisent mal ces requêtes, alors les flux RSS mettent facilement plus de 10 secondes à arriver.

Une autre question épineuse, liée au JavaScript est celle de l’analyse des dates en format non américain. De nombreuses bibliothèques de fonction existent pour parer aux déficiences de la norme, mais elles sont généralement volumineuses et lentes. Je propose ma propre solution dans ce domaine, avec la fonction JavaScript `month_nb` qui se contente de transformer un nom de mois en son numéro, mais sait le faire pour 69 langues et n’a même pas besoin de connaître la langue du mois à convertir. J’en ai parlé plus longuement sur le site de Meta-Press.es notamment pour détailler l’aspect minimaliste et ré-utilisable de mon approche : il fallait là aussi « faire rentrer le monde dans un fichier JSON » mais ça c’est bon, c’est fait.

Mais pourquoi avoir choisi une extension pour Firefox plutôt qu’une appli pour Android ou une appli standalone à installer sur son ordinateur… ?

Je faisais tenir mes premiers prototypes dans un unique fichier HTML. Je trouvais ça élégant d’avoir tout dans un seul fichier : le code, l’interface graphique, les données… Et puis un fichier HTML c’est facile à distribuer (par clé USB, en pièce jointe d’un courriel, directement sur le web…). Toutefois, comme je l’ai expliqué dans le billet « Motivations » du blog du projet, une contrainte technique empêchait ce modèle de fonctionner pour Meta-Press.es : on ne peut pas accéder au contenu d’une iframe depuis le JavaScript d’une simple page web.
Et puis j’ai compris qu’avec une extension pour Firefox la contrainte pouvait être levée. J’ai donc tout naturellement continué mon travail dans cette direction, en m’appuyant sur les technologies que je manipule au quotidien : le Web.
Avec un peu de recul, je considère que c’était une excellente idée. Firefox est probablement l’analyseur de HTML le plus rapide au monde, en cours de ré-écriture, par morceaux, en Rust. Piloter cette fusée via un langage de script se révèle à la fois plaisant et efficace.

Si j’avais voulu faire une application à part, j’aurais probablement utilisé le langage Python (dont je préfère la syntaxe, surtout édité avec vim et des tabulations !), mais j’aurais forcément eu à manipuler un analyseur de page web moins rapide et probablement moins à jour.

Ensuite, en tant qu’extension de Firefox, Meta-Press.es est aussi utilisable avec le navigateur web Tor, qui est taillé pour la protection de votre vie privée et installable en quelques clics sur n’importe quel ordinateur et quasiment n’importe que système d’exploitation.
Le navigateur Tor a été inventé en grande partie pour lire la presse en ligne sans être suivi, ni laisser de traces. Les deux font donc la paire. Avec le navigateur Tor les journaux ne savent pas qui vous êtes, et avec Meta-Press.es vous n’avez plus besoin de Google pour les trouver. Retour au modèle du bon vieux journal lu dans le fauteuil du salon, sans autres conséquences, ni à court, ni à long terme.

En ce qui concerne Android, l’extension fonctionne parfaitement une fois installée sur Firefox pour Android (ou la version IceCatMobile en provenance de la logithèque libre pour Android : F-Droid.org).

Mozilla offre l’avantage de fournir l’infrastructure de distribution du programme et un référencement (l’extension est facile à retrouver via le moteur de recherche d’addons.mozilla.org avec les mots-clés « meta presse »). Mozilla gère les mise à jour, des retours utilisateurs rapides ou complets via les commentaires, la notation par étoiles et même une porte de collecte de dons pour soutenir le projet — qui fonctionne très bien ;-).

Si l’on ajoute la documentation et les recommandations suite à l’analyse du code (automatique mais aussi effectuée par des humains), c’est une plateforme très accueillante.

Dans l’actualité récente les éditeurs de presse en ligne français étaient en conflit avec Google et son moteur de recherche. Est-ce que de nouvelles contraintes légales ne vont pas impacter Meta-Press.es ?

Oui, j’ai suivi ce feuilleton, et non ça ne devrait avoir de conséquence pour Meta-Press.es.
Pour reprendre un peu le sujet, tout se joue autour de la directive européenne sur les éditeurs de presse en ligne, que les élites du gouvernement se sont empressées de transposer en droit français, pour l’exemple et avec de grandes annonces.
Cet épisode a donné lieu en septembre à de savoureux échanges entre Google et les éditeurs. Le fond du problème était que les éditeurs, déjà sous perfusion de l’État, ont cru qu’ils pourraient taxer Google aussi (en améliorant la rente de leur situation, plutôt qu’en s’adaptant à un monde qui change), au moins pour un montant proportionnel à l’extrait d’article que Google republie chez lui, à côté de ses publicités, et dont de plus en plus de lecteurs se contentent (comme je l’ai détaillé dans ce commentaire sur LinuxFR.org).

Ça m’a fait bizarre, mais c’est Google que j’ai trouvé de bonne foi pour le coup : aucune raison de payer la rançon. Le géant américain a d’ailleurs simplement répliqué en retirant les extraits visés, en publiant des stats sur la faible consultation des résultats de Google News sans extrait, et en indiquant que pour un retour aux affaires il suffisait de préciser son accord via un fichier hébergé par chaque journal (une directive du fameux robot.txt).
En deux semaines la moitié des éditeurs avaient autorisé Google à reprendre gratuitement les extraits, au bout d’un mois tous avaient rejoint le rang. Tout ce travail législatif international pour en arriver là : un communiqué de presse du moteur de recherche et des redditions sans condition de la presse.

Aujourd’hui c’est facile à dire, mais je pense que les éditeurs n’ont pas pris le bon chemin… Au lieu d’essayer de jouer au plus malin et de perdre magistralement⁵, ils devraient chercher à s’émanciper de cet intermédiaire qui valorise sa pub avec leurs contenus. Un moyen de se débarrasser de cet intermédiaire, ce serait de développer eux-mêmes un Meta-Press.es, rien ne l’empêche techniquement. Après, j’ai quelques années d’avance, mais rien ne les empêche non plus de me soutenir.

Je me suis logiquement fait quelques sueurs froides, inquiet de voir bouger l’horizon juridique d’un projet sur lequel je me suis attelé depuis plusieurs années. Mais je vais pouvoir laisser les extraits de résultats de recherche dans Meta-Press.es, car cet outil n’entre pas dans le périmètre d’application de la loi, qui ne vise que les plateformes commerciales, ce que n’est pas Meta-Press.es. De plus, Meta-Press.es ne publie rien, tout se passe entre le navigateur d’un internaute et les journaux, pas d’intermédiaire.

Pas d’intermédiaire, mais plein d’idées pour continuer le développement de l’outil ?

Ça oui ! À commencer par l’indispensable mise en place d’un cadriciel (framework) de test automatisé des sources, pour tenir toute la collection à jour en détectant celles dont la présentation des résultats a changé et doit être revue.
Ensuite, j’ai déjà évoqué l’ajout d’un format d’export CSV ou la présentation de l’extension sur écran de téléphone, mais l’outil pourrait par exemple également être internationalisé pour en diffuser plus largement l’usage.
Une grande idée serait d’implémenter un test de rapidité de réponse des sources, pour ne retenir que les sources qui répondent rapidement chez vous.
La possibilité de récupérer plus que les 10 derniers résultats de chaque source est également sur les rails, et en fait malheureusement, la TODO-list du projet ne fait que s’agrandir au fur et à mesure que je travaille à la réduire…

Comment vois-tu la suite pour Meta-presse.es ?

Meta-Press.es n’est pas une grande menace pour Google, mais c’est une alternative techniquement viable.

Il faut maintenant faire l’inventaire des journaux du monde⁶ et mettre cet index en commun dans le dépôt des sources de Meta-Press.es. Je n’y arriverai pas seul, mais je suis bien déterminé à faire cette part de dé-Google-isation de l’internet⁷ et à la faire bien, dans la plus pure tradition Unix (une chose à la fois, mais bien faite).

Cela fait déjà des années que je travaille sur Meta-Press.es et je porterai ce projet le plus loin possible. Avec moi une contribution n’est jamais gaspillée. Alors je compte sur vous pour m’aider à indexer la presse en ligne.

Je vous encourage à bidouiller votre source préférée et à me l’envoyer si elle fonctionne ou si vous avez besoin d’un coup de pouce pour terminer. Indiquez-moi par courriel les sources à flux RSS que vous avez trouvées car elles sont très rapides à intégrer, et normalement stables dans le temps⁸.

Cet inventaire, réalisé pour un projet libre et fait dans un format standard (JSON) sera réutilisable à volonté. C’est une autre garantie qu’aucune contribution ne sera perdue.

D’autres malices dans ta boîte à projets ?

Avec les connaissances acquises en développement d’extension pour Firefox, il y a d’autres problèmes auxquels j’aimerais proposer des solutions… Je pense par exemple au paiement en ligne sur le Web. C’est parce qu’il n’y a pas de moyen simple de payer en un clic que la plupart des éditeurs de contenus s’empressent de grever leurs œuvres de publicité, parce que ça, au moins, ça rapporte, et sans trop d’efforts.

Une solution pourrait être proposée sous la forme d’une extension de Firefox. Une extension qui lirait le contenu des liens affublés du protocole payto: (comme il existe déjà le mailto:), ouvrirait une fenêtre de sélection de banque, proposerait de vous loguer sur votre compte via le site officiel de votre banque, et vous avancerait en lecture rapide jusqu’à la validation d’un virement bancaire, pour le destinataire précisé dans le lien payto:, pour le montant, le libellé et la devise précisée.

Dans l’idéal, les banques proposeraient une interface pour faire ça facilement, mais elles ne le font pas, et on n’en a pas forcément besoin pour que ça marche, il suffit d’arpenter leur interface web comme on le fait pour les résultats de recherche des journaux avec Meta-Press.es.

Coupler cette idée avec les virements rapides que les banques sont en train de concéder pour faire face au Bitcoin, et voilà, le Web serait réparé…

S’il y a des financeurs que ça intéresse, moi je sais faire…

———*———*———

Aller sur le site officiel de Mozilla pour Télécharger l’extension Meta-press.es
Pour en savoir plus sur l’extension et les nouveautés de la récente version 1.2
Le code de l’extension sur son dépôt Framagit

———*———*———

C’est Qwant qu’on va où ?

L’actualité récente de Qwant était mouvementée, mais il nous a semblé qu’au-delà des polémiques c’était le bon moment pour faire le point avec Qwant, ses projets et ses valeurs.

Si comme moi vous étiez un peu distrait⋅e et en étiez resté⋅e à Qwant-le-moteur-de-recherche, vous allez peut-être partager ma surprise : en fouinant un peu, on trouve tout un archipel de services, certains déjà en place et disponibles, d’autres en phase expérimentale, d’autres encore en couveuse dans le labo.

Voyons un peu avec Tristan Nitot, Vice-président Advocacy de Qwant, de quoi il retourne et si le principe affiché de respecter la vie privée des utilisateurs et utilisatrices demeure une ligne directrice pour les applications qui arrivent.

Tristan Nitot, autoporttrait juillet 2019 — *Tristan Nitot, autoportrait (licence CC-BY)*

Bonjour Tristan, tu es toujours content de travailler pour Qwant malgré les périodes de turbulence ?
Oui, bien sûr ! Je reviens un peu en arrière : début 2018, j’ai déjeuné avec un ancien collègue de chez Mozilla, David Scravaglieri, qui travaillait chez Qwant. Il m’a parlé de tous les projets en logiciel libre qu’il lançait chez Qwant en tant que directeur de la recherche. C’est ce qui m’a convaincu de postuler chez Qwant.

J’étais déjà fan de l’approche liée au respect de la vie privée et à la volonté de faire un moteur de recherche européen, mais là, en plus, Qwant se préparait à faire du logiciel libre, j’étais conquis. À peine arrivé au dessert, j’envoie un texto au président, Eric Léandri pour savoir quand il m’embauchait. Sa réponse fut immédiate : « Quand tu veux ! ». J’étais aux anges de pouvoir travailler sur des projets qui rassemblent mes deux casquettes, à savoir vie privée et logiciel libre.

Depuis, 18 mois ont passé, les équipes n’ont pas chômé et les premiers produits arrivent en version Alpha puis Bêta. C’est un moment très excitant !

Récemment, Qwant a proposé Maps en version Bêta… Vous comptez vraiment rivaliser avec Google Maps ? Parce que moi j’aime bien Street View par exemple, est-ce que c’est une fonctionnalité qui viendra un jour pour Qwant Maps ?

Rivaliser avec les géants américains du capitalisme de surveillance n’est pas facile, justement parce qu’on cherche un autre modèle, respectueux de la vie privée. En plus, ils ont des budgets incroyables, parce que le capitalisme de surveillance est extrêmement lucratif. Plutôt que d’essayer de trouver des financements comparables, on change les règles du jeu et on se rapproche de l’écosystème libre OpenStreetMap, qu’on pourrait décrire comme le Wikipédia de la donnée géographique. C’est une base de données géographiques contenant des données et des logiciels sous licence libre, créée par des bénévoles autour desquels viennent aussi des entreprises pour former ensemble un écosystème. Qwant fait partie de cet écosystème.
En ce qui concerne les fonctionnalités futures, c’est difficile d’être précis, mais il y a plein de choses que nous pouvons mettre en place grâce à l’écosystème OSM. On a déjà ajouté le calcul d’itinéraires il y a quelques mois, et on pourrait se reposer sur Mapillary pour avoir des images façon StreetView, mais libres !

Dis donc, en comparant 2 cartes du même endroit, on voit que Qwant Maps a encore des progrès à faire en précision ! Pourquoi est-ce que Qwant Maps ne reprend pas l’intégralité d’Open Street Maps ?

vue du centre de la ville de La Riche avec la requête "médiathèque la Riche" par OpenStreetMap — vue du centre de la ville de La Riche avec la requête « médiathèque la Riche » par OpenStreetMap

vue du centre de la ville de La Riche avec la requête "médiathèque la Riche" par QwantMaps. La médiathèque est clairement et mieux signalée visuellement (efficacité) mais la carte est moins détaillée (précision) que la version OSM — *vue du centre de la ville de La Riche avec la requête « médiathèque la Riche » par QwantMaps*

En fait, OSM montre énormément de détails et on a choisi d’en avoir un peu moins mais plus utilisables. On a deux sources de données pour les points d’intérêt (POI) : Pages Jaunes, avec qui on a un contrat commercial et OSM. On n’affiche qu’un seul jeu de POI à un instant t, en fonction de ce que tu as recherché.

Quand tu choisis par exemple « Restaurants » ou « Banques », sans le savoir tu fais une recherche sur les POI Pages Jaunes. Donc tu as un fond de carte OSM avec des POI Pages Jaunes, qui sont moins riches que ceux d’OSM mais plus directement lisibles.

Bon d’accord, Qwant Maps utilise les données d’OSM, c’est tant mieux, mais alors vous vampirisez du travail bénévole et libre ? Quelle est la nature du deal avec OSM ?

Non, bien sûr, Qwant n’a pas vocation à vampiriser l’écosystème OSM : nous voulons au contraire être un citoyen modèle d’OSM. Nous utilisons les données et logiciels d’OSM conformément à leur licence. Il n’y a donc pas vraiment de deal, juste un respect des licences dans la forme et dans l’esprit. Par exemple, on met un lien qui propose aux utilisateurs de Qwant Maps d’apprendre à utiliser et contribuer à OSM. En ce qui concerne les logiciels libres nécessaires au fonctionnement d’OSM, on les utilise et on y contribue, par exemple avec les projets Mimirsbrunn, Kartotherian et Idunn. Mes collègues ont écrit un billet de blog à ce sujet.

Nous avons aussi participé à la réunion annuelle d’OSM, State Of the Map (SOTM) à Montpellier le 14 juin dernier, où j’étais invité à parler justement des relations entre les entreprises comme Qwant et les projets libres de communs numériques comme OSM. Les mauvais exemples ne manquent pas, avec Apple qui, avec Safari et Webkit, a sabordé le projet Konqueror de navigateur libre, ou Google qui reprend de la data de Wikipédia mais ne met pas de lien sur comment y contribuer (alors que Qwant le fait). Chez Qwant, on vise à être en symbiose avec les projets libres qu’on utilise et auxquels on contribue.

Google Maps a commencé à monétiser les emplois de sa cartographie, est-ce qu’un jour Qwant Maps va être payant ?

En réalité, Google Maps est toujours gratuit pour les particuliers (approche B2C Business to consumer). Pour les organisations ou entreprises qui veulent mettre une carte sur leur site web (modèle B2B Business to business), Google Maps a longtemps été gratuit avant de devenir brutalement payant, une fois qu’il a éliminé tous ses concurrents commerciaux. Il apparaît assez clairement que Google a fait preuve de dumping.

Pour le moment, chez Qwant, il n’y a pas d’offre B2B. Le jour où il y en aura une, j’espère que le un coût associé sera beaucoup plus raisonnable que chez Google, qui prend vraiment ses clients pour des vaches à lait. Je comprends qu’il faille financer le service qui a un coût, mais là, c’est exagéré !

Quand j’utilise Qwant Maps, est-ce que je suis pisté par des traqueurs ? J’imagine et j’espère que non, mais qu’est-ce que Qwant Maps « récolte » et « garde » de moi et de ma connexion si je lui demande où se trouve Bure avec ses opposants à l’enfouissement de déchets nucléaires ? Quelles garanties m’offre Qwant Maps de la confidentialité de mes recherches en cartographie ?

C’est un principe fort chez Qwant : on ne veut pas collecter de données personnelles. Bien sûr, à un instant donné, le serveur doit disposer à la fois de la requête (quelle zone de la carte est demandée, à quelle échelle) et l’adresse IP qui la demande. L’adresse IP pourrait permettre de retrouver qui fait quelle recherche, et Qwant veut empêcher cela. C’est pourquoi l’adresse IP est salée et hachée aussitôt que possible et c’est le résultat qui est stocké. Ainsi, il est impossible de faire machine arrière et de retrouver quelle adresse IP a fait quelle recherche sur la carte. C’est cette méthode qui est utilisée dans Qwant Search pour empêcher de savoir qui a recherché quoi dans le moteur de recherche.

Est-ce que ça veut dire qu’on perd aussi le relatif confort d’avoir un historique utile de ses recherches cartographiques ou générales ? Si je veux gagner en confidentialité, j’accepte de perdre en confort ?
Effectivement, Qwant ne veut rien savoir sur la personne qui recherche, ce qui implique qu’on ne peut pas personnaliser les résultats, ni au niveau des recherches Web ni au niveau cartographique : pour une recherche donnée, chaque utilisateur reçoit les mêmes résultats que tout le monde.

Ça peut être un problème pour certaines personnes, qui aimeraient bien disposer de personnalisation. Mais Qwant n’a pas dit son dernier mot : c’est exactement pour ça que nous avons fait « Masq by Qwant ». Masq, c’est une application Web en logiciel libre qui permet de stocker localement dans le navigateur (en LocalStorage)⁹ et de façon chiffrée des données pour la personnalisation de l’expérience utilisateur. Masq est encore en Alpha et il ne permet pour l’instant que de stocker (localement !) ses favoris cartographiques. À terme, nous voulons que les différents services de Qwant utilisent Masq pour faire de la personnalisation respectueuse de la vie privée.

formulaire d’enregistrement de compte masq, avec de nombreux critères nécessaires pour le mot de passe — *Ouverture d’un compte Masq.*

Ah bon alors c’est fini le cloud, on met tout sur sa machine locale ? Et si on vient fouiner dans mon appareil alors ? N’importe quel intrus peut voir mes données personnelles stockées ?

Effectivement, tes données étant chiffrées, et comme tu es le seul à disposer du mot de passe, c’est ta responsabilité de conserver précieusement ledit mot de passe. Quant à la sauvegarde des données, tu as bien pensé à faire une sauvegarde, non ? 😉

Ah mais vous avez aussi un projet de reconnaissance d’images ? Comment ça marche ? Et à quoi ça peut être utile ?
C’est le résultat du travail de chercheurs de Qwant Research, une intelligence artificielle (plus concrètement un réseau de neurones) qu’on a entraînée avec Pytorch sur des serveurs spécialisés DGX-1 en vue de proposer des images similaires à celles que tu décris ou que tu téléverses.

copie d’écran de Qwant Qiss (recherche d’images) — *On peut chercher une image ou bien « déposer une image » pour en trouver de similaires.*

Ah tiens j’ai essayé un peu, ça donne effectivement des résultats rigolos : si on cherche des saucisses, on a aussi des carottes, des crevettes et des dents…

C’est encore imparfait comme tu le soulignes, et c’est bien pour ça que ça n’est pas encore un produit en production ! On compte utiliser cette technologie de pointe pour la future version de notre moteur de recherche d’images.

Comment je fais pour signaler à l’IA qu’elle s’est plantée sur telle ou telle image ? C’est prévu de faire collaborer les bêta-testeurs ? Est-ce que Qwant accueille les contributions bénévoles ou militantes ?
Il est prévu d’ajouter un bouton pour que les utilisateurs puissent valider ou invalider une image par rapport à une description. Pour des projets de plus en plus nombreux, Qwant produit du logiciel libre et donc publie le code. Par exemple pour la recherche d’image, c’est sur https://github.com/QwantResearch/text-image-similarity. Les autres projets sont hébergés sur les dépôts https://github.com/QwantResearch : les contributions au code (Pull requests) et les descriptions de bugs (issues) sont les bienvenus !

Bon je vois que Qwant a l’ambition de couvrir autant de domaines que Google ? C’est pas un peu hégémonique tout ça ? On se croirait dans Dégooglisons Internet !

Qwant Music (depuis juin 2016)
Boards, des « carnets » personnels en ligne
Qwant Junior
et encore ce projet-là parmi d’autres…

Effectivement, nos utilisateurs attendent de Qwant tout un univers de services. La recherche est pour nous une tête de pont, mais on travaille à de nouveaux services. Certains sont des moteurs de recherche spécialisés comme Qwant Junior, pour les enfants de 6 à 12 ans (pas de pornographie, de drogues, d’incitation à la haine ou à la violence).

Comment c’est calculé, les épineuses questions de résultats de recherche ou non avec Qwant Junior ? Ça doit être compliqué de filtrer…

échec de rceherche avec Qwant Junior : un petit dino dit "oups, je n’ai pas trouvé de résultats qui te conviennent" — *Qwant Junior ne montre pas d’images de sexe masculin, tant mieux/tant pis ?*

Nous avons des équipes qui gèrent cela et s’assurent que les sujets sont abordables par les enfants de 6 à 12 ans, qui sont notre cible pour Junior.
Ça n’est pas facile effectivement, mais nous pensons que c’est important. C’est une idée qui nous est venue au lendemain des attentats du Bataclan où trop d’images choquantes étaient publiées par les moteurs de recherche. C’était insupportable pour les enfants. Et puis Junior, comme je le disais, n’a pas vocation à afficher de publicité ni à capturer de données personnelles. C’est aussi pour cela que Qwant Junior est très utilisé dans les écoles, où il donne visiblement satisfaction aux enseignants et enseignantes.

Mais euh… « filtrer » les résultats, c’est le job d’un moteur de recherche ?

Il y a deux questions en fait. Pour un moteur de recherche pour enfants, ça me parait légitime de proposer aux parents un moteur qui ne propose pas de contenus choquants. Qwant Junior n’a pas vocation à être neutre : c’est un service éditorialisé qui fait remonter des contenus à valeur pédagogique pour les enfants. C’est aux parents de décider s’ils l’utilisent ou pas.
Pour un moteur de recherche généraliste revanche, la question est plutôt d’être neutre dans l’affichage des résultats, dans les limites de la loi.

Tiens vous avez même des trucs comme Causes qui propose de reverser l’argent des clics publicitaires à de bonnes causes ? Pour cela il faut désactiver les bloqueurs de pub auxquels nous sommes si attachés, ça va pas plaire aux antipubs…

En ce qui concerne Qwant Causes, c’est le moteur de recherche Qwant mais avec un peu plus de publicité. Et quand tu cliques dessus, cela rapporte de l’argent qui est donné à des associations que tu choisis. C’est une façon de donner à ces associations en faisant des recherches. Bien sûr si tu veux utiliser un bloqueur de pub, c’est autorisé chez Qwant, mais ça n’a pas de sens pour Qwant Causes, c’est pour ça qu’un message d’explication est affiché.

Est-ce que tous ces services sont là pour durer ou bien seront-ils fermés au bout d’un moment s’ils sont trop peu employés, pas rentables, etc. ?

Tous les services n’ont pas vocation à être rentables. Par exemple, il n’y a pas de pub sur Qwant Junior, parce que les enfants y sont déjà trop exposés. Mais Qwant reste une entreprise qui a vocation à générer de l’argent et à rémunérer ses actionnaires, donc la rentabilité est pour elle une chose importante. Et il y a encore de la marge pour concurrencer les dizaines de services proposés par Framasoft et les CHATONS 😉

Est-ce que Qwant est capable de dire combien de personnes utilisent ses services ? Qwant publie-t-elle des statistiques de fréquentation ?
Non. D’abord, on n’identifie pas nos utilisateurs, donc c’est impossible de les compter : on peut compter le nombre de recherches qui sont faites, mais pas par combien de personnes. Et c’est très bien comme ça ! Tout ce que je peux dire, c’est que le nombre de requêtes évolue très rapidement : on fait le point en comité de direction chaque semaine, et nous battons presque à chaque fois un nouveau record !

Bon venons-en aux questions que se posent souvent nos lecteurs et lectrices : Qwant et ses multiples services, c’est libre, open source, ça dépend ?

Non, tout n’est pas en logiciel libre chez Qwant, mais si tu vas sur les dépôts de Qwant et Qwant Research tu verras qu’il y a déjà plein de choses qui sont sous licence libre, y compris des choses stratégiques comme Graphee (calcul de graphe du Web) ou Mermoz (robot d’indexation du moteur). Et puis les nouveaux projets comme Qwant Maps et Masq y sont aussi.

La publicité est une source de revenus dans votre modèle économique, ou bien vous vendez des services à des entreprises ou institutions ? Qwant renonce à un modèle économique lucratif qui a fait les choux gras de Google, mais alors comment gagner de l’argent ?
Oui, Qwant facture aussi des services à des institutions dans le domaine de l’open data par exemple, mais l’essentiel du revenu vient de la publicité contextuelle, à ne pas confondre avec la publicité ciblée telle que faite par les géants américains du Web. C’est très différent.
La publicité ciblée, c’est quand tu sais tout de la personne (ses goûts, ses habitudes, ses déplacements, ses amis, son niveau de revenu, ses recherches web, son historique de navigation, et d’autres choses bien plus indiscrètes telles que ses opinions politiques, son orientation sexuelle ou religieuse, etc.). Alors tu vends à des annonceurs le droit de toucher avec de la pub des personnes qui sont ciblées. C’est le modèle des géants américains.
Qwant, pour sa part, ne veut pas collecter de données personnelles venant de ses utilisateurs. Tu as sûrement remarqué que quand tu vas sur Qwant.com la première fois, il n’y a pas de bannière « acceptez nos cookies ». C’est normal, nous ne déposons pas de cookies quand tu fais une recherche Qwant !

Personnane de Geektionerd : "Qwant avance, ta vie privée ne recule pas". intrelocuteur l’air sceptique fait : mmmmmh… — *L’équipe Qwant’Comm en plein brainstorming…*

Quand tu fais une recherche, Qwant te donne une réponse qui est la même pour tout le monde. Tu fais une recherche sur « Soupe à la tomate » ? On te donne les résultats et en même temps on voit avec les annonceurs qui est intéressé par ces mots-clés. On ignore tout de toi, ton identité ou ton niveau de revenu. Tout ce qu’on sait, c’est que tu as cherché « soupe à la tomate ». Et c’est ainsi que tu te retrouves avec de la pub pour du Gaspacho ou des ustensiles de cuisine. La publicité vaut un peu moins cher que chez nos concurrents, mais les gens cliquent dessus plus souvent. Au final, ça permet de financer les services et d’en inventer de nouveaux tout en respectant la vie privée des utilisateurs et de proposer une alternative aux services américains gourmands en données personnelles. On pourrait croire que ça ne rapporte pas assez, pourtant c’était le modèle commercial de Google jusqu’en 2006, où il a basculé dans la collecte massive de données personnelles…

Dans quelle mesure Qwant s’inscrit-il dans la reconquête de la souveraineté européenne contre la domination des géants US du Web ?
Effectivement, parmi les deux choses qui différencient Qwant de ses concurrents, il y a la non-collecte de données personnelles et le fait qu’il est français et à vocation européenne. Il y a un truc qui me dérange terriblement dans le numérique actuel, c’est que l’Europe est en train de devenir une colonie numérique des USA et peut-être à terme de la Chine. Or, le numérique est essentiel dans nos vies. Il les transforme ! Ces outils ne sont pas neutres, ils sont le reflet des valeurs de ceux qui les produisent.

Aux USA, les gens sont considérés comme des consommateurs : tout est à vendre à ou à acheter. En Europe, c’est différent. Ça n’est pas un hasard si la CNIL est née en France, si le RGPD est européen : on a conscience de l’enjeu des données personnelles sur la citoyenneté, sur la liberté des gens. Pour moi, que Qwant soit européen, c’est très important.

Merci d’avoir accepté de répondre à nos questions. Comme c’est la tradition de nos interviews, on te laisse le mot de la fin…

Je soutiens Framasoft depuis toujours ou presque, parce que je sais que ce qui y est fait est vraiment important : plus de libre, moins d’hégémonie des suspects habituels, plus de logiciel libre, plus de valeur dans les services proposés.
J’ai l’impression d’avoir avec Qwant une organisation différente par nature (c’est une société, avec des actionnaires), mais avec des objectifs finalement assez proches : fournir des services éthiques, respectueux de la vie pivée, plus proches des gens et de leurs valeurs, tout en contribuant au logiciel libre. C’est ce que j’ai tenté de faire chez Mozilla pendant 17 ans, et maintenant chez Qwant. Alors, je sais que toutes les organisations ne sont pas parfaites, et Qwant ne fait pas exception à la règle. En tout cas, chez Qwant on fait du mieux qu’on peut !

Vive l’Internet libre et ceux qui œuvrent à le mettre en place et à le défendre !

De Gaulle au balcon de Québec, bras en V, image de 1967 détournée en "Vive l’Internet Libre !" en rouge — D’après une image d’archive, De Gaulle s’adressant aux Québecois en 1967 (© Rare Historical Photos)

Un vaste réservoir d’images sous licences libres

Vous cherchez des images utilisables pour vos sites ou publications ? Savez-vous qu’il est facile d’en trouver avec divers niveaux de permissions via le moteur de recherche des Creative Commons ?

Ces petits logos, familiers des libristes, sont souvent combinés et permettent de savoir précisément à quelles conditions vous pouvez utiliser les images :

Attribution : vous devez mentionner l’identité de l’auteur initial (obligatoire en droit français) (sigle : BY)

Non Commercial : vous ne pouvez pas tirer un profit commercial de l’œuvre sans autorisation de l’auteur (sigle : NC)

No derivative works : vous ne pouvez pas intégrer tout ou partie dans une œuvre composite (sigle : ND)

Share alike : partage de l’œuvre, vous pouvez rediffuser mais selon la même licence ou une licence similaire (sigle : SA)

Si vous êtes dans le monde de l’éducation, pensez à faire adopter les bonnes pratiques aux élèves et étudiants qui ont besoin d’illustrer un document et qui ont tendance à piller Google images sans trop se poser de questions…

… mais il arrive souvent que de grands médias donnent aussi de bien mauvais exemples !

Si vous êtes embarrassé⋅e pour ajouter les crédits nécessaires sous l’image que vous utilisez, le nouveau moteur de recherche de Creative Commons vous facilite la tâche. C’est une des nouveautés qui en font une ressource pratique et précieuse, comme Jane Park l’explique dans l’article ci-dessous.

Article original : CC Search is out of beta with 300M images and easier attribution

Traduction Framalang : Goofy

Le moteur de recherche de Creative Commons propose maintenant 300 millions d’images plus faciles à attribuer

par Jane Park

Désormais la recherche Creative Commons n’est plus en version bêta, elle propose plus de 300 millions d’images indexées venant de multiples collections, une interface entièrement redessinée ainsi qu’une recherche plus pertinente et plus rapide. Tel est le résultat de l’énorme travail de l’équipe d’ingénieurs de Creative Commons avec l’appui de notre communauté de développeurs bénévoles.

CC Search parcourt les images de 19 collections grâce à des API ouvertes et le jeu de données Common Crawl, ce qui inclut les œuvres artistiques et culturelles des musées (le Metropolitan Museum of Art, le Cleveland Museum of Art), les arts graphiques (Behance, DeviantArt), les photos de Flickr, et un premier jeu de créations en 3D sous CC0 issus de Thingiverse.

Au plan esthétique et visuel, vous allez découvrir des changements importants : une page d’accueil plus sobre, une navigation meilleure avec des filtres, un design en harmonie avec le portail creativecommons.org, des options d’attribution faciles à utiliser et des canaux de communication efficaces pour faire remonter vos questions, réactions et désirs, tant sur les fonctionnalités du site que sur les banques d’images. Vous trouverez également un lien direct vers la page d’accueil des Creative Commons (le site de l’ancienne recherche est toujours disponible si vous préférez).

copie d’écran interface ancienne de la recherche de creative commons — Interface ancienne de la recherche d’images, qui demandait plusieurs étapes

copie d’écran, champ de saisie unique pour la recherche CC — *Nouvelle interface qui unifie les recherches à partir d’un seul champ de saisie*

Résultats de recherche du mot "Goofy" avec CC search — *à gauche le nombre de résultats disponibles, et au survol de l’image, les symboles qui signalent les niveaux de permission*

Si vous jetez un œil sous le capot, vous verrez que nous avons réussi à diminuer le temps de recherche et nous avons amélioré la pertinence de la recherche par phrase. Nous avons aussi implémenté des métriques pour mieux comprendre quand et comment les fonctionnalités sont utilisées. Enfin, nous avons bien sûr corrigé beaucoup de bugs que la communauté nous a aidé à identifier.

copie d’écran attribution facile des crédits — *Une fois l’image sélectionnée, un simple clic pour copier les crédits (en texte enrichi ou en HTML)*

Et bientôt…

Nous allons continuer à augmenter la quantité d’images de notre catalogue, en visant en priorité les collections d’images comme celles de Europeana et Wikimedia Commons. Nous projetons aussi d’indexer davantage de types d’œuvres sous licences CC, tels que les manuels et les livres audio, vers la fin de l’année. Notre but final demeure inchangé : donner l’accès à 1,4 milliard d’œuvres qui appartiennent aux Communs), mais nous sommes avant tout concentrés sur les images que les créateurs et créatrices désirent utiliser de diverses façons, comment ils peuvent apprendre à partir de ces images, les utiliser avec de larges permissions, et restituer leur exp)érience à tous pour nourrir la recherche Creative Commons.

Du point de vue des fonctionnalités, des avancées spécifiques figurent dans notre feuille de route pour ce trimestre : des filtres pour une utilisation avancée sur la page d’accueil, la possibilité de parcourir les collections sans entrer de termes de recherche, et une meilleure accessibilité et UX sur mobile. De plus, nous nous attendons à ce que certains travaux liés à la recherche CC soient effectués par nos étudiants du Google Summer of Code à partir du mois de mai.

Le mois prochain à Lisbonne, au Portugal, nous présenterons l’état de la recherche (“State of CC Search”) à notre sommet mondial (CC Global Summit) où sera réunie toute une communauté internationale pour discuter des développements souhaités et des collections pour CC Search.

Participez !

Vos observations sont précieuses, nous vous invitons à nous communiquer ce que vous souhaiteriez voir s’améliorer. Vous pouvez également rejoindre le canal #cc-usability sur le Slack de CC pour vous tenir au courant des dernières avancées.

Tout notre code, y compris celui qui est utilisé pour la recherche CC, est open source (CC Search, CC Catalog API, CC
Catalog) et nous faisons toujours bon accueil aux contributions de la communauté. Si vous savez coder, nous vous
invitons à nous rejoindre pour renforcer la communauté grandissante de développeurs de CC.

Remerciements

CC Search est possible grâce à un certain nombre d’institutions et d’individus qui la soutiennent par des dons. Nous aimerions remercier en particulier Arcadia, la fondation de Lisbet Rausing et Peter Baldwin, Mozilla, et la fondation Brin Wojcicki pour leur précieux soutien.

image deu geektionerd generator;, un personnage féminin fait remarquer que tout est sous licence CC BY-Sa — Sur le Framablog, on se sert souvent de GG le Générateur de Geektionerd. Pourquoi pas vous ?

Ce que récolte Google : revue de détail

Le temps n’est plus où il était nécessaire d’alerter sur la prédation opérée par Google et ses nombreux services sur nos données personnelles. Il est fréquent aujourd’hui d’entendre dire sur un ton fataliste : « de toute façon, ils espionnent tout »

Si beaucoup encore proclament à l’occasion « je n’ai rien à cacher » c’est moins par conviction réelle que parce que chacun en a fait l’expérience : « on ne peut rien cacher » dans le monde numérique. Depuis quelques années, les mises en garde, listes de précautions à prendre et solutions alternatives ont été largement exposées, et Framasoft parmi d’autres y a contribué.

Il manquait toutefois un travail de fond pour explorer et comprendre, une véritable étude menée suivant la démarche universitaire et qui, au-delà du jugement global approximatif, établisse les faits avec précision.

C’est à quoi s’est attelée l’équipe du professeur Douglas C. Schmidt, spécialiste depuis longtemps des systèmes logiciels, chercheur et enseignant à l’Université Vanderbilt, qui livre au public une étude d’une cinquantaine de pages intitulée Google Data Collection. Cette étude, qui nous semble pouvoir servir de référence, a retenu l’attention du groupe Framalang qui vous en livre ci-dessous l’executive summary, c’est-à-dire une sorte de résumé initial, qui en donne un aperçu programmatique.

Si vous trouvez un intérêt à cette traduction et souhaitez que Framalang vous propose la suite nous ferons de notre mieux…

Traduction Framalang : Alain, fab, FranBAG, Goofy, jums, Khrys, Mika, Piup, serici

La collecte de données de Google

Un premier aperçu

1.
Google est la plus grosse agence de publicité numérique du monde ¹⁰. Elle fournit aussi le leader des navigateurs web ¹¹, la première plateforme mobile ¹² ainsi que le moteur de recherche le plus utilisé au monde ¹³. La plateforme vidéo de Google, ses services de mail et de cartographie comptent 1 milliard d’utilisateurs mensuels actifs chacun ¹⁴. Google utilise l’immense popularité de ses produits pour collecter des données détaillées sur le comportement des utilisateurs en ligne comme dans la vie réelle, données qu’il utilisera ensuite pour cibler ses utilisateurs avec de la publicité payante. Les revenus de Google augmentent significativement en fonction de la finesse des technologies de ciblage des données.

2.
Google collecte les données utilisateurs de diverses manières. Les plus évidentes sont « actives », celles dans lesquelles l’utilisateur donne
directement et consciemment des informations à Google, par exemple en s’inscrivant à des applications très populaires telles que YouTube, Gmail, ou le moteur de recherche. Les voies dites « passives » utilisées par Google pour collecter des données sont plus discrètes, quand une application devient pendant son utilisation l’instrument de la collecte des données, sans que l’utilisateur en soit conscient. On trouve ces méthodes de collecte dans les plateformes (Android, Chrome), les applications (le moteur de recherche, YouTube, Maps), des outils de publication (Google Analytics, AdSense) et de publicité (AdMob, AdWords). L’étendue et l’ampleur de la collecte passive de données de Google ont été en grande partie négligées par les études antérieures sur le sujet ¹⁵.

3.
Pour comprendre les données que Google collecte, cette étude s’appuie sur quatre sources clefs :
a. Les outils Google « Mon activité » (My Activity) ¹⁶ et « Téléchargez vos données » (Takeout) ¹⁷, qui décrivent aux utilisateurs l’information collectée lors de l’usage des outils Google.
b. Les données interceptées lors de l’envoi aux serveurs de Google pendant l’utilisation des produits Google ou d’autres sociétés associées.
c. Les règles concernant la vie privée (des produits Google spécifiquement ou en général).
d. Des recherches tierces qui ont analysé les collectes de données opérées par Google.

Histoire naturelle, générale et particulière, des mollusques, animaux sans vertèbres et à sang blanc. T.2. Paris,L’Imprimerie de F. Dufart,An X-XIII [1802-1805]. biodiversitylibrary.org/page/35755415

4.
Au travers de la combinaison des sources ci-dessus, cette étude montre une vue globale et exhaustive de l’approche de Google concernant la collecte des données et aborde en profondeur certains types d’informations collectées auprès des utilisateurs et utilisatrices.
Cette étude met en avant les éléments clés suivants :

a. Dans une journée d’utilisation typique, Google en apprend énormément sur les intérêts personnels de ses utilisateurs. Dans ce scénario d’une journée « classique », où un utilisateur réel avec un compte Google et un téléphone Android (avec une nouvelle carte SIM) suit sa routine quotidienne, Google collecte des données tout au long des différentes activités, comme la localisation, les trajets empruntés, les articles achetés et la musique écoutée. De manière assez surprenante, Google collecte ou infère plus de deux tiers des informations via des techniques passives. Au bout du compte, Google a identifié les intérêts des utilisateurs avec une précision remarquable.

b. Android joue un rôle majeur dans la collecte des données pour Google, avec plus de 2 milliards d’utilisateurs actifs mensuels dans le monde ¹⁸. Alors que le système d’exploitation Android est utilisé par des fabricants d’équipement d’origine (FEO) partout dans le monde, il est étroitement connecté à l’écosystème Google via le service Google Play. Android aide Google à récolter des informations personnelles sur les utilisateurs (nom, numéro de téléphone, date de naissance, code postal et dans beaucoup de cas le numéro de carte bancaire), les activités réalisées sur le téléphone (applications utilisées, sites web consultés) et les coordonnées de géolocalisation. En coulisses, Android envoie fréquemment la localisation de l’utilisateur ainsi que des informations sur l’appareil lui-même, comme sur l’utilisation des applications, les rapports de bugs, la configuration de l’appareil, les sauvegardes et différents identifiants relatifs à l’appareil.

c. Le navigateur Chrome aide Google à collecter des données utilisateurs depuis à la fois le téléphone et l’ordinateur de bureau, grâce à quelque 2 milliards d’installations dans le monde ¹⁹. Le navigateur Chrome collecte des informations personnelles (comme lorsqu’un utilisateur remplit un formulaire en ligne) et les envoie à Google via le processus de synchronisation. Il liste aussi les pages visitées et envoie les données de géolocalisation à Google.

d. Android comme Chrome envoient des données à Google même en l’absence de toute interaction de l’utilisateur. Nos expériences montrent qu’un téléphone Android dormant et stationnaire (avec Chrome actif en arrière-plan) a communiqué des informations de localisation à Google 340 fois pendant une période de 24 heures, soit en moyenne 14 communications de données par heure. En fait, les informations de localisation représentent 35 % de l’échantillon complet de données envoyés à Google. À l’opposé, une expérience similaire a montré que sur un appareil iOS d’Apple avec Safari (où ni Android ni Chrome n’étaient utilisés), Google ne pouvait pas collecter de données notables (localisation ou autres) en absence d’interaction de l’utilisateur avec l’appareil.

e. Une fois qu’un utilisateur ou une utilisatrice commence à interagir avec un téléphone Android (par exemple, se déplace, visite des pages web, utilise des applications), les communications passives vers les domaines de serveurs Google augmentent considérablement, même dans les cas où l’on n’a pas utilisé d’applications Google majeures (c.-à-d. ni recherche Google, ni YouTube, pas de Gmail ni Google Maps). Cette augmentation s’explique en grande partie par l’activité sur les données de l’éditeur et de l’annonceur de Google (Google Analytics, DoubleClick, AdWords) ²⁰. Ces données représentaient 46 % de l’ensemble des requêtes aux serveurs Google depuis le téléphone Android. Google a collecté la localisation à un taux 1,4 fois supérieur par rapport à l’expérience du téléphone fixe sans interaction avec l’utilisateur. En termes d’amplitude, les serveurs de Google ont communiqué 11,6 Mo de données par jour (ou 0,35 Go / mois) avec l’appareil Android. Cette expérience suggère que même si un utilisateur n’interagit avec aucune application phare de Google, Google est toujours en mesure de recueillir beaucoup d’informations par l’entremise de ses produits d’annonce et d’éditeur.

f. Si un utilisateur d’appareil sous iOS décide de renoncer à l’usage de tout produit Google (c’est-à-dire sans Android, ni Chrome, ni applications Google) et visite exclusivement des pages web non-Google, le nombre de fois où les données sont communiquées aux serveurs de Google demeure encore étonnamment élevé. Cette communication est menée exclusivement par des services de l’annonceur/éditeur. Le nombre d’appels de ces services Google à partir d’un appareil iOS est similaire à ceux passés par un appareil Android. Dans notre expérience, la quantité totale de données communiquées aux serveurs Google à partir d’un appareil iOS est environ la moitié de ce qui est envoyé à partir d’un appareil Android.

g. Les identificateurs publicitaires (qui sont censés être « anonymisés » et collectent des données sur l’activité des applications et les visites des pages web tierces) peuvent être associés à l’identité d’un utilisateur ou utilisatrice de Google. Cela se produit par le transfert des informations d’identification depuis l’appareil Android vers les serveurs de Google. De même, le cookie ID DoubleClick (qui piste les activités des utilisateurs et utilisatrices sur les pages web d’un tiers) constitue un autre identificateur censé être anonymisé que Google peut associer à celui d’un compte personnel Google, si l’utilisateur accède à une application Google avec le navigateur déjà utilisé pour aller sur la page web externe. En définitive, nos conclusions sont que Google a la possibilité de connecter les données anonymes collectées par des moyens passifs avec les données personnelles de l’utilisateur.

Si Google vous ignore, votre projet est en péril

L’affaire a eu un certain retentissement : une entreprise qui propose du courrier électronique chiffré à ses clients et dont la croissance commence à faire de l’ombre à Gmail disparaît subitement des écrans de radar, ou plutôt des premières pages de la recherche Google, ce qui met en danger son modèle économique.

Aujourd’hui tout est réparé, mais cet épisode illustre une fois de plus le pouvoir de nuisance de Google dans la recherche sur Internet, qui est désormais un tentacule parmi d’autres de la pieuvre Alphabet.

google-search-risk-monopoly — *Remerciements particuliers au graphiste James Belkevitz de Glasgow pour cette image*

Traduction Framalang : Penguin, goofy, Asta, Rozmador, Lumibd, KoS, xi
Article original sur le site de ProtonMail : Search Risk – How Google Almost Killed ProtonMail

Le risque de la recherche — Comment Google a bien failli faire disparaître ProtonMail

par Andy Yen

andyyenprotonmailcofounder — Andy est un cofondateur de ProtonMail

Ces deux derniers mois, nombre d’entre vous nous ont contactés pour en savoir plus sur le mystérieux tweet que nous avons envoyé à Google en août. Chez ProtonMail, la transparence est une valeur fondamentale, et nous essayons d’être aussi transparents envers notre communauté que possible. Comme beaucoup de gens continuent à nous poser des questions, nous devons être plus transparents à ce sujet pour éviter toute confusion et spéculation. C’est pourquoi nous racontons toute l’affaire aujourd’hui pour clarifier ce qui est arrivé.

Que s’est-il passé ?

Pour faire court, depuis un an Google ne faisait pas apparaître ProtonMail dans les résultats de recherche (NdT : en langue anglaise) sur les requêtes telles que secure email (e-mail sécurisé) et encrypted email (e-mail chiffré). C’était très suspect car ProtonMail a longtemps été le plus important fournisseur de messagerie chiffrée au monde.

Lorsque la version bêta de ProtonMail a été lancée en mai 2014, notre communauté a rapidement grandi tandis que des gens du monde entier se sont réunis et nous ont soutenu dans notre mission de protection de la vie privée à l’ère numérique. Notre campagne de financement collaboratif a battu tous les records en récoltant plus d’un demi-million de dollars des donateurs et nous a fourni les ressources nécessaires afin d’être compétitifs, même contre les plus gros mastodontes du secteur de l’e-mail.

À l’été 2015, ProtonMail avait passé la barre du demi-million d’utilisateurs et était le service sécurisé de courriels le plus connu au monde. ProtonMail était aussi bien classé à l’époque dans les résultats de recherche de Google, sur la première ou la deuxième page pour la plupart des requêtes comme secure email et encrypted email. Pourtant, à la fin du mois d’octobre 2015, la situation avait complètement changé, et ProtonMail n’apparaissait mystérieusement plus dans les résultats de recherche pour nos deux mots-clefs principaux.

Entre le début de l’été et l’automne 2015, ProtonMail a, il faut le souligner, connu beaucoup de changements. Nous avons lancé ProtonMail 2.0, sommes passés complètement en open source, nous avons lancé des applications mobiles en bêta, et nous avons mis à jour notre site, remplaçant notre ancien domaine de premier niveau .ch par .com, plus connu. Nous avons aussi doublé en taille, atteignant près d’un million d’utilisateurs à l’automne. Tous ces changements auraient dû amélioré le classement de ProtonMail dans les résultats de recherche puisque nous offrions une solution de plus en plus pertinente pour davantage d’utilisateurs.

En novembre 2015, nous nous sommes aperçu du problème et avons consulté un certain nombre d’experts en référencement reconnus. Aucun d’entre eux ne pouvait comprendre le problème, en particulier parce que ProtonMail n’a jamais utilisé de tactiques déloyales de référencement, et que nous n’avons jamais observé l’utilisation de ces mêmes techniques contre nous. Mystérieusement, le problème était entièrement restreint à Google, puisque cette anomalie n’était constatée pour aucun autre moteur de recherche. Ci-dessous, le classement dans les résultats de recherche de ProtonMail pour les mots-clefs secure email et encrypted email au début du mois d’août 2016 pour les principaux moteurs de recherche. Nous apparaissons sur la première ou la deuxième page partout sauf pour Google où nous n’apparaissons pas du tout.

protonmail_seo_rank_august Tout au long du printemps 2016, nous avons tenté activement d’établir le contact avec Google. Nous avons créé deux tickets sur leur formulaire de signalement de spam où nous expliquions la situation. Nous avons même contacté le président des Relations Stratégiques EMOA chez Google, mais n’avons ni reçu de réponse ni constaté d’amélioration. Vers cette époque, nous avons aussi entendu parler de l’action liée au droit de la concurrence engagée par la Commission Européenne contre Google, accusant Google d’abuser de son monopole sur les recherches pour abaisser le classement de ses concurrents. Il s’agissait d’une nouvelle inquiétante, car en tant que service de courriels qui valorise d’abord la vie privée des utilisateurs, nous sommes la première alternative à Gmail pour les personnes qui souhaitent que leurs données personnelles restent confidentielles.

En août, à défaut d’autre solution, nous nous sommes tournés vers Twitter pour exposer notre problème. Cette fois, nous avons enfin eu une réponse, en grande partie grâce aux centaines d’utilisateurs de ProtonMail qui ont attiré l’attention sur notre situation et l’ont rendue impossible à ignorer. Quelques jours plus tard, Google nous a informés qu’ils avaient « réparé quelque chose » sans fournir plus de détails. Les résultats ont été visibles immédiatement.

google_protonmail_search_risk

Classement dans les résultats de recherche Google de ProtonMail pour Encrypted Email

Dans le graphique ci-dessus, l’axe des abscisses représente le temps et l’axe des ordonnées le classement dans les résultats (les nombres les plus bas sont les meilleurs). Les dates pour lesquelles il n’y a pas de point correspondent à des moments où nous n’apparaissions pas du tout dans les résultats de Google. Après les quelques changements de Google, le classement de ProtonMail s’est immédiatement rétabli et ProtonMail est maintenant n°1 et n°3 respectivement pour secure email et encrypted email. Sans plus d’explications de la part de Google, nous ne saurons sans doute jamais pourquoi ProtonMail a été déclassé. En tout cas, nous apprécions le fait que Google ait enfin fait quelque chose pour résoudre le problème, nous aurions seulement souhaité qu’ils le fassent plus tôt.

Le risque de la recherche

Cet incident souligne cependant un danger auparavant méconnu que nous appelons maintenant le « Risque de la Recherche ». Le danger est que n’importe quel service comme ProtonMail peut facilement être supprimé par les entreprises qui gèrent les moteurs de recherche, ou le gouvernement qui contrôle ces entreprises. Cela peut même arriver à travers les frontières nationales. Par exemple, même si Google est une société américaine, elle contrôle plus de 90 % du trafic de recherche européen. Dans ce cas précis, Google a directement causé une réduction de la croissance mondiale de ProtonMail de plus de 25 % pendant plus de dix mois.

Cela signifiait que les revenus que Protonmail tirait de ses utilisateurs ont été aussi été réduits de 25 %, mettant de la pression financière sur nos activités. Nous sommes passés de la capacité à couvrir toutes nos dépenses mensuelles à la nécessité de puiser de l’argent de notre fonds de réserve d’urgence. La perte de revenus et les dommages financiers consécutifs ont été de plusieurs milliers de francs suisses (1 CHF = 1,01 USD), qui ne seront jamais remboursés.

La seule raison pour laquelle nous avons survécu pour raconter cette histoire est que la majeure partie de la croissance de ProtonMail provient du bouche à oreille, et que notre communauté est trop active pour l’ignorer. Bien d’autres entreprises ne seront pas aussi chanceuses. Cet épisode montre que bien que les risques en matière de recherche internet sont sérieux, et nous soutenons donc maintenant la commission européenne : compte tenu de la position hégémonique de Google sur la recherche web, plus de transparence et de surveillance sont indispensables.

Se défendre contre le risque de la recherche

Cet épisode démontre que pour que ProtonMail réussisse, il est important que nous puissions nous développer indépendamment des moteurs de recherche, de sorte qu’il devienne impossible pour n’importe quelle entreprise qui gère la recherche de nous paralyser sans le vouloir. Plus facile à dire qu’à faire, mais voici une liste d’actions que nous pouvons tous mener pour préserver l’avenir de ProtonMail :

Parler de ProtonMail à vos amis et votre famille. Vous en tirerez également un autre avantage : le chiffrement automatique de bout en bout lorsque vous leur enverrez un courriel ;
Écrire des billets de blog sur ProtonMail et aidez à diffuser le message sur l’importance de la vie privée en ligne ;
Passer à un compte payant ou faites un don afin que nous puissions reconstituer plus rapidement notre fonds de réserve d’urgence épuisé ;
Aider ProtonMail à atteindre davantage d’utilisateurs à travers les réseaux sociaux. Vous pouvez tweeter ou partager ProtonMail sur Facebook avec les boutons de partage ci-dessous.

Plus nous diffuserons l’idée que la vie privée en ligne est très importante, plus nous rendrons impossible de supprimer ou interdire les services de messagerie chiffrés tels que ProtonMail, ou d’exercer sur eux une pression quelconque. Nous croyons que la vie privée en ligne est essentielle pour un avenir ouvert, démocratique et libre, et quels que soient les obstacles devant nous, nous allons continuer à élaborer les outils nécessaires pour protéger cet avenir. Nous vous remercions de nous soutenir et de rendre cela possible.

Cordialement,
L’équipe ProtonMail

Se libérer de Google ? Chiche ! — Si on commençait par la recherche ?

Les lecteurs de ce blog savent que Framasoft s’est engagé à se libérer par étapes des outils de Google : Framasoft a déjà dit bye-bye à Gmail, s’est libéré des GoogleGroups, de Google analytics et de la publicité, des polices de caractère Google… Tout cela demande à la fois de la détermination, un travail technique conséquent et des logiciels ou services de substitution fiables. Ce n’est pas forcément à la portée du simple utilisateur. Que peut-il commencer par faire pour se libérer de l’emprise de Google ?

L’article qui suit est un appel à l’action. Une action ambitieuse : se libérer partout de Google. Mais une action qui peut commencer par ce qui est à notre portée : choisir d’autres moteurs de recherche.

Est-il possible de faire vaciller la toute-puissance de Google en remplaçant Google par un moteur de recherche qui ne soit pas notoirement en ligne directe avec la NSA ? Ce n’est pas irréaliste car désormais un très grand nombre de gens sont devenus conscients grâce à Snowden tant de la surveillance étatique de masse que du viol commercial de nos données privées en ligne.

Il est temps de se libérer de Google. Partout.

Texte original en diffusion virale sur ce pastebin

Traduction Framalang simon, r0u, Lam’, goofy

Il s’est écoulé presque un an depuis les révélations des documents de Snowden. C’est à ce moment que de nombreuses personnes – moi compris – ont pris conscience de la surveillance omniprésente qui nous environne. Pas uniquement l’espionnage de la part des gouvernements, mais aussi la collecte de données par les entreprises. Et d’hier à aujourd’hui, les progrès pour repousser cet environnement oppressant ont été décevants.

Globalement, nous savons ce qu’il faudrait faire. En premier lieu, nous devons exercer une pression permanente et importante sur nos gouvernements respectifs pour obtenir une réforme significative. Les politiciens doivent savoir qu’ils ne pourront pas compter sur le soutien des peuples si ceux-ci ne peuvent obtenir le respect de leurs droits fondamentaux.

Il est aussi évident que de nombreux changements technologiques et commerciaux doivent avoir lieu, comme l’utilisation accrue du chiffrement (en particulier le chiffrement coté client), et une adoption bien plus étendue du logiciel libre (voir cet article de fsf.org).

Il ne fait aucun doute que nous devons bien davantage décentraliser les technologies de l’information. Ce problème est bien expliqué dans cet article du New Yorker :

« l’État sécuritaire a tendance à aimer les monopoles. Un monopole qui s’appuie sur la coopération augmente et étend le pouvoir de l’État, comme une prothèse technologique (l’Allemagne en offre des exemples plus extrêmes encore que les États-Unis). En règle générale, quand une ou plusieurs sociétés dominent tout un pan de l’industrie de l’information, on peut s’attendre à ce que les agences de renseignements exigent leur coopération et leur partenariat. Au fil du temps, la firme devient un exécuteur bien récompensé de la volonté de l’État. Si l’Histoire peut enseigner quelque chose, c’est que plus des entreprises comme Google ou Facebook resteront dominantes sur le long terme, plus il est probable qu’elles deviendront des partenaires au service d’agences de renseignement des États-Unis et d’autre gouvernements »

Il est évident que continuer à encourager les géants technologiques comme Google, Facebook, Microsoft et les autres ne peut qu’amener à l’élimination progressive de notre vie privée, et donc de notre liberté. Fondamentalement, on peut considérer que toute entreprise suffisamment grande agira dans ses propres intérêts, souvent au détriment de la population. Et dans cette optique, les détails de nos vies privée sont devenus leur nouvel Eldorado. L’information est le pouvoir. Elle est lucrative. C’est la raison pour laquelle les géants technologiques (et bien d’autres sociétés) orientent une part toujours plus importante de leur modèle économique vers la surveillance.

Mais ils n’appellent pas cela de la surveillance. Ils appellent cela le Big data, et ils en chantent les louanges comme si c’était le nouvel évangile. Ils peuvent passer des heures à expliquer comment le Big Data bénéficiera à tous, rendra les choses plus efficaces, évitera le gaspillage, etc. Mais bien entendu, là-dessus nous pouvons leur faire confiance, s’ils utilisent le Big Data c’est d’abord pour nous manipuler, de façon à dynamiser leur chiffre d’affaires.

« Les consommateurs traversent les événements de la vie, souvent sans faire attention, ou très peu, aux changements de leurs habitudes d’achats. Mais les commerçants, eux, s’en rendent compte et y sont très attentifs. À ces moments particuliers, note Andreasen. « Les consommateurs sont vulnérables à la pression du marketing. En d’autres termes, une pub qui intervient au bon moment, envoyée après un récent divorce ou une acquisition immobilière, peut changer les habitudes d’achats de quelqu’un pendant des années. » (Source : cet article du New York Times).

Et Big Data ne signifie pas seulement manipulation. Cela signifie aussi discrimination et prédation.

« Dans un cas particulièrement grave, un télévendeur s’est servi sur le compte en banque d’un vétéran de l’armée de 92 ans après avoir reçu des informations du courtier de données InfoUSA, qui propose des listes comme “vieux mais gentil”. L’objectif était d’atteindre des personnes décrites comme “crédules… qui veulent croire que la chance peut tourner”. » (Source : article de businessinsider).

Pour le formuler en employant les termes du mouvement Occupy, « le Big Data est un outil de plus à la disposition des 1 % pour consolider leur pouvoir, et garder plus efficacement les 99 % sous contrôle. »

Sans contre-pouvoir pour s’opposer à ces développements, les 1 % ne peuvent que continuer. Quand on voit la façon dont les gouvernements ont été enivrés par le pouvoir que leur donne la surveillance – essentiellement rendue possible par le Big Data – il est évident qu’ils ne vont pas intervenir ou véritablement régler ce problème. Nous devons le faire par nous-mêmes.

Il faut s’opposer fermement au Big Data, tout autant qu’à la surveillance étatique. Parce qu’en définitive, Big Data signifie Grand Contrôle et Grand Pouvoir pour celui qui peut collecter le plus d’informations sur n’importe qui.

« Tant que nous ne sommes pas tous connectés toute la journée, nous sommes implicitement hors ligne. Ne serait-ce pas merveilleux si nous pouvions récolter des données vitales géolocalisées et les utiliser pour personnaliser l’expérience hors ligne comme le font maintenant les sociétés pour notre expérience en ligne ? “Personnaliser votre expérience vitale” est une façon moins brutale de dire en réalité « encore plus de contrôle de vos vies » (Source : article de gigaom.com)

Nous devons susciter une migration en masse vers les alternatives proposées par les logiciels libres, pour diffuser une meilleure maîtrise des ordinateurs, et une connaissance plus approfondie des techniques utilisées pour tout ce qui concerne les données.

Mais il s’agit d’un défi de taille. Amener une personne à changer ne serait-ce qu’une petite habitude informatique est comme lui arracher une dent. Il faut lui donner de bonnes raisons bien tangibles. Elles doivent toucher la vie quotidienne du foyer, et les changements doivent être faits un à la fois. Pour ceux d’entre nous qui ont le plus d’expérience et de connaissances en informatique, il n’est pas raisonnable d’espérer que quiconque va changer si on lui dit carrément « Eh, c’est pas du tout comme ça qu’il faut utiliser ton ordinateur. Arrête tout, et fais plutôt comme ceci… »

Voilà l’idée : les gens n’ont pas besoin de changer toutes leurs habitudes informatiques d’un seul coup pour faire la différence. Amener tout le monde à se défaire d’un coup de mauvaises habitudes est un objectif irréaliste, mais on peut cibler exactement un changement à la fois et s’y mettre vraiment. Chaque changement individuel peut sembler minuscule, voire insignifiant, en regard de l’objectif qui est de sécuriser complètement les données personnelles de chacun, mais cela peut envoyer une onde de choc qui va se propager dans le système tout entier.

Et nous devrions commencer par ce qui est à portée de main. Nous devrions arrêter d’utiliser les moteurs de recherche des géants technologiques et faire tout notre possible pour que tout le monde en fasse autant.

Soyons clair, cela veut dire : finies les recherches sur Google, finies les recherches sur Bing, et finies les recherches sur Yahoo. Voilà la règle d’or : si l’entreprise figure sur les diaporamas du système Prism de la NSA, n’utilisez pas son moteur de recherche.

Pour les remplacer, utilisez plutôt une des solutions alternatives qui tendent à être recommandées. Que ce soit Ixquick, DuckDuckGo, StartPage, Disconnect, MetaGer, ou pour les plus déterminés, Seeks ou YaCy.

Tout le monde peut basculer vers un moteur de recherche différent. Si vous pouvez aller sur google.com, vous pouvez aller sur duckduckgo.com (ou l’un des autres). Cela peut donner une impulsion nouvelle, comme une façon de dire aux autres « regardez, vous pouvez faire la différence. Vous pouvez rendre le monde meilleur. Tout ce que vous avez à faire c’est de changer votre moteur de recherche. Facile, non ? »

Voici un aperçu du volume des recherches effectuées en février dernier sur les principaux moteurs (en supposant que je lise le tableau correctement dans cet article de searchengineland.com) :

Google : 11,941 milliards

Microsoft : 3,257 milliards

Yahoo : 1,822 milliards

Ask : 477 millions

AOL : 235 millions

11,941 milliards de recherches chaque mois… Quand l’affaire Prism a commencé à éclater, les recherches sur DuckDuckGo sont passées de 1,7 million par jour à 3 millions en moins de deux semaines (voir cet article du Guardian), et ce n’était qu’une simple réaction non concertée des gens. Imaginez ce que ce serait avec un effort coordonné, dédié au seul but de réduire le nombre des recherches effectuées sur les moteurs des géants technologiques. Nous pouvons amener les recherches mensuelles sur Google à diminuer de presque 12 milliards à 6 milliards, 3 milliards, et ainsi de suite jusqu’à ce que leur part ressemble un peu plus à celle d’AOL.

Voici donc notre objectif final :

Retirer Google, Microsoft, Yahoo et AOL de la liste des moteurs les plus utilisés.
Faire en sorte que cette liste inclue des moteurs comme Disconnect, DuckDuckGo, Ixquick, MetaGer, StartPage et/ou YaCy.

Bien que les recherches ne soient pas le seul moyen pour ces entreprises de faire de l’argent, cela les impactera tout de même durement. Elles constituent la principale source de leurs revenus publicitaires. Des marchés entiers se sont constitués autour des optimisations des moteurs de recherches. Si le nombre de vues et de clics sur les moteurs des géants s’effondre, il en sera de même pour leurs profits. Cela attirera l’attention. Un maximum.

C’est à notre portée, mais il nous faut faire passer le mot aussi loin et aussi largement que possible. Copiez-collez ce billet sur tous les sites que vous fréquentez. Partagez-le. Utilisez vos propres mots pour exposer vos convictions avec passion. Faites des infographies accrocheuses, ou d’autres œuvres graphiques, sur ce mouvement et postez-les sur des sites comme Reddit, Imgur, Tumblr, etc. Traduisez-le, faites-le connaître.

Remplacez votre moteur de recherche par défaut par l’un de ceux qui sont listés ci-dessus, sur tous les navigateurs de tous les appareils que vous utilisez. Incitez vos amis et votre famille à faire de même. Cela pourrait être la partie la plus difficile, mais ne vous découragez pas. Faites-le avec humour. Donnez leur des raisons de vouloir faire ce changement. Négociez, si nécessaire ; dites-leur qu’en échange vous préparez le dîner.

Si vous gérez un site web, envisagez d’ajouter quelque chose à ce sujet, pour diffuser encore plus le message.

Si vous utilisez encore un grand réseau social comme Twitter ou Facebook, ce qui est mal (des alternatives existent), ralliez-vous autour d’un hashtag^[1]comme, par exemple, #nongoogle, #ungoogle ou tout ce que vous voudrez. Faites-en une tendance.

Dans le même ordre d’idée, il faut aussi parler du langage. Le saint Graal de la publicité est de faire rentrer dans l’usage le nom de l’entreprise pour faire référence au produit. Ainsi par exemple nous appelons les scratch des Velcro. Dans le cas des recherches en ligne, dire à quelqu’un de « googler » quelque chose c’est soutenir leur produit. Cela fait de Google la norme et barre la route qui mène à la fin de leur domination sur la recherche en ligne. Ce que nous devons faire, c’est désigner cette action par son nom : une recherche, ou carrément utiliser les termes « nongoogle » ou « ungoogle » pour expliciter notre intention de faire progresser ce mouvement.

Si nous pouvons y parvenir, ce sera une énorme victoire concrète dans la lutte pour nos droits à la vie privée et les libertés civiles. Alors s’il vous plaît, passez le mot et… passez à l’action ! Il est temps de commencer à faire des recherches libérées de Google.

Je publie ceci sous licence CC0 1.0

<3 Copier est un acte d’amour. Merci de copier <3

Notes

[1] (GoofyNote) « mot-dièse » d’après le JO du 23/01/13 ahaha mais oui bien sûr, vous trouvez ça ridicule. Demandez-vous toutefois si hashtag (mot à mot : dièse-étiquette) n’est pas tout aussi risible dans la langue de Britney Spears.

Geektionnerd : Bluetouff condamné

Sources sur Numerama :

Crédit : Simon Gee Giraudot (Creative Commons By-Sa)

Ouvrir le code des algorithmes ? — Oui, mais… (1/2)

Dans le code source de l’amplification algorithmique : publier le code ne suffit pas !

Publier le code ne suffit pas

Ouvrir, mais ouvrir quoi ?

Coincés dans les boucles de l’amplification

Une extension qui meta-press.es à ta disposition

C’est Qwant qu’on va où ?

Un vaste réservoir d’images sous licences libres

Le moteur de recherche de Creative Commons propose maintenant 300 millions d’images plus faciles à attribuer

par Jane Park

Et bientôt…

Participez !

Remerciements

Ce que récolte Google : revue de détail

La collecte de données de Google

Un premier aperçu

Si Google vous ignore, votre projet est en péril

Le risque de la recherche — Comment Google a bien failli faire disparaître ProtonMail

Que s’est-il passé ?

Le risque de la recherche

Se défendre contre le risque de la recherche

Se libérer de Google ? Chiche ! — Si on commençait par la recherche ?

Il est temps de se libérer de Google. Partout.

Notes

Geektionnerd : Bluetouff condamné

Dans le code source de l’amplification algorithmique : publier le code ne suffit pas !

Ouvrir, mais ouvrir quoi ?