Ouvrir le code des algorithmes ? — Oui, mais… (1/2)

Voici le premier des deux articles qu’Hubert Guillaud nous fait le plaisir de partager. Sans s’arrêter à la surface de l’actualité, il aborde la transparence du code des algorithmes, qui entraîne un grand nombre de questions épineuses sur lesquelles il s’est documenté pour nous faire part de ses réflexions.

Dans le code source de l’amplification algorithmique : publier le code ne suffit pas !

par Hubert GUILLAUD

Le 31 mars, Twitter a publié une partie du code source qui alimente son fil d’actualité, comme l’a expliqué l’équipe elle-même dans un billet. Ces dizaines de milliers de lignes de code contiennent pourtant peu d’informations nouvelles. Depuis le rachat de l’oiseau bleu par Musk, Twitter a beaucoup changé et ne cesse de se modifier sous les yeux des utilisateurs. La publication du code source d’un système, même partiel, qui a longtemps été l’un des grands enjeux de la transparence, montre ses limites.

un jeune homme montre une ligne d'une explication de l'encodage des algorithmes au rétroprojecteur — *« LZW encoding and decoding algorithms overlapped » par nayukim, licence CC BY 2.0.*

Publier le code ne suffit pas

Dans un excellent billet de blog, le chercheur Arvind Narayanan (sa newsletter mérite également de s’y abonner) explique ce qu’il faut en retenir. Comme ailleurs, les règles ne sont pas claires. Les algorithmes de recommandation utilisent l’apprentissage automatique ce qui fait que la manière de classer les tweets n’est pas directement spécifiée dans le code, mais apprise par des modèles à partir de données de Twitter sur la manière dont les utilisateurs ont réagi aux tweets dans le passé. Twitter ne divulgue ni ces modèles ni les données d’apprentissages, ce qui signifie qu’il n’est pas possible d’exécuter ces modèles. Le code ne permet pas de comprendre pourquoi un tweet est ou n’est pas recommandé à un utilisateur, ni pourquoi certains contenus sont amplifiés ou invisibilisés. C’est toute la limite de la transparence. Ce que résume très bien le journaliste Nicolas Kayser-Bril pour AlgorithmWatch (pertinemment traduit par le framablog) : « Vous ne pouvez pas auditer un code seulement en le lisant. Il faut l’exécuter sur un ordinateur. »

« Ce que Twitter a publié, c’est le code utilisé pour entraîner les modèles, à partir de données appropriées », explique Narayanan, ce qui ne permet pas de comprendre les propagations, notamment du fait de l’absence des données. De plus, les modèles pour détecter les tweets qui violent les politiques de Twitter et qui leur donnent des notes de confiance en fonction de ces politiques sont également absentes (afin que les usagers ne puissent pas déjouer le système, comme nous le répètent trop de systèmes rétifs à l’ouverture). Or, ces classements ont des effets de rétrogradation très importants sur la visibilité de ces tweets, sans qu’on puisse savoir quels tweets sont ainsi classés, selon quelles méthodes et surtout avec quelles limites.

La chose la plus importante que Twitter a révélée en publiant son code, c’est la formule qui spécifie comment les différents types d’engagement (likes, retweets, réponses, etc.) sont pondérés les uns par rapport aux autres… Mais cette formule n’est pas vraiment dans le code. Elle est publiée séparément, notamment parce qu’elle n’est pas statique, mais qu’elle doit être modifiée fréquemment.

Sans surprise, le code révèle ainsi que les abonnés à Twitter Blue, ceux qui payent leur abonnement, bénéficient d’une augmentation de leur portée (ce qui n’est pas sans poser un problème de fond, comme le remarque pertinemment sur Twitter, Guillaume Champeau, car cette préférence pourrait mettre ces utilisateurs dans la position d’être annonceurs, puisqu’ils payent pour être mis en avant, sans que l’interface ne le signale clairement, autrement que par la pastille bleue). Reste que le code n’est pas clair sur l’ampleur de cette accélération. Les notes attribuées aux tweets des abonnés Blue sont multipliées par 2 ou 4, mais cela ne signifie pas que leur portée est pareillement multipliée. « Une fois encore, le code ne nous dit pas le genre de choses que nous voudrions savoir », explique Narayanan.

Reste que la publication de la formule d’engagement est un événement majeur. Elle permet de saisir le poids des réactions sur un tweet. On constate que la réponse à tweet est bien plus forte que le like ou que le RT. Et la re-réponse de l’utilisateur originel est prédominante, puisque c’est le signe d’une conversation forte. À l’inverse, le fait qu’un lecteur bloque, mute ou se désabonne d’un utilisateur suite à un tweet est un facteur extrêmement pénalisant pour la propagation du tweet.

Tableau du poids attribué en fonction des types d’engagement possibles sur Twitter.

Ces quelques indications permettent néanmoins d’apprendre certaines choses. Par exemple que Twitter ne semble pas utiliser de prédictions d’actions implicites (comme lorsqu’on s’arrête de faire défiler son fil), ce qui permet d’éviter l’amplification du contenu trash que les gens ne peuvent s’empêcher de regarder, même s’ils ne s’y engagent pas. La formule nous apprend que les retours négatifs ont un poids très élevé, ce qui permet d’améliorer son flux en montrant à l’algorithme ce dont vous ne voulez pas – même si les plateformes devraient permettre des contrôles plus explicites pour les utilisateurs. Enfin, ces poids ont des valeurs souvent précises, ce qui signifie que ce tableau n’est valable qu’à l’instant de la publication et qu’il ne sera utile que si Twitter le met à jour.

Les algorithmes de recommandation qui optimisent l’engagement suivent des modèles assez proches. La publication du code n’est donc pas très révélatrice. Trois éléments sont surtout importants, insiste le chercheur :

« Le premier est la manière dont les algorithmes sont configurés : les signaux utilisés comme entrée, la manière dont l’engagement est défini, etc. Ces informations doivent être considérées comme un élément essentiel de la transparence et peuvent être publiées indépendamment du code. La seconde concerne les modèles d’apprentissage automatique qui, malheureusement, ne peuvent généralement pas être divulgués pour des raisons de protection de la vie privée. Le troisième est la boucle de rétroaction entre les utilisateurs et l’algorithme ».

Autant d’éléments qui demandent des recherches, des expériences et du temps pour en comprendre les limites.

Si la transparence n’est pas une fin en soi, elle reste un moyen de construire un meilleur internet en améliorant la responsabilité envers les utilisateurs, rappelle l’ingénieur Gabriel Nicholas pour le Center for Democracy & Technology. Il souligne néanmoins que la publication d’une partie du code source de Twitter ne contrebalance pas la fermeture du Consortium de recherche sur la modération, ni celle des rapports de transparence relatives aux demandes de retraits des autorités ni celle de l’accès à son API pour chercheurs, devenue extrêmement coûteuse.

« Twitter n’a pas exactement ’ouvert son algorithme’ comme certains l’ont dit. Le code est lourdement expurgé et il manque plusieurs fichiers de configuration, ce qui signifie qu’il est pratiquement impossible pour un chercheur indépendant d’exécuter l’algorithme sur des échantillons ou de le tester d’une autre manière. Le code publié n’est en outre qu’un instantané du système de recommandation de Twitter et n’est pas réellement connecté au code en cours d’exécution sur ses serveurs. Cela signifie que Twitter peut apporter des modifications à son code de production et ne pas l’inclure dans son référentiel public, ou apporter des modifications au référentiel public qui ne sont pas reflétées dans son code de production. »

L’algorithme publié par Twitter est principalement son système de recommandation. Il se décompose en 3 parties, explique encore Nicholas :

Un système de génération de contenus candidats. Ici, Twitter sélectionne 1500 tweets susceptibles d’intéresser un utilisateur en prédisant la probabilité que l’utilisateur s’engage dans certaines actions pour chaque tweet (c’est-à-dire qu’il RT ou like par exemple).
Un système de classement. Une fois que les 1 500 tweets susceptibles d’être servis sont sélectionnés, ils sont notés en fonction de la probabilité des actions d’engagement, certaines actions étant pondérées plus fortement que d’autres. Les tweets les mieux notés apparaîtront généralement plus haut dans le fil d’actualité de l’utilisateur.
Un système de filtrage. Les tweets ne sont pas classés strictement en fonction de leur score. Des heuristiques et des filtres sont appliqués pour, par exemple, éviter d’afficher plusieurs tweets du même auteur ou pour déclasser les tweets d’auteurs que l’utilisateur a déjà signalés pour violation de la politique du site.

Le score final est calculé en additionnant la probabilité de chaque action multipliée par son poids (en prenant certainement en compte la rareté ou la fréquence d’action, le fait de répondre à un tweet étant moins fréquent que de lui attribuer un like). Mais Twitter n’a pas publié la probabilité de base de chacune de ces actions ce qui rend impossible de déterminer l’importance de chacune d’elles dans les recommandations qui lui sont servies.

Twitter a également révélé quelques informations sur les autres facteurs qu’il prend en compte en plus du classement total d’un tweet. Par exemple, en équilibrant les recommandations des personnes que vous suivez avec celles que vous ne suivez pas, en évitant de recommander les tweets d’un même auteur ou en donnant une forte prime aux utilisateurs payants de Twitter Blue.

Il y a aussi beaucoup de code que Twitter n’a pas partagé. Il n’a pas divulgué beaucoup d’informations sur l’algorithme de génération des tweets candidats au classement ni sur ses paramètres et ses données d’entraînement. Twitter n’a pas non plus explicitement partagé ses algorithmes de confiance et de sécurité pour détecter des éléments tels que les abus, la toxicité ou les contenus pour adultes, afin d’empêcher les gens de trouver des solutions de contournement, bien qu’il ait publié certaines des catégories de contenu qu’il signale.

graphe des relations entre comptes twitter, tr-s nombreux traits bleus entre minuscules avatars de comptes, le tout donne une impression d'inextricable comlexité — *« 20120212-NodeXL-Twitter-socbiz network graph » par Marc_Smith; licence CC BY 2.0.*

Pour Gabriel Nicholas, la transparence de Twitter serait plus utile si Twitter avait maintenu ouverts ses outils aux chercheurs. Ce n’est pas le cas.

Il y a plein d’autres points que l’ouverture de l’algorithme de Twitter a documentés. Par exemple, l’existence d’un Tweepcred, un score qui classe les utilisateurs et qui permet de voir ses publications boostées si votre score est bon, comme l’expliquait Numerama. Ou encore le fait que chaque compte est clustérisé dans un groupe aux profils similaires dans lequel les tweets sont d’abord diffusés avant d’être envoyés plus largement s’ils rencontrent un premier succès… De même, il semblerait qu’il y ait certaines catégories d’utilisateurs spéciaux (dont une catégorie relative à Elon Musk) mais qui servent peut-être plus certaines statistiques qu’à doper la portée de certains comptes comme on l’a entendu (même s’il semble bien y avoir une catégorie VIP sur Twitter – comme il y a sur Facebook un statut d’exception à la modération)…

Ouvrir, mais ouvrir quoi ?

En conclusion de son article, Narayanan pointe vers un très intéressant article qui dresse une liste d’options de transparence pour ceux qui produisent des systèmes de recommandation, publiée par les chercheurs Priyanjana Bengani, Jonathan Stray et Luke Thorburn. Ils rappellent que les plateformes ont mis en place des mesures de transparence, allant de publications statistiques à des interfaces de programmation, en passant par des outils et des ensembles de données protégés. Mais ces mesures, très techniques, restent insuffisantes pour comprendre les algorithmes de recommandation et leur influence sur la société. Une grande partie de cette résistance à la transparence ne tient pas tant aux risques commerciaux qui pourraient être révélés qu’à éviter l’embarras d’avoir à se justifier de choix qui ne le sont pas toujours. D’une manière très pragmatique, les trois chercheurs proposent un menu d’actions pour améliorer la transparence et l’explicabilité des systèmes.

Documenter
L’un des premiers outils, et le plus simple, reste la documentation qui consiste à expliquer en termes clairs – selon différentes échelles et niveaux, me semble-t-il – ce qui est activé par une fonction. Pour les utilisateurs, c’est le cas du bouton « Pourquoi je vois ce message » de Facebook ou du panneau « Fréquemment achetés ensemble » d’Amazon. L’idée ici est de fourbir un « compte rendu honnête ». Pour les plus évoluées de ces interfaces, elles devraient permettre non seulement d’informer et d’expliquer pourquoi on nous recommande ce contenu, mais également, permettre de rectifier et mieux contrôler son expérience en ligne, c’est-à-dire d’avoir des leviers d’actions sur la recommandation.

Une autre forme de documentation est celle sur le fonctionnement général du système et ses décisions de classement, à l’image des rapports de transparence sur les questions de sécurité et d’intégrité que doivent produire la plupart des plateformes (voir celui de Google, par exemple). Cette documentation devrait intégrer des informations sur la conception des algorithmes, ce que les plateformes priorisent, minimisent et retirent, si elles donnent des priorités et à qui, tenir le journal des modifications, des nouvelles fonctionnalités, des changements de politiques. La documentation doit apporter une information solide et loyale, mais elle reste souvent insuffisante.

Les données
Pour comprendre ce qu’il se passe sur une plateforme, il est nécessaire d’obtenir des données. Twitter ou Facebook en ont publié (accessibles sous condition de recherche, ici pour Twitter, là pour Facebook). Une autre approche consiste à ouvrir des interfaces de programmation, à l’image de CrowdTangle de Facebook ou de l’API de Twitter. Depuis le scandale Cambridge Analytica, l’accès aux données est souvent devenu plus difficile, la protection de la vie privée servant parfois d’excuse aux plateformes pour éviter d’avoir à divulguer leurs pratiques. L’accès aux données, même pour la recherche, s’est beaucoup refermé ces dernières années. Les plateformes publient moins de données et CrowdTangle propose des accès toujours plus sélectifs. Chercheurs et journalistes ont été contraints de développer leurs propres outils, comme des extensions de navigateurs permettant aux utilisateurs de faire don de leurs données (à l’image du Citizen Browser de The Markup) ou des simulations automatisées (à l’image de l’analyse robotique de TikTok produite par le Wall Street Journal), que les plateformes ont plutôt eu tendance à bloquer en déniant les résultats obtenus sous prétexte d’incomplétude – ce qui est justement le problème que l’ouverture de données cherche à adresser.

Le code
L’ouverture du code des systèmes de recommandation pourrait être utile, mais elle ne suffit pas, d’abord parce que dans les systèmes de recommandation, il n’y a pas un algorithme unique. Nous sommes face à des ensembles complexes et enchevêtrés où « différents modèles d’apprentissage automatique formés sur différents ensembles de données remplissent diverses fonctions ». Même le classement ou le modèle de valeur pour déterminer le score n’explique pas tout. Ainsi, « le poids élevé sur un contenu d’un type particulier ne signifie pas nécessairement qu’un utilisateur le verra beaucoup, car l’exposition dépend de nombreux autres facteurs, notamment la quantité de ce type de contenu produite par d’autres utilisateurs. »

Peu de plateformes offrent une grande transparence au niveau du code source. Reddit a publié en 2008 son code source, mais a cessé de le mettre à jour. En l’absence de mesures de transparence, comprendre les systèmes nécessite d’écluser le travail des journalistes, des militants et des chercheurs pour tenter d’en obtenir un aperçu toujours incomplet.

La recherche
Les plateformes mènent en permanence une multitude de projets de recherche internes voire externes et testent différentes approches pour leurs systèmes de recommandation. Certains des résultats finissent par être accessibles dans des revues ou des articles soumis à des conférences ou via des fuites d’informations. Quelques efforts de partenariats entre la recherche et les plateformes ont été faits, qui restent embryonnaires et ne visent pas la transparence, mais qui offrent la possibilité à des chercheurs de mener des expériences et donc permettent de répondre à des questions de nature causale, qui ne peuvent pas être résolues uniquement par l’accès aux données.

Enfin, les audits peuvent être considérés comme un type particulier de recherche. À l’heure actuelle, il n’existe pas de bons exemples d’audits de systèmes de recommandation menés à bien. Reste que le Digital Service Act (DSA) européen autorise les audits externes, qu’ils soient lancés par l’entreprise ou dans le cadre d’une surveillance réglementaire, avec des accès élargis par rapport à ceux autorisés pour l’instant. Le DSA exige des évaluations sur le public mineur, sur la sécurité, la santé, les processus électoraux… mais ne précise ni comment ces audits doivent être réalisés ni selon quelles normes. Des méthodes spécifiques ont été avancées pour contrôler la discrimination, la polarisation et l’amplification dans les systèmes de recommandation.

En principe, on pourrait évaluer n’importe quel préjudice par des audits. Ceux-ci visent à vérifier si « la conception et le fonctionnement d’un système de recommandation respectent les meilleures pratiques et si l’entreprise fait ce qu’elle dit qu’elle fait. S’ils sont bien réalisés, les audits pourraient offrir la plupart des avantages d’un code source ouvert et d’un accès aux données des utilisateurs, sans qu’il soit nécessaire de les rendre publics. » Reste qu’il est peu probable que les audits imposés par la surveillance réglementaire couvrent tous les domaines qui préoccupent ceux qui sont confrontés aux effets des outils de recommandations.

Autres moteurs de transparence : la gouvernance et les calculs

Les chercheurs concluent en soulignant qu’il existe donc une gamme d’outils à disposition, mais qu’elle manque de règles et de bonnes pratiques partagées. Face aux obligations de transparence et de contrôles qui arrivent (pour les plus gros acteurs d’abord, mais parions que demain, elles concerneront bien d’autres acteurs), les entreprises peinent à se mettre en ordre de marche pour proposer des outillages et des productions dans ces différents secteurs qui leur permettent à la fois de se mettre en conformité et de faire progresser leurs outils. Ainsi, par exemple, dans le domaine des données, documenter les jeux et les champs de données, à défaut de publier les jeux de données, pourrait déjà permettre un net progrès. Dans le domaine de la documentation, les cartes et les registres permettent également d’expliquer ce que les calculs opèrent (en documentant par exemple leurs marges d’erreurs).

Reste que l’approche très technique que mobilisent les chercheurs oublie quelques leviers supplémentaires. Je pense notamment aux conseils de surveillance, aux conseils éthiques, aux conseils scientifiques, en passant par les organismes de contrôle indépendants, aux comités participatifs ou consultatifs d’utilisateurs… à tous les outils institutionnels, participatifs ou militants qui permettent de remettre les parties prenantes dans le contrôle des décisions que les systèmes prennent. Dans la lutte contre l’opacité des décisions, tous les leviers de gouvernance sont bons à prendre. Et ceux-ci sont de très bons moyens pour faire pression sur la transparence, comme l’expliquait très pertinemment David Robinson dans son livre Voices in the Code.

Un autre levier me semble absent de nombre de propositions… Alors qu’on ne parle que de rendre les calculs transparents, ceux-ci sont toujours absents des discussions. Or, les règles de traitements sont souvent particulièrement efficaces pour améliorer les choses. Il me semble qu’on peut esquisser au moins deux moyens pour rendre les calculs plus transparents et responsables : la minimisation et les interdictions.

La minimisation vise à rappeler qu’un bon calcul ne démultiplie pas nécessairement les critères pris en compte. Quand on regarde les calculs, bien souvent, on est stupéfait d’y trouver des critères qui ne devraient pas être pris en compte, qui n’ont pas de fondements autres que d’être rendus possibles par le calcul. Du risque de récidive au score de risque de fraude à la CAF, en passant par l’attribution de greffes ou aux systèmes de calculs des droits sociaux, on trouve toujours des éléments qui apprécient le calcul alors qu’ils n’ont aucune justification ou pertinence autres que d’être rendu possibles par le calcul ou les données. C’est le cas par exemple du questionnaire qui alimente le calcul de risque de récidive aux Etats-Unis, qui repose sur beaucoup de questions problématiques. Ou de celui du risque de fraude à la CAF, dont les anciennes versions au moins (on ne sait pas pour la plus récente) prenaient en compte par exemple le nombre de fois où les bénéficiaires se connectaient à leur espace en ligne (sur cette question, suivez les travaux de la Quadrature et de Changer de Cap). La minimisation, c’est aussi, comme l’explique l’ex-chercheur de chez Google, El Mahdi El Mhamdi, dans une excellente interview, limiter le nombre de paramètres pris en compte par les calculs et limiter l’hétérogénéité des données.

L’interdiction, elle, vise à déterminer que certains croisements ne devraient pas être autorisés, par exemple, la prise en compte des primes dans les logiciels qui calculent les données d’agenda du personnel, comme semble le faire le logiciel Orion mis en place par la Sncf, ou Isabel, le logiciel RH que Bol.com utilise pour gérer la main-d’œuvre étrangère dans ses entrepôts de logistique néerlandais. Ou encore, comme le soulignait Narayanan, le temps passé sur les contenus sur un réseau social par exemple, ou l’analyse de l’émotion dans les systèmes de recrutement (et ailleurs, tant cette technologie pose problème). A l’heure où tous les calculs sont possibles, il va être pertinent de rappeler que selon les secteurs, certains croisements doivent rester interdits parce qu’ils sont trop à risque pour être mobilisés dans le calcul ou que certains calculs ne peuvent être autorisés.

Priyanjana Bengani, Jonathan Stray et Luke Thorburn, pour en revenir à eux, notent enfin que l’exigence de transparence reste formulée en termes très généraux par les autorités réglementaires. Dans des systèmes vastes et complexes, il est difficile de savoir ce que doit signifier réellement la transparence. Pour ma part, je milite pour une transparence “projective”, active, qui permette de se projeter dans les explications, c’est-à-dire de saisir ses effets et dépasser le simple caractère narratif d’une explication loyale, mais bien de pouvoir agir et reprendre la main sur les calculs.

Coincés dans les boucles de l’amplification

Plus récemment, les trois mêmes chercheurs, passé leur article séminal, ont continué à documenter leur réflexion. Ainsi, dans « Rendre l’amplification mesurable », ils expliquent que l’amplification est souvent bien mal définie (notamment juridiquement, ils ont consacré un article entier à la question)… mais proposent d’améliorer les propriétés permettant de la définir. Ils rappellent d’abord que l’amplification est relative, elle consiste à introduire un changement par rapport à un calcul alternatif ou précédent qui va avoir un effet sans que le comportement de l’utilisateur n’ait été, lui, modifié.

L’amplification agit d’abord sur un contenu et nécessite de répondre à la question de savoir ce qui a été amplifié. Mais même dire que les fake news sont amplifiées n’est pas si simple, à défaut d’avoir une définition précise et commune des fake news qui nécessite de comprendre les classifications opérées. Ensuite, l’amplification se mesure par rapport à un point de référence précédent qui est rarement précisé. Enfin, quand l’amplification atteint son but, elle produit un résultat qui se voit dans les résultats liés à l’engagement (le nombre de fois où le contenu a été apprécié ou partagé) mais surtout ceux liés aux impressions (le nombre de fois où le contenu a été vu). Enfin, il faut saisir ce qui relève de l’algorithme et du comportement de l’utilisateur. Si les messages d’un parti politique reçoivent un nombre relativement important d’impressions, est-ce parce que l’algorithme est biaisé en faveur du parti politique en question ou parce que les gens ont tendance à s’engager davantage avec le contenu de ce parti ? Le problème, bien sûr, est de distinguer l’un de l’autre d’une manière claire, alors qu’une modification de l’algorithme entraîne également une modification du comportement de l’utilisateur. En fait, cela ne signifie pas que c’est impossible, mais que c’est difficile, expliquent les chercheurs. Cela nécessite un système d’évaluation de l’efficacité de l’algorithme et beaucoup de tests A/B pour comparer les effets des évolutions du calcul. Enfin, estiment-ils, il faut regarder les effets à long terme, car les changements dans le calcul prennent du temps à se diffuser et impliquent en retour des réactions des utilisateurs à ces changements, qui s’adaptent et réagissent aux transformations.

Dans un autre article, ils reviennent sur la difficulté à caractériser l’effet bulle de filtre des médias sociaux, notamment du fait de conceptions élastiques du phénomène. S’il y a bien des boucles de rétroaction, leur ampleur est très discutée et dépend beaucoup du contexte. Ils en appellent là encore à des mesures plus précises des phénomènes. Certes, ce que l’on fait sur les réseaux sociaux influe sur ce qui est montré, mais il est plus difficile de démontrer que ce qui est montré affecte ce que l’on pense. Il est probable que les effets médiatiques des recommandations soient faibles pour la plupart des gens et la plupart du temps, mais beaucoup plus importants pour quelques individus ou sous-groupes relativement à certaines questions ou enjeux. De plus, il est probable que changer nos façons de penser ne résulte pas d’une exposition ponctuelle, mais d’une exposition à des récits et des thèmes récurrents, cumulatifs et à long terme. Enfin, si les gens ont tendance à s’intéresser davantage à l’information si elle est cohérente avec leur pensée existante, il reste à savoir si ce que l’on pense affecte ce à quoi l’on s’engage. Mais cela est plus difficile à mesurer car cela suppose de savoir ce que les gens pensent et pas seulement constater leurs comportements en ligne. En général, les études montrent plutôt que l’exposition sélective a peu d’effets. Il est probable cependant que là encore, l’exposition sélective soit faible en moyenne, mais plus forte pour certains sous-groupes de personnes en fonction des contextes, des types d’informations.

Bref, là encore, les effets des réseaux sociaux sont difficiles à percer.

Pour comprendre les effets de l’amplification algorithmique, peut-être faut-il aller plus avant dans la compréhension que nous avons des évolutions de celle-ci, afin de mieux saisir ce que nous voulons vraiment savoir. C’est ce que nous tenterons de faire dans la suite de cet article…

Prédation de nos données de santé : SantéNathon ne lâche pas l’affaire

Les conséquences des stratégies économiques et technologiques d’un État peuvent parfois prendre des tournures très concrètes. En matière de données de santé des citoyens, beaucoup pouvaient penser que l’humanisme des professionnels de santé pouvait suffire pour protéger les données de santé des citoyens, dans le respect du secret médical. Mais la pression concurrentielle et l’éthique font rarement bon ménage.

En novembre 2019, nous avions confié les colonnes de ce blog au collectif Interhop qui promeut l’usage des logiciels libres et de l’open source en santé. Il fait partie du collectif SantéNathon qui a lancé une démarche de recours à l’encontre du projet très discuté du Health Data Hub, une plateforme nationale de données de santé dont l’opérateur choisi par les autorités est l’entreprise Microsoft. À l’heure où le Privacy Shield est tombé, à l’heure du RGPD, à l’heure où la « souveraineté numérique » n’est plus seulement un sujet stratégique mais aussi sécuritaire, nous confions de nouveau ces colonnes pour un point d’étape sur les enjeux et les actions en cours.

Plateforme Nationale des Données de Santé

À l’occasion d’une audience prévue au Conseil d’État ce 08 octobre 2020, cette petite vidéo a été tournée devant les locaux d’une entreprise bien connue.

Le Health Data Hub Centralise les données de santé chez Microsoft. Le collectif SantéNathon, issu du monde informatique et de la santé, s’oppose à la centralisation chez Microsoft Azure des données de santé de plus de 67 millions de personnes. Un recours déposé au Conseil d’État demande l’application de la décision de la plus haute juridiction européenne qui s’alarmait de l’accès sans limitation des services de renseignement américains aux données hébergées par les GAFAM.

La genèse du projet Health Data Hub

Tout commence en janvier 2016 avec la loi de modernisation du système de santé. Le Système national des données de santé (SNDS) est créé. Initialement il est limité aux données médico-administratives et met à disposition des données individuelles de santé issues de 3 bases de données :

Les données de la carte vitale,
Les données de la tarification des établissements de santé,
Les données statistiques relatives aux causes médicales de décès.

En juillet 2019, la loi élargit considérablement le SNDS et crée le Health Data Hub ou Plateforme des Données de Santé — PDS. La CNIL s’alarme du changement de paradigme engendré : « Au-delà d’un simple élargissement, cette évolution change la dimension même du SNDS, qui vise à contenir ainsi l’ensemble des données médicales donnant lieu à remboursement ».

En plus du SNDS historique voici à titre d’exemples les bases qui doivent être hébergées au sein de la PDS :

la base OSCOUR : base de données relative aux passages aux urgences en France. Pour chaque patient admis aux urgences, elle recueille les éléments suivants : code postal de résidence, date de naissance, sexe, date et heure d’entrée et de sortie, durée de passage, mode d’entrée, provenance, mode de transport, classification de gravité, diagnostic principal et associés, mode de sortie, destination pour les patients mutés ou transférés.
le Registre France Greffe de Moelle : données permettant d’étudier le parcours de soin entre l’annonce du don et le don de Moëlle.
Base des 500 000 angioplasties : données permettant d’étudier l’impact des stents dans la vie réelle.
la cohorte I-Share : données permettant d’analyser la santé des étudiants.
SIVIC : données nationales de suivi de la prise en charge de patients hospitalisés COVID19 (depuis mars 2020).
STOIC : bases de données de scanners thoraciques issus de plusieurs centres ainsi que des données cliniques.
COVID TELE : formulaires d’orientation concernant la COVID19 issues d’application en santé et outils de télémédecine.

Cette liste est loin d’être exhaustive ; les données de cabinets de médecins généralistes, des hôpitaux, des laboratoires, d’imagerie doivent aussi remplir cette plateforme. Toutes ces bases seront centralisées et liées (on parle d’appariement) pour former le catalogue de données de la PDS.

Vives inquiétudes quant au choix de Microsoft Azure

Le 10 décembre 2019, l’alerte est lancée. Dans une tribune parue dans Le Monde, un collectif initié par des professionnels du secteur de santé et de l’informatique médicale s’inquiète. En effet, la PDS qui regroupe l’ensemble des données de santé de plus de 67 millions de personnes sera hébergée chez Microsoft Azure, le cloud du géant américain. Ces données constituent la part la plus sensible des données à caractère personnel car elles sont protégées par le secret médical.

Progressivement, ce collectif évolue. Il s’appelle maintenant SanteNathon.org. C’est une rencontre inédite de 18 personnes physiques et morales issues :

de l’industrie du logiciel libre :
- Conseil National du Logiciel Libre (CNLL)
- Ploss Auvergne-Rhône-Alpes
- SoLibre
- NEXEDI
des associations de patients et de volontaires :
- Association Constances
- Association les “Actupiennes”
- Association Française des Hémophiles
- Mme Marie Citrini, représentante des Usages des Hôpitaux de Paris
des associations de professionnels de santé :
- Syndicat National des Jeunes Médecins Généralistes (SNJMG)
- Syndicat de la Médecine Générale (SMG)
- Union Française pour une Médecine Libre (UFML)
- M. Didier Sicard, médecin et professeur de médecine à l’Université Paris Descartes).
d’ingénieurs :
- l’Union Fédérale Médecins, Ingénieurs, Cadres, Techniciens (UFMICT-CGT)
- l’Union Générale des Ingénieurs, Cadres et Techniciens (UGICT-CGT)
- l’Association interHop
- Monsieur Bernard Fallery, professeur émérite en systèmes d’information
d’organisations de la société civile :
- L’Observatoire de la transparence dans les politiques du médicament
- Le Syndicat National des Journalistes (SNJ)

Ce collectif dénonce le choix de Microsoft essentiellement à cause de l’absence d’appel d’offre et des effets de l’extraterritorialité du droit américain. En effet Microsoft est soumis au CLOUD Act qui permet aux autorités américaines de mettre la main sur des données détenues par des entreprises américaines même si les données sont hébergées dans l’Union Européenne.

Pire encore la Cour de Justice de l’Union Européenne a récemment révélé que les renseignements américains n’ont aucune limitation quant à l’utilisation des données des Européen⋅ne⋅s. En ce sens, elle a invalidé l’accord facilitant le transfert des données entre les USA et l’Union Européenne, le “Privacy Shield” ou « Bouclier de Protection des Données ».

Menacée directement par les conséquences de cette décision qui rend illicites tous les transferts de données en dehors des frontières de l’Union, Facebook fait pression sur l’Union Européenne. Elle menace de stopper ses services d’ici la fin de l’année.

Le bras de fer entre les États-Unis et l’Union Européenne est engagé. Nos données de santé ne doivent pas être prises en otage. Le collectif SantéNathon se bat pour une recherche garante du secret médical et protectrice de nos données.

Les actions initiées par le collectif SantéNathon

Un premier recours a été déposé le 28 mai 2020 devant le Conseil d’Etat. La juge concluait à plusieurs irrégularités dans le traitement des données sur la plateforme et des risques majeurs pour les droits et libertés fondamentales. Cependant, le Conseil d’État considérait, qu’au moment du jugement, la société Microsoft intégrait la liste des organisations ayant adhéré au « Bouclier de protection des données ». Le transfert des données était donc licite. Ce n’est plus le cas aujourd’hui !

Les parties requérantes ont donc déposé un nouveau référé liberté. Elles demandent par conséquent au Conseil d’État de prendre la mesure de l’invalidation du “Privacy Shield” et des risques en matière de respect de la vie privée. En ce sens, elles sollicitent la suspension du traitement et la centralisation des données au sein du Health Data Hub.

Elles font également valoir que les engagements contractuels conclus entre la société Microsoft et le Health Data Hub sont insuffisants.

Une audience au Conseil d’État est donc prévue le 8 octobre 2020…

— Collectif SantéNathon

Image d’en-tête : Luis Jiménez Aranda — La sala del hospital en la visita del médico en jefe (1889). Wikipédia.

Hold-up sur les données de santé. Patients et soignants unissons-nous

L’Association Interhop.org est une initiative de professionnels de santé spécialisés dans l’usage et la gestion des données de santé, ainsi que la recherche en machine learning dans de multiples domaines médicaux. Aujourd’hui, en leur donnant la parole sur ce blog, nous publions à la fois une alerte et une présentation de leur initiative.

En effet, promouvant un usage éthique, solidaire et intelligent des données de santé, Interhop s’interroge au sujet du récent projet Health Data Hub annoncé par le gouvernement français pour le 1^er décembre prochain. Devons-nous sacrifier le bon usage des données de santé sur l’autel de la « valorisation » et sous l’œil bienveillant de Microsoft ? Tout comme dans l’Éducation Nationale des milliers d’enseignants tentent chaque jour de ne pas laisser le cerveaux de nos enfants en proie au logiciels fermés et addictifs, il nous appartient à tous de ne pas laisser nos données de santé à la merci de la recherche de la rentabilité au mépris de l’éthique et de la science.

Hold-up sur les données de santé, patients et soignants unissons-nous

Par Interhop.org

La plateforme nationale des données de santé ou Health Data Hub, pour les plus américains d’entre nous, doit voir le jour d’ici la fin de l’année. Il s’agit d’un projet qui, selon le Ministère de la Santé, vise à « favoriser l’utilisation et multiplier les possibilités d’exploitation des données de santé » en créant notamment « une plateforme technologique de mise à disposition des données de santé ».

Or, à la lecture du rapport d’étude qui en détermine les contours, le projet n’est pas sans rappeler de mauvais souvenirs. Vous rappelez-vous, par exemple, du contexte conduisant à la création de la CNIL (Commission nationale de l’informatique et des libertés) en 1978 en France ? L’affaire a éclaté en mars 1974, dans les pages du journal Le Monde. Il s’agissait de la tentative plus ou moins contrecarrée du projet SAFARI (Système Automatisé pour les Fichiers Administratifs et le Répertoire des Individus) visant à créer une banque de données de tous les citoyens français en interconnectant les bases de plusieurs institutions grâce à un numéro unique d’identification du citoyen : le numéro de Sécurité Sociale.

Ce scandale n’était pourtant pas inédit, et il ne fut pas le dernier… À travers l’histoire, toutes les tentatives montrent que la centralisation des données correspond à la fois à un besoin de gouvernement et de rentabilité tout en entamant toujours un peu plus le respect de nos vies privées et la liberté. L’histoire de la CNIL est jalonnée d’exemples. Quant aux motifs, ils relèvent toujours d’une très mauvaise habitude, celle de (faire) croire que la centralisation d’un maximum d’informations permet de les valoriser au mieux, par la « magie » de l’informatique, et donc d’être source de « progrès » grâce aux « entreprises innovantes ».

Concernant le « Health Data Hub », il s’agit d’un point d’accès unique à l’ensemble du Système National des Données de Santé (SNDS) issu de la solidarité nationale (cabinets de médecins généralistes, pharmacies, hôpitaux, Dossier Médical Partagé, registres divers et variés…). L’évènement semble si important qu’il a même été annoncé par le Président Macron en mars 2018. Par ailleurs, il est important de pointer que le SNDS avait été épinglé pour l´obsolescence de son système de chiffrement en 2017 par la CNIL.

De plus, l’infrastructure technique du Health Data Hub est dépendante de Microsoft Azure. Et ce point à lui seul soulève de grandes problématiques d’ordre éthique et réglementaire.

Alors que le Règlement Général sur la Protection des Données (RGPD) protège les citoyens européens d’un envoi de leurs données en dehors du territoire européen, la loi Américaine (Cloud Act) permet de contraindre tout fournisseur de service américain à transférer aux autorités les données qu’il héberge, que celles-ci soient stockées aux États-Unis ou à l’étranger.

Entre les deux textes, lequel aura le dernier mot ?

Les citoyens et patients français sont donc soumis à un risque fort de rupture du secret professionnel. La symbolique est vertigineuse puisque l’on parle d’un reniement du millénaire serment d’Hippocrate.

Le risque sanitaire d’une telle démarche est énorme. Les patients acceptent de se faire soigner dans les hôpitaux français et ils ont confiance dans ce système. La perte de confiance est difficilement réparable et risque d’être désastreuse en terme de santé publique.

C’est sous couvert de l’expertise et du « progrès » que le pouvoir choisit le Health Data Hub, solution centralisatrice, alors même que des solutions fédérées peuvent d’ores et déjà mutualiser les données de santé des citoyens Français et permettre des recherches de pointe. Bien que les hôpitaux français et leurs chercheurs œuvrent dans les règles de l’art depuis des années, il apparaît subitement que les données de santé ne sauraient être mieux valorisées que sous l’égide d’un système central, rassemblant un maximum de données, surveillant les flux et dont la gestion ne saurait être mieux maîtrisée qu’avec l’aide d’un géant de l’informatique : Microsoft.

Il est à noter que d’une part, il n’a jamais été démontré que le développement d’un bon algorithme (méthode générale pour résoudre un type de problèmes) nécessite une grande quantité de données, et que d’autre part, on attend toujours les essais cliniques qui démontreraient les bénéfices d’une application sur la santé des patients.

Pour aller plus loin, le réseau d’éducation populaire Framasoft, créé en 2001 et consacré principalement au développement de logiciels libres, veut montrer qu’il est possible d’impacter le monde en faisant et en décentralisant. C’est cette voie qu’il faut suivre.

La loi pour une République numérique fournit un cadre légal parfait pour initier des collaborations et du partage. La diffusion libre du savoir s’inscrit totalement dans la mission de service publique des hôpitaux telle qu’imaginée il y a des décennies par le Conseil National de la Résistance, puis par Ambroise Croizat lors de la création de la Sécurité Sociale.

On ne s’étonne pas que le site Médiapart ait alerté le 22 novembre dernier sur les conditions de l’exploitation des données de santé. Il est rappelé à juste titre que si la CNIL s’inquiète ouvertement à ce sujet, c’est surtout quant à la finalité de l’exploitation des données. Or, la récente Loi Santé a fait disparaître le motif d’intérêt scientifique pour ne garder que celui de l’intérêt général…

Quant à la confidentialité des données, confier cette responsabilité à une entreprise américaine semble être une grande erreur tant la ré-identification d’une personne sur la base du recoupement de données médicales anonymisées est en réalité plutôt simple, comme le montre un article récent dans Nature.

Ainsi, aujourd’hui en France se développe toute une stratégie visant à valoriser les données publiques de santé, en permettant à des entreprises (non seulement des start-up du secteur médical, mais aussi des assureurs, par exemple) d’y avoir accès, dans la droite ligne d’une idéologie de la privatisation des communs. En plus, dans le cas de Microsoft, il s’agit de les héberger, et de conditionner les technologies employées. Quant aux promesses scientifiques, elles disparaissent derrière des boîtes noires d’algorithmes plus ou moins fiables ou, disons plutôt, derrière les discours qui sous le « noble » prétexte de guérir le cancer, cherchent en fait à lever des fonds.

Quelles sont les alternatives ?

Le monde médical et hospitalier est loin de plier entièrement sous le poids des injonctions.

Depuis plusieurs années, les hôpitaux s’organisent avec la création d’Entrepôts de Données de Santé (EDS). Ceux-ci visent à collecter l’ensemble des données des dossiers des patients pour promouvoir une recherche éthique en santé. Par exemple, le projet eHop a réussi à fédérer plusieurs hôpitaux de la Région Grand Ouest (Angers, Brest, Nantes, Poitiers, Rennes, Tours). Le partage en réseau au sein des hôpitaux est au cœur de ce projet.

Par aller plus loin dans le partage, les professionnels dans les hôpitaux français reprennent l’initiative de Framasoft et l’appliquent au domaine de la santé. Ils ont donc créé Interhop.org, association loi 1901 pour promouvoir l’interopérabilité et « le libre » en santé.

Pourquoi interopérer ?

L’interopérabilité des systèmes informatisés est le moteur du partage des connaissances et des compétences ainsi que le moyen de lutter contre l’emprisonnement technologique. En santé, l’interopérabilité est gage de la reproductibilité de la recherche, du partage et de la comparaison des pratiques pour une recherche performante et transparente.

L’interopérabilité est effective grâce aux standards ouverts d’échange définis pour la santé (OMOP et FHIR).

Pourquoi décentraliser ?

Comme dans le cas des logiciels libres, la décentralisation est non seulement une alternative mais aussi un gage d’efficacité dans le machine learning (ou « apprentissage automatique »), l’objectif visé étant de rendre la machine ou l’ordinateur capable d’apporter des solutions à des problèmes compliqués, par le traitement d’une quantité astronomique d’informations.

La décentralisation associée à l’apprentissage fédéré permet de promouvoir la recherche en santé en préservant, d’une part la confidentialité des données, d’autre part la sécurité de leur stockage. Cette technique permet de faire voyager les algorithmes dans chaque centre partenaire sans mobiliser les données. La décentralisation maintient localement les compétences (ingénieurs, soignants) nécessaires à la qualification des données de santé.

Pourquoi partager ?

La solidarité, le partage et l’entraide entre les différents acteurs d’Interhop.org sont les valeurs centrales de l’association. Au même titre qu’Internet est un bien commun, le savoir en informatique médical doit être disponible et accessible à tous. Interhop.org veut promouvoir la dimension éthique particulière que reflète l’ouverture de l’innovation dans le domaine médical et veut prendre des mesures actives pour empêcher la privatisation de la médecine.

Les membres d’Interhop.org s’engagent à partager librement plateforme technique d’analyse big data, algorithmes et logiciels produits par les membres. Les standards ouverts d’échange sont les moyens exclusifs par lesquels ils travaillent et exposent leurs travaux dans le milieu de la santé. Les centres hospitaliers au sein d’Interhop.org décident de se coordonner pour faciliter et agir en synergie.

Pourquoi soigner librement?

L’interconnexion entre le soin et la recherche est de plus en plus forte. Les technologies développées au sein des hôpitaux sont facilement disponibles pour le patient.

L’Association Interhop.org veut prévenir les risques de vassalisation aux géants du numériques en facilitant la recherche pour une santé toujours améliorée. L’expertise des centres hospitaliers sur leurs données, dans la compréhension des modèles et de l’utilisation des nouvelles technologies au chevet des patients, est très importante. Le tissu d’enseignants-chercheurs est majeur. Ainsi en promouvant le Libre, les membres d’Interhop.org s’engagent pour une santé innovante, locale, à faible coût et protectrice de l’intérêt général.

Les données de santé sont tout à la fois le bien accessible et propre à chaque patient et le patrimoine inaliénable et transparent de la collectivité. Il est important de garder la main sur les technologies employées. Cela passe par des solutions qui privilégient l’interopérabilité et le logiciel libre mais aussi le contrôle des contenus par les patients.

—-

Image d’en-tête : Hippocrate refusant les présents d’Artaxerxès, par Girodet, 1792 (Wikimedia).

Données biométriques : des risques de sécurité

Rien de ce qui constitue notre vie numérique n’est totalement dépourvu de failles, pas une semaine ne se passe sans qu’un piratage massif ne soit révélé. C’est par millions que nos données d’internautes sont exposées, y compris et peut-être surtout quand nous les confions plus ou moins aveuglément aux grandes entreprises du numérique.

Quelques exemples parmi tant d’autres : les iPhones, Facebook, Yves Rocher, Option Way, la Gendarmerie…

Dans la course jamais gagnée à la sécurité, les mots de passe sont notoirement fragiles, de sorte que les entreprises passent désormais au stade supérieur et cherchent à utiliser nos données biométriques.

Cependant, comme le souligne Glyn Moody dans l’article ci-dessous, si l’on peut changer un mot de passe piraté, il est impossible de changer des données biométriques compromises…

Source : A major security breach raises a key question: what happens when your biometric data is exfiltrated from a system?

Traduction Framalang : goofy, Penguin, Fabrice, FranBAG, Mannik

Une importante faille de sécurité soulève une question clef : que se passe-t-il lorsque vos données biométriques ont fuité d’un système ?

par Glyn Moody

visage féminin dont le straits principaux sont reliés par un système de reconnaissance faciale. Texte en anglais : biometrics are the key that defines us. — *« Les données biométriques nous définissent »* – Image provenant de Suprema.

Ce n’est pas un secret, la sécurité des mots de passe est souvent déplorable. Les bons mots de passe, ceux qui sont longs et qui mélangent minuscules, majuscules, chiffres et caractères spéciaux, sont difficiles à se mémoriser, à moins d’utiliser un gestionnaire de mots de passe, ce que peu de gens semblent faire. Résultat, les gens ont tendance à choisir des mots de passe faciles à se rappeler, tels que des noms ou des dates de naissance ou encore des absurdités comme « motdepasse » et « 1234 ». Les tentatives pour détourner les personnes de tels mots de passe restent vaines, et en conséquence de nombreuses entreprises et organisations essayent de régler le problème en se débarrassant totalement des mots de passe. L’alternative, utiliser les techniques biométriques telles que la lecture des empreintes digitales, de l’iris et la reconnaissance faciale, est arrivée à maturité et est de plus en plus utilisée. Une des principales sociétés de développement de contrôles d’accès par biométrie s’appelle Suprema :

La gamme étendue de produits Suprema comprend des systèmes de contrôle d’accès biométriques, des solutions de temps et de présence, des lecteurs d’empreintes digitales, des solutions d’authentification mobiles et des modules d’empreintes digitales embarqués. Suprema a consolidé son statut de marque mondiale de premier ordre dans le secteur de la sécurité physique et possède un réseau mondial de ventes dans plus de 130 pays. Suprema se classe en première place concernant les parts de marché dans la région EMEA¹ et a été nommée parmi les 50 principaux fabricants mondiaux dans le secteur de la sécurité.

D’après le site web de la société, 1,5 million de leurs systèmes sont installés dans le monde, utilisés par plus d’un milliard de personnes. Au vu de la position de Suprema dans ce secteur, une information concernant une fuite de données à grande échelle dans leur principal produit, BioStar 2, est particulièrement préoccupante : « Lors d’un test la semaine dernière, les chercheurs ont trouvé que la base de données de Biostar 2 n’était pas protégée et en grande partie non-chiffrée. Ils ont été capables d’effectuer des recherches dans la base de données en manipulant le critère de recherche URL dans Elasticsearch pour accéder aux données. » Un message sur la page d’accueil de Suprema indique : « cet incident concerne un nombre limité d’utilisateurs de l’API BioStar 2 Cloud. La grande majorité des clients de Suprema n’utilise pas l’API BioStar 2 Cloud comme solution de contrôle d’accès et de gestion de temps et de présence. » C’est peut-être vrai, mais les déclarations des chercheurs à propos de ce qui a été découvert sont inquiétantes à lire :

Notre équipe a été capable d’accéder à plus de 27,8 millions d’enregistrements pour un total de 23Go de données, qui incluent les informations suivantes :

Accès aux panneaux, tableau de bord, contrôles back office et permissions des administrateurs clients

Données des empreintes digitales

Informations de reconnaissance faciale et images d’utilisateurs

Noms, identifiants et mots de passe d’utilisateurs non chiffrés

Enregistrements des entrées et des sorties de zones sécurisées

Fiches d’employés, incluant les dates d’entrée dans l’entreprise

Niveau de sécurité et habilitations d’employés

Détails personnels, dont l’adresse du domicile et de messagerie privée d’employés

Structures et hiérarchies des fonctions dans l’entreprise

Terminaux mobiles et informations sur les systèmes d’exploitation

Le fait que des mots de passe, y compris ceux de comptes disposant de droits administrateurs, aient été enregistrés par une entreprise de sécurité sans être chiffrés est incroyable. Comme le signalent les chercheurs, tous ceux qui ont trouvé cette base de données pouvaient utiliser ces mots de passe administrateurs pour prendre le contrôle de comptes BioStar 2 de haut niveau avec toutes les permissions et habilitations complètes des utilisateurs, et modifier les paramètres de sécurité d’un réseau entier. Ils pouvaient créer de nouveaux comptes, les compléter avec des empreintes digitales et scans faciaux ainsi que se donner eux-mêmes accès à des zones sécurisées à l’intérieur de bâtiments. De même, ils pouvaient changer les empreintes digitales de comptes possédant des habilitations de sécurité afin d’octroyer à n’importe qui la possibilité d’entrer dans ces zones.

Comme le compte administrateur contrôle les enregistrements d’activité, des criminels pouvaient supprimer ou modifier les données afin de masquer leurs opérations. En d’autres termes, accéder à de tels mots de passe permet à n’importe qui d’entrer dans n’importe quelle partie d’un bâtiment considéré comme sécurisé et ce de manière invisible, sans laisser aucune trace de leur présence. Cela permettrait le vol d’objets précieux conservés dans les locaux. Plus sérieusement, peut-être, cela permettrait un accès physique aux services informatiques, de manière à faciliter l’accès futur aux réseaux et données sensibles.

Le problème ne s’arrête pas là. La liste des informations hautement personnelles, telles que les fiches d’emploi, adresses de messagerie et de domicile visibles dans la base de données, pourrait faire courir un véritable risque de vol d’identité et d’hameçonnage. Ça permet aussi l’identification du personnel clé des entreprises utilisant le système BioStar 2. Cela pourrait les rendre plus vulnérables aux menaces de chantage par des criminels. Mais peut-être que le problème le plus sérieux est celui-ci, relevé par les chercheurs :

L’utilisation de sécurité biométrique comme les empreintes digitales est récente. Ainsi, la véritable portée du risque de vol d’empreintes digitales est encore inconnue.

Toutefois, il est important de se rappeler qu’une fois volées, vos empreintes digitales ne peuvent pas être changées, contrairement aux mots de passe.

Cela rend le vol des données d’empreintes digitales encore plus préoccupant. Elles ont remplacé les mots de passe alphanumériques dans de nombreux objets de consommation, tels que les téléphones. La plupart de leurs lecteurs d’empreintes digitales ne sont pas chiffrés, ainsi lorsqu’un hacker développera une technologie pour reproduire vos empreintes, il obtiendra l’accès à toutes vos informations personnelles telles que les messages, photos et moyens de paiement stockés sur votre appareil.

D’après les chercheurs qui ont découvert cette base de données vulnérable, au lieu de stocker un hash de l’empreinte digitale – une version mathématiquement brouillée qui ne peut pas faire l’objet de rétro-ingénierie – Suprema a enregistré la version numérique des véritables empreintes des personnes, laquelle peut donc être copiée et directement utilisée pour dans un but malveillant. Il existe déjà de nombreuses méthodes pour créer de fausses empreintes d’assez bonne qualité pour berner les systèmes biométriques. Si les données de l’empreinte complète sont disponibles, de telles contrefaçons ont de bonnes chances de mettre en échec même la meilleure sécurité biométrique.

La possibilité d’une fuite d’autant d’empreintes digitales dans le cas du système BioStar 2 rend la réponse à la question « que se passe-t-il lorsque quelqu’un a une copie de vos données biométriques ? » encore plus cruciale. Comme des personnes le signalent depuis des années, vous ne pouvez pas changer vos caractéristiques biométriques, à moins d’une chirurgie. Ou, comme le dit Suprema sur son site web : « La biométrie est ce qui nous définit. »

Étant donné ce point essentiel, immuable, il est peut-être temps de demander que la biométrie ne soit utilisée qu’en cas d’absolue nécessité uniquement, et non de manière systématique. Et si elle est utilisée, elle doit obligatoirement être protégée – par la loi – avec le plus haut niveau de sécurité disponible. En attendant, les mots de passe, et pas la biométrie, devraient être utilisés dans la plupart des situations nécessitant un contrôle d’accès préalable. Au moins, ils peuvent être changés en cas de compromission de la base de données où ils sont conservés. Et au lieu de pousser les gens à choisir et se rappeler de meilleurs mots de passe, ce qui est un vœu pieux, nous devrions plutôt les aider à installer et utiliser un gestionnaire de mots de passe.

À propos de Glyn Moody
Glyn Moody est un journaliste indépendant qui écrit et parle de la protection de la vie privée, de la surveillance, des droits numériques, de l’open source, des droits d’auteurs, des brevets et des questions de politique générale impliquant les technologies du numérique. Il a commencé à traiter l’usage commercial d’Internet en 1994 et écrivit le premier article grand public sur Linux, qui parait dans Wired en août 1997. Son livre, Rebel Code, est la première et seule histoire détaillée de l’avènement de l’open source, tandis que son travail ultérieur, The Digital Code of Life, explore la bio-informatique, c’est-à-dire l’intersection de l’informatique et de la génomique.

Aujourd’hui, les licences suffisent-elles ?

Frank Karlitschek est un développeur de logiciel libre, un entrepreneur et un militant pour le respect de la vie privée. Il a fondé les projets Nextcloud et ownCloud et il est également impliqué dans plusieurs autres projets de logiciels libres.

Il a publié le Manifeste des données utilisateurs dont nous avons tout récemment publié une traduction et il présente régulièrement des conférences. Il a pris la peine de résumer l’une d’elles qui porte sur les limites des licences libres et open source dans l’environnement numérique d’aujourd’hui.

Source : Open source is more than licenses

Traduction Framalang : swifter, goofy, Julien / Sphinx, Damien , Tykayn, Fabrice, Côme

L’open source, c’est plus que des licences

par Frank Karlitschek

Photo par Nextcloud (CC BY 3.0 via Wikimedia Commons)

Il y a quelques semaines, j’ai eu l’honneur de prononcer une conférence introductive aux Open Source Awards d’Édimbourg. J’ai décidé d’aborder un sujet dont je voulais parler depuis un bon bout de temps sans en avoir eu l’occasion jusqu’alors. Ma conférence n’a pas été filmée mais plusieurs personnes m’ont demandé d’en faire une synthèse. J’ai donc décidé de prendre un peu de mon temps libre dans un avion pour en faire un résumé dans le billet qui suit.

J’ai commencé à utiliser des ordinateurs et à écrire des logiciels au début des années 80 quand j’avais 10 ans. C’est à la même l’époque que Richard Stallman a écrit les 4 libertés, lancé le projet GNU, fondé la FSF et créé la GPL. Son idée était que les utilisateurs et les développeurs devraient avoir le contrôle de leur propre ordinateur, ce qui nécessite des logiciels libres. À l’époque, l’expérience informatique se résumait à un ordinateur personnel devant vous et, avec un peu de chance, les logiciels libres et open source qui s’y trouvaient.

L’équation était :

(matériel personnel) + (logiciel libre)

= (liberté numérique)

Depuis, le monde de l’informatique a changé et beaucoup évolué. Nous avons à présent accès à Internet partout, nous avons des ordinateurs dans les voitures, les télévisions, les montres et tous les autres appareils de l’Internet des Objets. Nous sommes en pleine révolution du tout mobile. Nous avons le Cloud computing (le fameux « nuage ») où le stockage des données et la puissance informatique sont partagés entre plusieurs Data centers (centre de données) possédés et contrôlés par plusieurs groupes et organisations à travers le monde. Nous avons un système de brevets très fort, les DRM, la signature de code et autres outils de cryptographie, les logiciels devenus des services, du matériel propriétaire, des réseaux sociaux et la puissance de l’effet réseau.

Dans son ensemble, le monde a beaucoup changé depuis les années 80. La majorité de la communauté du logiciel libre et de l’open source continue de se concentrer sur les licences logicielles. Je me demande si nous ne perdons pas une vue d’ensemble en limitant le mouvement du logiciel libre et open source aux seules questions des licences.

Richard Stallman souhaitait contrôler son ordinateur. Voyons la situation sur quelques-unes des grandes questions actuelles sur le contrôle numérique :

Facebook

Ces derniers temps, Facebook est sous le feu de nombreuses critiques : que ce soit les innombrables atteintes à la vie privée des utilisateurs, l’implication dans le truquage d’élections, le déclenchement d’un génocide en Birmanie, l’affaiblissement de la démocratie et beaucoup d’autres faits. Voyons si le logiciel libre pourrait résoudre ce problème :

Si Facebook publiait demain son code comme un logiciel libre et open source, notre communauté serait aux anges. Nous avons gagné ! Mais cela résoudrait-il pour autant un seul de ces problèmes ? Je ne peux pas exécuter Facebook sur mon ordinateur car je n’ai pas une grappe de serveurs Facebook. Quand bien même j’y arriverais, je serais bien isolé en étant le seul utilisateur. Donc le logiciel libre est important et génial mais il ne fournit pas de liberté ni de contrôle aux utilisateurs dans le cas de Facebook. Il faut plus que des licences libres.

Microsoft

J’entends de nombreuses personnes de la communauté du logiciel libre et open source se faire les chantres d’un Microsoft qui serait désormais respectable. Microsoft a changé sous la direction de son dernier PDG et ce n’est plus l’Empire du Mal. Ils intègrent désormais un noyau Linux dans Windows 10 et fournissent de nombreux outils libres et open source dans leurs conteneurs Linux sur le cloud Azure. Je pense qu’il s’agit là d’un véritable pas dans la bonne direction mais leurs solutions cloud bénéficient toujours de l’emprise la plus importante pour un éditeur : Windows 10 n’est pas gratuit et ne vous laisse pas de liberté. En réalité, aucun modèle économique open source n’est présent chez eux. Ils ne font qu’utiliser Linux et l’open source. Donc le fait que davantage de logiciels de l’écosystème Microsoft soient disponibles sous des licences libres ne donne pas pour autant davantage de libertés aux utilisateurs.

L’apprentissage automatique

L’apprentissage automatique est une nouvelle technologie importante qui peut être utilisée pour beaucoup de choses, qui vont de la reconnaissance d’images à celle de la voix en passant par les voitures autonomes. Ce qui est intéressant, c’est que le matériel et le logiciel seuls sont inutiles. Pour que l’apprentissage fonctionne, il faut des données pour ajuster l’algorithme. Ces données sont souvent l’ingrédient secret et très précieux nécessaire à une utilisation efficace de l’apprentissage automatique. Plus concrètement, si demain Tesla décidait de publier tous ses logiciels en tant que logiciels libres et que vous achetiez une Tesla pour avoir accès au matériel, vous ne seriez toujours pas en mesure d’étudier, de construire et d’améliorer la fonctionnalité de la voiture autonome. Vous auriez besoin des millions d’heures d’enregistrement vidéo et de données de conducteur pour rendre efficace votre réseau de neurones. En somme, le logiciel libre seul ne suffit pas à donner le contrôle aux utilisateurs.

5G

Le monde occidental débat beaucoup de la confiance à accorder à l’infrastructure de la 5G. Que savons-nous de la présence de portes dérobées dans les antennes-relais si elles sont achetées à Huawei ou à d’autres entreprises chinoises ? La communauté du logiciel libre et open source répond qu’il faudrait que le logiciel soit distribué sous une licence libre. Mais pouvons-nous vraiment vérifier que le code qui s’exécute sur cette infrastructure est le même que le code source mis à disposition ? Il faudrait pour cela avoir des compilations reproductibles, accéder aux clés de signature et de chiffrement du code ; l’infrastructure devrait récupérer les mises à jour logicielles depuis notre serveur de mise à jour et pas depuis celui du fabricant. La licence logicielle est importante mais elle ne vous donne pas un contrôle total et la pleine liberté.

Android

Android est un système d’exploitation mobile très populaire au sein de la communauté du logiciel libre. En effet, ce système est distribué sous une licence libre. Je connais de nombreux militants libristes qui utilisent une version personnalisée d’Android sur leur téléphone et n’installent que des logiciels libres depuis des plateformes telles que F-Droid. Malheureusement, 99 % des utilisateurs lambda ne bénéficient pas de ces libertés car leur téléphone ne peut pas être déverrouillé, car ils n’ont pas les connaissances techniques pour le faire ou car ils utilisent des logiciels uniquement disponibles sur le PlayStore de Google. Les utilisateurs sont piégés dans le monopole du fournisseur. Ainsi, le fait que le cœur d’Android est un logiciel libre ne donne pas réellement de liberté à 99 % de ses utilisateurs.

Finalement, quelle conclusion ?

Je pense que la communauté du logiciel libre et open source concernée par les 4 libertés de Stallman, le contrôle de sa vie numérique et la liberté des utilisateurs, doit étendre son champ d’action. Les licences libres sont nécessaires mais elles sont loin d’être encore suffisantes pour préserver la liberté des utilisateurs et leur garantir un contrôle de leur vie numérique.

La recette (matériel personnel) + (logiciel libre) = (liberté numérique) n’est plus valide.

Il faut davantage d’ingrédients. J’espère que la communauté du logiciel libre peut se réformer et le fera, pour traiter davantage de problématiques que les seules licences. Plus que jamais, le monde a besoin de personnes qui se battent pour les droits numériques et les libertés des utilisateurs.

symboles reliés par des opérateurs comme une équation : ordinateur + nuage open source + nuage de data + point d’inetrrogation = digital freedom — Image d’illustration de l’auteur pour ses diapos de conférence

Un manifeste des données utilisateurs, aujourd’hui ?

Le User Data Manifesto a été initié par Frank Karlitschek un militant du logiciel libre qui a fondé Nextcloud et Owncloud et participé à d’autres projets open source.
La source de cette traduction française figure sur ce dépôt Github, la dernière traduction que je reprends ici avec quelques modifications mineures date de 2015 et semble essentiellement due à Hugo Roy. Le dernier contributeur en date est Philippe Batailler.

[EDIT] Hugo Roy nous apporte cette précision :
hello – la traduction est bien de moi, mais le texte en anglais aussi 😉 la version actuelle du manifeste est une œuvre collaborative avec Frank et @jancborchardt

À la lecture on est frappé de la pertinence des propositions, cependant malgré quelques avancées du côté des directives de l’Union européenne, certains droits revendiqués ici sont encore à conquérir ! Et après 4 ans il faudrait peut-être ajouter d’autres éléments à ce manifeste : le droit d’échapper au pistage publicitaire, le droit d’anonymiser vraiment sa navigation, le droit de ne pas fournir ses données biométriques etc.

Mais c’est plutôt à vous de dire ce qui manque ou est à modifier dans ce manifeste pour qu’il soit solidement inscrit dans les lois et les usages. Comme toujours, le commentaires sont ouverts et modérés.

Manifeste des données utilisateur

Ce manifeste a pour but de définir les droits fondamentaux des utilisateurs sur leurs données à l’ère d’Internet. Chacun devrait être libre sans avoir à faire allégeance aux fournisseurs de service.

Par données utilisateur, on entend les données envoyées par un utilisateur ou une utilisatrice pour son propre usage.

Par exemple, les données utilisateur comprennent :

les fichiers qu’un utilisateur ou qu’une utilisatrice synchronise entre plusieurs appareils ou qu’il ou elle partage avec un⋅e proche
une bibliothèque d’albums photos, de livres ou d’autres fichiers qu’un utilisateur envoie depuis son appareil afin de pouvoir lire, voir, et modifier tout cela en ligne
les données générées par un appareil de l’utilisateur (comme un thermostat ou une montre connectée) et envoyées vers un serveur
les requêtes d’un utilisateur à un moteur de recherche, si de telles requêtes sont enregistrées comme telles

Ainsi, les utilisateurs devraient pouvoir…

1. Maîtriser leur accès à leurs données

Les données explicitement et volontairement envoyées par une utilisatrice devraient être sous la pleine maîtrise de l’utilisatrice. Les utilisateurs devraient être capables de décider à qui accorder un accès direct à leurs données et avec quelles permissions et licences cet accès devrait être accordé.

Lorsque les utilisateurs maîtrisent l’accès aux données qu’ils envoient, les données censées restées privées ou partagées à un cercle restreint ne devraient pas être rendues accessibles au fournisseur du service, ni divulguées aux États.

Cela implique que le droit d’utiliser le chiffrement ne devrait jamais être bafoué.

Cela implique également que lorsque des utilisateurs n’ont pas la pleine maîtrise sur l’envoi de leurs données (par exemple s’ils n’utilisent pas le chiffrement avant l’envoi) un fournisseur de service ne doit pas :

forcer les utilisateurs à divulguer des données privées (ce qui inclut la correspondance privée) pour eux, ni
imposer des conditions de licence (ex. : de droit d’auteur ou d’exploitation des données personnelles) qui vont au-delà de ce qui est nécessaire pour l’objectif du service.

Lorsque les utilisateurs rendent des données accessibles à d’autres, qu’il s’agisse d’un groupe de gens restreint ou d’un groupe plus large, ils devraient pouvoir décider sous quelles permissions l’accès à leurs données est autorisé. Cependant, ce droit n’est pas absolu et ne devrait pas empiéter sur le droit des tierces personnes à utiliser et exploiter ces données une fois qu’elles leur ont été rendues accessibles. Qui plus est, cela ne signifie pas que les utilisateurs devraient avoir le droit d’imposer des restrictions injustes à d’autres personnes. Dans tous les cas, les systèmes techniques ne doivent pas être conçus pour faire appliquer de telles restrictions (par exemple avec des DRM).

Les données reçues, générées ou collectées à partir de l’activité des utilisateurs dans l’utilisation du service (ex. : les métadonnées ou les données du graphe social) devraient leur être rendues accessibles et être également sous leur maîtrise. Si cette maîtrise n’est pas possible, alors ce type de données devrait être anonyme ou bien ne pas être stockée pour une période plus longue que nécessaire.

Certains services permettent aux utilisateurs de soumettre des données avec l’intention de les rendre publiquement accessibles à toutes et à tous. Y compris dans ces cas de figure, quelques données utilisateur restent privées (ex. : les métadonnées ou les données du graphe social). L’utilisatrice et l’utilisateur devraient pouvoir contrôler aussi ces données.

2. Savoir comment les données sont stockées

Quand les données sont envoyées à un fournisseur de service particulier, les utilisateurs et utilisatrices devraient être informé⋅e⋅s du lieu de stockage des données du fournisseur de service, de la durée, de la juridiction dans laquelle le fournisseur de service particulier opère et des lois qui s’y appliquent.

Lorsque les utilisateurs utilisent des services centralisés pour envoyer leurs données à un fournisseur de stockage particulier plutôt que de reposer sur des systèmes pair à pair, il est important de savoir où les fournisseurs pourraient stocker ces données car ils pourraient être obligés par les États à divulguer ces données qu’ils ont en leur possession.

Ce point est sans objet si les utilisateurs sont capables de stocker leurs propres données sur leurs appareils (ex. : des serveurs) dans leur environnement personnel et sous leur contrôle direct ou bien s’ils font confiance à des systèmes sans contrôle centralisé (ex. : le pair à pair).

Les utilisateurs ne devraient pas reposer sur des services centralisés. Les systèmes pair à pair et les applications unhosted sont un moyen d’y arriver. À long terme, tous les utilisateurs devraient être capables d’avoir leur propre serveur avec des logiciels libres.

3. Être libres de choisir une plateforme

Les utilisatrices devraient toujours être en mesure d’extraire leurs données d’un service à tout moment sans subir l’enfermement propriétaire.

Les utilisateurs ne devraient pas être bloqués par une solution technique particulière. C’est pourquoi ils devraient toujours être capables de quitter une plateforme et de s’installer ailleurs.

Les formats ouverts sont nécessaires pour garantir cela. Évidemment, sans le code source des programmes utilisés pour les données utilisateurs, cela n’est pas pratique. C’est pourquoi des programmes devraient être distribués sous une licence libre.

Si les utilisateurs ont ces droits, ils ont la maîtrise de leurs données plutôt que d’être sous la coupe des fournisseurs de service.

De nombreux services qui gèrent les données utilisateur à ce jour sont gratuits, mais cela ne signifie pas qu’ils soient libres. Plutôt que de payer avec de l’argent, les utilisateurs font allégeance aux fournisseurs de services pour que ceux-ci puissent exploiter les données utilisateurs (par ex. en les vendant, en offrant des licences ou en construisant des profils pour les annonceurs publicitaires).

Abandonner ainsi la maîtrise de sa vie privée et d’autres droits semble être un acte trivial pour de nombreuses personnes, un faible prix à payer en échange du confort que ces services Internet apportent.

Les fournisseurs de service ont ainsi été obligés de transformer leurs précieux services Internet en systèmes massifs et centralisés de surveillance. Il est crucial que chacun réalise et comprenne cela, puisqu’il s’agit d’une menace importante pour les libertés de l’humanité et le respect de la vie privée de chacun.

Enfin, pour assurer que les données utilisateurs soient sous la maîtrise des utilisateurs, les meilleurs conceptions techniques incluent les systèmes distribués ou pair-à-pair, ainsi que les applications unhosted. Juridiquement, cela signifie que les conditions générales d’utilisation devraient respecter les droits des utilisateurs et leur donner la possibilité d’exercer leurs droits aux données définis dans ce manifeste.

un jeune homme demande à maîtriser ses données, à savoir comment elles sont stockées et à pouvoir choisir sa plateforme. Le pdédégé aux lunettes teintées de dollars lui répond que bien sûr c’est garanti dans les CGU et que nous prenons très au sérieux votre vie privée etc. (habituel bullshit) — Illustration réalisée avec https://framalab.org/gknd-creator/

Les données que récolte Google – Ch.5

Voici déjà la traduction du cinquième chapitre de Google Data Collection, l’étude élaborée par l’équipe du professeur Douglas C. Schmidt, spécialiste des systèmes logiciels, chercheur et enseignant à l’Université Vanderbilt. Si vous les avez manqués, retrouvez les chapitres précédents déjà publiés.
Il s’agit cette fois d’explorer la quantité de données que Google collecte lorsque l’on a désactivé tout ce qui pouvait l’être…

Traduction Framalang : Khrys, Mika, Piup, David_m, Côme, Serici, Fabrice, Bullcheat, Goofy

V. Quantité de données collectées lors d’une utilisation minimale des produits Google

58. Cette section montre les détails de la collecte de données par Google à travers ses services de publication et d’annonces. Afin de comprendre une telle collecte de données, une expérience est réalisée impliquant un utilisateur qui se sert de son téléphone dans sa vie de tous les jours mais qui évite délibérément d’utiliser les produits Google (Search, Gmail, YouTube, Maps, etc.), exception faite du navigateur Chrome.

59. Pour que l’expérience soit aussi réaliste que possible, plusieurs études sur les usages de consommateurs², ³ ont été utilisées pour créer le profil d’usage journalier d’un utilisateur lambda. Ensuite, toutes les interactions directes avec les services Google ont été retirées du profil. La section IX.F dans les annexes liste les sites internet et applications utilisés pendant l’expérience.

60. L’expérience a été reproduite sur des appareils Android et iOS et les données HTTPS envoyées aux serveurs Google et Apple ont été tracées et analysées en utilisant une méthode similaire à celle expliquée dans la section précédente. Les résultats sont résumés dans la figure 12. Pendant la période de 24 h (qui inclut la période de repos nocturne), la majorité des appels depuis le téléphone Android ont été effectués vers les services Google de localisation et de publication de publicités (DoubleClick, Analytics). Google a enregistré la géolocalisation de l’utilisateur environ 450 fois, ce qui représente 1,4 fois le volume de l’expérience décrite dans la section III.C, qui se basait sur un téléphone immobile.

Figure 12 : Requêtes du téléphone portable durant une journée typique d’utilisation

61. Les serveurs de Google communiquent significativement moins souvent avec un appareil iPhone qu’avec Android (45 % moins). En revanche, le nombre d’appels aux régies publicitaires de Google reste les mêmes pour les deux appareils — un résultat prévisible puisque l’utilisation de pages web et d’applications tierces était la même sur chacun des périphériques. À noter, une différence importante est que l’envoi de données de géolocalisation à Google depuis un appareil iOS est pratiquement inexistant. En absence des plateformes Android et Chrome — ou de l’usage d’un des autres produits de Google — Google perd significativement sa capacité à pister la position des utilisateurs.

62. Le nombre total d’appels aux serveurs Apple depuis un appareil iOS était bien moindre, seulement 19 % des appels aux serveurs de Google depuis l’appareil Android. De plus, il n’y a pas d’appels aux serveurs d’Apple liés à la publicité, ce qui pourrait provenir du fait que le modèle économique d’Apple ne dépend pas autant de la publicité que celui de Google. Même si Apple obtient bien certaines données de localisation des utilisateurs d’appareil iOS, le volume de données collectées est bien moindre (16 fois moins) que celui collecté par Google depuis Android.

63. Au total, les téléphones Android ont communiqué 11.6 Mo de données par jour (environ 350 Mo par mois) avec les serveurs de Google. En comparaison, l’iPhone n’a envoyé que la moitié de ce volume. La quantité de données spécifiques aux régies publicitaires de Google est restée pratiquement identique sur les deux appareils.

64. L’appareil iPhone a communiqué bien moins de données aux serveurs Apple que l’appareil Android n’a échangé avec les serveurs Google.

65. De manière générale, même en l’absence d’interaction utilisateur avec les applications Google les plus populaires, un utilisateur de téléphone Android muni du navigateur Chrome a tout de même tendance à envoyer une quantité non négligeable de données à Google, dont la majorité est liée à la localisation et aux appels aux serveurs de publicité. Bien que, dans le cadre limité de cette expérience, un utilisateur d’iPhone soit protégé de la collecte des données de localisation par Google, Google recueille tout de même une quantité comparable de données liées à la publicité.

66. La section suivante décrit les données collectées par les applications les plus populaires de Google, telles que Gmail, Youtube, Maps et la recherche.

Ce que récolte Google : revue de détail

Le temps n’est plus où il était nécessaire d’alerter sur la prédation opérée par Google et ses nombreux services sur nos données personnelles. Il est fréquent aujourd’hui d’entendre dire sur un ton fataliste : « de toute façon, ils espionnent tout »

Si beaucoup encore proclament à l’occasion « je n’ai rien à cacher » c’est moins par conviction réelle que parce que chacun en a fait l’expérience : « on ne peut rien cacher » dans le monde numérique. Depuis quelques années, les mises en garde, listes de précautions à prendre et solutions alternatives ont été largement exposées, et Framasoft parmi d’autres y a contribué.

Il manquait toutefois un travail de fond pour explorer et comprendre, une véritable étude menée suivant la démarche universitaire et qui, au-delà du jugement global approximatif, établisse les faits avec précision.

C’est à quoi s’est attelée l’équipe du professeur Douglas C. Schmidt, spécialiste depuis longtemps des systèmes logiciels, chercheur et enseignant à l’Université Vanderbilt, qui livre au public une étude d’une cinquantaine de pages intitulée Google Data Collection. Cette étude, qui nous semble pouvoir servir de référence, a retenu l’attention du groupe Framalang qui vous en livre ci-dessous l’executive summary, c’est-à-dire une sorte de résumé initial, qui en donne un aperçu programmatique.

Si vous trouvez un intérêt à cette traduction et souhaitez que Framalang vous propose la suite nous ferons de notre mieux…

Traduction Framalang : Alain, fab, FranBAG, Goofy, jums, Khrys, Mika, Piup, serici

La collecte de données de Google

Un premier aperçu

1.
Google est la plus grosse agence de publicité numérique du monde ⁴. Elle fournit aussi le leader des navigateurs web ⁵, la première plateforme mobile ⁶ ainsi que le moteur de recherche le plus utilisé au monde ⁷. La plateforme vidéo de Google, ses services de mail et de cartographie comptent 1 milliard d’utilisateurs mensuels actifs chacun ⁸. Google utilise l’immense popularité de ses produits pour collecter des données détaillées sur le comportement des utilisateurs en ligne comme dans la vie réelle, données qu’il utilisera ensuite pour cibler ses utilisateurs avec de la publicité payante. Les revenus de Google augmentent significativement en fonction de la finesse des technologies de ciblage des données.

2.
Google collecte les données utilisateurs de diverses manières. Les plus évidentes sont « actives », celles dans lesquelles l’utilisateur donne
directement et consciemment des informations à Google, par exemple en s’inscrivant à des applications très populaires telles que YouTube, Gmail, ou le moteur de recherche. Les voies dites « passives » utilisées par Google pour collecter des données sont plus discrètes, quand une application devient pendant son utilisation l’instrument de la collecte des données, sans que l’utilisateur en soit conscient. On trouve ces méthodes de collecte dans les plateformes (Android, Chrome), les applications (le moteur de recherche, YouTube, Maps), des outils de publication (Google Analytics, AdSense) et de publicité (AdMob, AdWords). L’étendue et l’ampleur de la collecte passive de données de Google ont été en grande partie négligées par les études antérieures sur le sujet ⁹.

3.
Pour comprendre les données que Google collecte, cette étude s’appuie sur quatre sources clefs :
a. Les outils Google « Mon activité » (My Activity) ¹⁰ et « Téléchargez vos données » (Takeout) ¹¹, qui décrivent aux utilisateurs l’information collectée lors de l’usage des outils Google.
b. Les données interceptées lors de l’envoi aux serveurs de Google pendant l’utilisation des produits Google ou d’autres sociétés associées.
c. Les règles concernant la vie privée (des produits Google spécifiquement ou en général).
d. Des recherches tierces qui ont analysé les collectes de données opérées par Google.

Histoire naturelle, générale et particulière, des mollusques, animaux sans vertèbres et à sang blanc. T.2. Paris,L’Imprimerie de F. Dufart,An X-XIII [1802-1805]. biodiversitylibrary.org/page/35755415

4.
Au travers de la combinaison des sources ci-dessus, cette étude montre une vue globale et exhaustive de l’approche de Google concernant la collecte des données et aborde en profondeur certains types d’informations collectées auprès des utilisateurs et utilisatrices.
Cette étude met en avant les éléments clés suivants :

a. Dans une journée d’utilisation typique, Google en apprend énormément sur les intérêts personnels de ses utilisateurs. Dans ce scénario d’une journée « classique », où un utilisateur réel avec un compte Google et un téléphone Android (avec une nouvelle carte SIM) suit sa routine quotidienne, Google collecte des données tout au long des différentes activités, comme la localisation, les trajets empruntés, les articles achetés et la musique écoutée. De manière assez surprenante, Google collecte ou infère plus de deux tiers des informations via des techniques passives. Au bout du compte, Google a identifié les intérêts des utilisateurs avec une précision remarquable.

b. Android joue un rôle majeur dans la collecte des données pour Google, avec plus de 2 milliards d’utilisateurs actifs mensuels dans le monde ¹². Alors que le système d’exploitation Android est utilisé par des fabricants d’équipement d’origine (FEO) partout dans le monde, il est étroitement connecté à l’écosystème Google via le service Google Play. Android aide Google à récolter des informations personnelles sur les utilisateurs (nom, numéro de téléphone, date de naissance, code postal et dans beaucoup de cas le numéro de carte bancaire), les activités réalisées sur le téléphone (applications utilisées, sites web consultés) et les coordonnées de géolocalisation. En coulisses, Android envoie fréquemment la localisation de l’utilisateur ainsi que des informations sur l’appareil lui-même, comme sur l’utilisation des applications, les rapports de bugs, la configuration de l’appareil, les sauvegardes et différents identifiants relatifs à l’appareil.

c. Le navigateur Chrome aide Google à collecter des données utilisateurs depuis à la fois le téléphone et l’ordinateur de bureau, grâce à quelque 2 milliards d’installations dans le monde ¹³. Le navigateur Chrome collecte des informations personnelles (comme lorsqu’un utilisateur remplit un formulaire en ligne) et les envoie à Google via le processus de synchronisation. Il liste aussi les pages visitées et envoie les données de géolocalisation à Google.

d. Android comme Chrome envoient des données à Google même en l’absence de toute interaction de l’utilisateur. Nos expériences montrent qu’un téléphone Android dormant et stationnaire (avec Chrome actif en arrière-plan) a communiqué des informations de localisation à Google 340 fois pendant une période de 24 heures, soit en moyenne 14 communications de données par heure. En fait, les informations de localisation représentent 35 % de l’échantillon complet de données envoyés à Google. À l’opposé, une expérience similaire a montré que sur un appareil iOS d’Apple avec Safari (où ni Android ni Chrome n’étaient utilisés), Google ne pouvait pas collecter de données notables (localisation ou autres) en absence d’interaction de l’utilisateur avec l’appareil.

e. Une fois qu’un utilisateur ou une utilisatrice commence à interagir avec un téléphone Android (par exemple, se déplace, visite des pages web, utilise des applications), les communications passives vers les domaines de serveurs Google augmentent considérablement, même dans les cas où l’on n’a pas utilisé d’applications Google majeures (c.-à-d. ni recherche Google, ni YouTube, pas de Gmail ni Google Maps). Cette augmentation s’explique en grande partie par l’activité sur les données de l’éditeur et de l’annonceur de Google (Google Analytics, DoubleClick, AdWords) ¹⁴. Ces données représentaient 46 % de l’ensemble des requêtes aux serveurs Google depuis le téléphone Android. Google a collecté la localisation à un taux 1,4 fois supérieur par rapport à l’expérience du téléphone fixe sans interaction avec l’utilisateur. En termes d’amplitude, les serveurs de Google ont communiqué 11,6 Mo de données par jour (ou 0,35 Go / mois) avec l’appareil Android. Cette expérience suggère que même si un utilisateur n’interagit avec aucune application phare de Google, Google est toujours en mesure de recueillir beaucoup d’informations par l’entremise de ses produits d’annonce et d’éditeur.

f. Si un utilisateur d’appareil sous iOS décide de renoncer à l’usage de tout produit Google (c’est-à-dire sans Android, ni Chrome, ni applications Google) et visite exclusivement des pages web non-Google, le nombre de fois où les données sont communiquées aux serveurs de Google demeure encore étonnamment élevé. Cette communication est menée exclusivement par des services de l’annonceur/éditeur. Le nombre d’appels de ces services Google à partir d’un appareil iOS est similaire à ceux passés par un appareil Android. Dans notre expérience, la quantité totale de données communiquées aux serveurs Google à partir d’un appareil iOS est environ la moitié de ce qui est envoyé à partir d’un appareil Android.

g. Les identificateurs publicitaires (qui sont censés être « anonymisés » et collectent des données sur l’activité des applications et les visites des pages web tierces) peuvent être associés à l’identité d’un utilisateur ou utilisatrice de Google. Cela se produit par le transfert des informations d’identification depuis l’appareil Android vers les serveurs de Google. De même, le cookie ID DoubleClick (qui piste les activités des utilisateurs et utilisatrices sur les pages web d’un tiers) constitue un autre identificateur censé être anonymisé que Google peut associer à celui d’un compte personnel Google, si l’utilisateur accède à une application Google avec le navigateur déjà utilisé pour aller sur la page web externe. En définitive, nos conclusions sont que Google a la possibilité de connecter les données anonymes collectées par des moyens passifs avec les données personnelles de l’utilisateur.