Google et son robot pipoteur(*), selon Doctorow

Source de commentaires alarmants ou sarcastiques, les robots conversationnels qui reposent sur l’apprentissage automatique ne provoquent pas seulement l’intérêt du grand public, mais font l’objet d’une course de vitesse chez les GAFAM.

Tout récemment, peut-être pour ne pas être à la traîne derrière Microsoft qui veut adjoindre un chatbot à son moteur de recherche Bing, voilà que Google annonce sa ferme résolution d’en faire autant. Dans l’article traduit pour vous par framalang, Cory Doctorow met en perspective cette décision qui lui semble absurde en rappelant les échecs de Google qui a rarement réussi à créer quoi que ce soit…

(*) Merci à Clochix dont nous adoptons dans notre titre la suggestion.

Article original : Google’s chatbot panic

Traduction Framalang : Fabrice, goofy, jums, Henri-Paul, Sysy, wisi_eu,

L’assistant conversationnel de Google en panique

par Cory Doctorow

 

Photo Jonathan Worth CC-BY-SA

 

 

Il n’y a rien d’étonnant à ce que Microsoft décide que l’avenir de la recherche en ligne ne soit plus fondé sur les liens dans une page web, mais de là à la remplacer par des longs paragraphes fleuris écrits dans un chatbot qui se trouve être souvent mensonger… — et en plus Google est d’accord avec ce concept.

Microsoft n’a rien à perdre. Il a dépensé des milliards pour Bing, un moteur de recherche que personne n’utilise volontairement. Alors, sait-on jamais, essayer quelque chose d’aussi stupide pourrait marcher. Mais pourquoi Google, qui monopolise plus de 90 % des parts des moteurs de recherche dans le monde, saute-t-il dans le même bateau que Microsoft ?

le long d'un mur de brique rouge sur lequel est suspendu un personnage ovoïde au visage très inquiet (Humpty-Dumpty le gros œuf), deux silhouettes jumelles (Tweedle-dee et Tweedle-dum les personnages de De l'autre côté du_miroir de Lewis Carroll) représentent avec leur logo sur le ventre Bing et google, chacun d'eaux a une tête qui évoque le robot Hal de 2001, à savoir une lueur rouge sur fond noir qui fait penser à un œil.

Il y a un délicieux fil à dérouler sur Mastodon, écrit par Dan Hon, qui compare les interfaces de recherche merdiques de Bing et Google à Tweedledee et Tweedledum :

https://mamot.fr/@danhon@dan.mastohon.com/109832788458972865

Devant la maison, Alice tomba sur deux étranges personnages, tous deux étaient des moteurs de recherche.
— moi, c’est Google-E, se présenta celui qui était entièrement recouvert de publicités
— et moi, c’est Bingle-Dum, fit l’autre, le plus petit des deux, et il fit la grimace comme s’il avait moins de visiteurs et moins d’occasions de mener des conversations que l’autre.
— je vous connais, répondit Alice, vous allez me soumettre une énigme ? Peut-être que l’un de vous dit la vérité et que l’autre ment ?
— Oh non, fit Bingle-Dum
— Nous mentons tous les deux, ajouta Google-E

Mais voilà le meilleur :

— Cette situation est vraiment intolérable, si vous mentez tous les deux.

— mais nous mentons de façon très convaincante, précisa Bingle-Dum

— D’accord, merci bien. Dans ce cas, comment puis-je vous faire jamais confiance ni / confiance à l’un ni/ou à l’autre ? Dans ce cas, comment puis-je faire confiance à l’un d’entre vous ?

Google-E et Bingle-Dum se tournèrent l’un vers l’autre et haussèrent les épaules.

La recherche par chatbot est une très mauvaise idée, surtout à un moment où le Web est prompt à se remplir de vastes montagnes de conneries générées via l’intelligence artificielle, comme des jacassements statiques de perroquets aléatoires :

La stratégie du chatbot de Google ne devrait pas consister à ajouter plus de délires à Internet, mais plutôt à essayer de trouver comment exclure (ou, au moins, vérifier) les absurdités des spammeurs et des escrocs du référencement.

Et pourtant, Google est à fond dans les chatbots, son PDG a ordonné à tout le monde de déployer des assistants conversationnels dans chaque recoin de l’univers Google. Pourquoi diable est-ce que l’entreprise court après Microsoft pour savoir qui sera le premier à décevoir des espérances démesurées ?

J’ai publié une théorie dans The Atlantic, sous le titre « Comment Google a épuisé toutes ses idées », dans lequel j’étudie la théorie de la compétition pour expliquer l’insécurité croissante de Google, un complexe d’anxiété qui touche l’entreprise quasiment depuis sa création:

L’idée de base : il y a 25 ans, les fondateurs de Google ont eu une idée extraordinaire — un meilleur moyen de faire des recherches. Les marchés financiers ont inondé l’entreprise en liquidités, et elle a engagé les meilleurs, les personnes les plus brillantes et les plus créatives qu’elle pouvait trouver, mais cela a créé une culture d’entreprise qui était incapable de capitaliser sur leurs idées.

Tous les produits que Google a créés en interne, à part son clone de Hotmail, sont morts. Certains de ces produits étaient bons, certains horribles, mais cela n’avait aucune importance. Google, une entreprise qui promouvait la culture du baby-foot et la fantaisie de l’usine Willy Wonka [NdT: dans Charlie et la chocolaterie, de Roald Dahl], était totalement incapable d’innover.

Toutes les réussites de Google, hormis son moteur de recherche et gmail, viennent d’une acquisition : mobile, technologie publicitaire, vidéos, infogérance de serveurs, docs, agenda, cartes, tout ce que vous voulez. L’entreprise souhaite plus que tout être une société qui « fabrique des choses », mais en réalité elle « achète des choses ». Bien sûr, ils sont très bons pour rendre ces produits opérationnels et à les faire « passer à l’échelle », mais ce sont les enjeux de n’importe quel monopole :

La dissonance cognitive d’un « génie créatif » autoproclamé, dont le véritable génie est de dépenser l’argent des autres pour acheter les produits des autres, et de s’en attribuer le mérite, pousse les gens à faire des choses vraiment stupides (comme tout utilisateur de Twitter peut en témoigner).
Google a longtemps montré cette pathologie. Au milieu des années 2000 – après que Google a chassé Yahoo en Chine et qu’il a commencé à censurer ses résultats de recherche, puis collaboré à la surveillance d’État — nous avions l’habitude de dire que le moyen d’amener Google à faire quelque chose de stupide et d’autodestructeur était d’amener Yahoo à le faire en premier lieu.

C’était toute une époque. Yahoo était désespéré et échouait, devenant un cimetière d’acquisitions prometteuses qui étaient dépecées et qu’on laissait se vider de leur sang, laissées à l’abandon sur l’Internet public, alors que les princes duellistes de la haute direction de Yahoo se donnaient des coups de poignard dans le dos comme dans un jeu de rôle genre les Médicis, pour savoir lequel saboterait le mieux l’autre. Aller en Chine fut un acte de désespoir après l’humiliation pour l’entreprise que fut le moteur de recherche largement supérieur de Google. Regarder Google copier les manœuvres idiotes de Yahoo était stupéfiant.

C’était déconcertant, à l’époque. Mais à mesure que le temps passait, Google copiait servilement d’autres rivaux et révélait ainsi une certaine pathologie d’insécurité. L’entreprise échouait de manière récurrente à créer son réseau « social », et comme Facebook prenait toujours plus de parts de marché dans la publicité, Google faisait tout pour le concurrencer. L’entreprise fit de l’intégration de Google Plus un « indictateur1 de performance » dans chaque division, et le résultat était une agrégation étrange de fonctionnalités « sociales » défaillantes dans chaque produit Google — produits sur lesquels des milliards d’utilisateurs se reposaient pour des opérations sensibles, qui devenaient tout à coup polluées avec des boutons sociaux qui n’avaient aucun sens.

La débâcle de G+ fut à peine croyable : certaines fonctionnalités et leur intégration étaient excellentes, et donc logiquement utilisées, mais elles subissaient l’ombrage des incohérences insistantes de la hiérarchie de Google pour en faire une entreprise orientée réseaux sociaux. Quand G+ est mort, il a totalement implosé, et les parties utiles de G+ sur lesquelles les gens se reposaient ont disparu avec les parties aberrantes.

Pour toutes celles et ceux qui ont vécu la tragi-comédie de G+, le virage de Google vers Bard, l’interface chatbot pour les résultats du moteur de recherche, semble tristement familier. C’est vraiment le moment « Mourir en héros ou vivre assez longtemps pour devenir un méchant ». Microsoft, le monopole qui n’a pas pu tuer la jeune pousse Google à cause de son expérience traumatisante des lois antitrust, est passé d’une entreprise qui créait et développait des produits à une entreprise d’acquisitions et d’opérations, et Google est juste derrière elle.

Pour la seule année dernière, Google a viré 12 000 personnes pour satisfaire un « investisseur activiste » privé. La même année, l’entreprise a racheté 70 milliards de dollars en actions, ce qui lui permet de dégager suffisamment de capitaux pour payer les salaires de ses 12 000 « Googleurs » pendant les 27 prochaines années. Google est une société financière avec une activité secondaire dans la publicité en ligne. C’est une nécessité : lorsque votre seul moyen de croissance passe par l’accès aux marchés financiers pour financer des acquisitions anticoncurrentielles, vous ne pouvez pas vous permettre d’énerver les dieux de l’argent, même si vous avez une structure à « double pouvoir » qui permet aux fondateurs de l’emporter au vote contre tous les autres actionnaires :

https://abc.xyz/investor/founders-letters/2004-ipo-letter/

ChatGPT et ses clones cochent toutes les cases d’une mode technologique, et sont les dignes héritiers de la dernière saison du Web3 et des pics des cryptomonnaies. Une des critiques les plus claires et les plus inspirantes des chatbots vient de l’écrivain de science-fiction Ted Chiang, dont la critique déjà culte est intitulée « ChatGPT est un une image JPEG floue du Web » :

https://www.newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg-of-the-web

Chiang souligne une différence essentielle entre les résultats de ChatGPT et ceux des humains : le premier jet d’un auteur humain est souvent une idée originale, mal exprimée, alors que le mieux que ChatGPT puisse espérer est une idée non originale, exprimée avec compétence. ChatGPT est parfaitement positionné pour améliorer la soupe de référencement que des légions de travailleurs mal payés produisent dans le but de grimper dans les résultats de recherche de Google.

En mentionnant l’article de Chiang dans l’épisode du podcast « This Machine Kills », Jathan Sadowski perce de manière experte la bulle de la hype ChatGPT4, qui soutient que la prochaine version du chatbot sera si étonnante que toute critique de la technologie actuelle en deviendra obsolète.

Sadowski note que les ingénieurs d’OpenAI font tout leur possible pour s’assurer que la prochaine version ne sera pas entraînée sur les résultats de ChatGPT3. Cela en dit long : si un grand modèle de langage peut produire du matériel aussi bon qu’un texte produit par un humain, alors pourquoi les résultats issus de ChatGPT3 ne peuvent-ils pas être utilisés pour créer ChatGPT4 ?

Sadowski utilise une expression géniale pour décrire le problème :  « une IA des Habsbourg ». De même que la consanguinité royale a produit une génération de prétendus surhommes incapables de se reproduire, l’alimentation d’un nouveau modèle par le flux de sortie du modèle précédent produira une spirale infernale toujours pire d’absurdités qui finira par disparaître dans son propre trou du cul.

 

Crédit image (modifiée) : Cryteria, CC BY 3.0




« c’est pratique mais c’est une dépossession… »

Aude Vidal qui signe l’article ci-dessous est autrice d’Égologie (Le Monde à l’envers) et de La Conjuration des ego. Féminismes et individualisme (Syllepse), éditrice d’On achève bien les éleveurs (L’Échappée).
Nous la remercions de nous autoriser à reproduire ici le 300e billet de son blog sur l’écologie politique où elle aborde avec vigueur et acuité les diverses facettes de son engagement : écologie, féminisme, anti-capitalisme…
Il s’agit ici d’une réflexion sur la difficulté, y compris en milieu militant, à renoncer au confort (« c’est pratique ») procuré par nos outils numériques, pour réapprendre peut-être à… se faire chier ?


C’est pratique
Par Aude – Le billet original sur son blog

Je n’aime pas me faire chier dans la vie, et je ne dois pas être la seule.
Il m’arrive pourtant souvent d’être surprise que ce soit, autour de moi, un critère décisif pour organiser sa vie : aller au plus pratique. À ce qui engage le moins d’efforts. Les pubs fourmillent d’invitations à se laisser dorloter en échange de quelques euros. Le champ des services ne cesse jamais de s’étendre – et de libérer la croissance. Plus besoin de sortir se faire couper les cheveux, le coiffeur vient chez vous. Inutile de penser à mettre de la bière au frigo, un livreur vous l’apporte. Des services auparavant réservés aux client·es des grands hôtels se massifient désormais : faites livrer des fleurs, chercher un document à la maison, etc. Votre maison est devenue le centre du monde, si vous le voulez bien. Il doit bien être possible de faire autrement, c’est comme cela que nous vivions il y a encore cinq ans.

Tous ces services se déploient dans une société de plus en plus inégalitaire : d’un côté des gens qui méritent de bien bouffer après leur journée de boulot ou une réunion exigeante (voir les pubs qui mettent en scène le réconfort après l’effort), de l’autre des galériens qui sont payés une misère pour leur livrer un pad thai ou un kit apéro (ici le témoignage d’un livreur chez Frichti). C’est surtout parce que le chômage reste massif et l’armée de réserve importante, parce que les emplois ont été délibérément déqualifiés en auto-entreprise que ces entreprises prolifèrent. Si les galériens en ont marre de risquer leur vie et la vôtre en conduisant comme des dingues, ils trouveront un migrant à qui faire faire le boulot. Mais le tout s’appuie sur un mélange de paresse et de sens de ce qui lui est dû qui saisit l’individu en régime libéral au moment de faire à bouffer ou de s’occuper de la dimension matérielle de sa vie. Certes nous devons encore être quelques-un·es à cuire des nouilles quand nous avons la flemme de cuisiner et qui apprécions de sortir au restaurant pour nous changer les idées, découvrir un autre monde, des odeurs,une ambiance (et je n’oublie pas que ces lieux aussi sont propices à l’exploitation du travail). Mais la compétition économique pousse au cul tout le monde pour inventer des services innovants – c’est à dire dont personne n’avait vraiment besoin, qui étaient des rêves d’enfants gâtés mais qui, intelligemment marketés, nous laissent imaginer que nos vies sont vachement mieux avec. Ils constituent une industrie de la compensation sur laquelle il faudra mettre le doigt un jour et qui en attendant offre aux winners des vies de merde pleines de gratifications.

C’est pratique aussi, quand votre smartphone pense à votre place, que le logiciel va chercher vos mots de passe sur une autre bécane, recueille et transfère vos données à votre insu… Pratique, mais un peu inquiétant. Qu’importe, c’est surtout bien pratique ! Je suis la première à ne pas faire en matière de sécurité tous les efforts que me proposent des camarades plus cultivés que moi sur ces questions. Mais malgré cette désinvolture, je flippe quand je vois le niveau d’indépendance acquis par mon smartphone. Après des années de résistance et bien qu’il soit encore possible d’acheter neufs des téléphones bien conçus qui permettent de téléphoner (et d’avoir l’heure), j’ai cédé pour le côté pratique (1) : plus besoin de m’inquiéter d’avoir une connexion Internet régulière, de préparer mes déplacements et ma vie sociale comme je le faisais, avec capture d’écran de plans, schémas dessinés dans l’agenda, infos importantes notées sur papier, etc. Mais je me sens sous tutelle, dépossédée, comme une gamine gâtée sauf que je sais ce que c’est que l’autonomie et je regrette celle que j’avais avant.

Car c’est pratique mais c’est une dépossession : plus la peine de se soucier de la dimension matérielle de sa vie (et de savoir cuire des nouilles), pas besoin de garder la maîtrise de ses outils… Jusqu’ici, tout va bien, tant qu’on fait encore partie de la petite bourgeoisie qui peut se payer tout ça, tant que des pans entiers du macro-système technicien ne s’effondrent pas. Mais tout cela nous déqualifie humainement et il est des menaces plus immédiates encore que l’effondrement écologique ou une vraie crise de l’énergie : nos libertés, individuelles et collectives.

Je côtoie beaucoup de personnes engagées, qui n’ont pas de mots assez durs pour stigmatiser le capitalisme et le productivisme, qui éteignent la lumière dans les pièces qu’elles n’utilisent pas et qui pourtant maintiennent des comptes dans des réseaux sociaux devenus plus gros que des États, qui consomment un paquet de ressources et d’énergie pour calculer ce qu’elles aiment et vendre le résultat à d’autres boîtes, censurent leurs images, détournent leurs « ami·es » d’elles ou réciproquement sur base algorithmique, censurent les noms de groupes pas assez familiaux, gèrent leur environnement social comme un pensionnat dans les années 1950 en attendant de purement et simplement censurer leurs propos (2). Et ces personnes, parfois ces collectifs et associations, restent parce que c’est « pratique »(3).

J’ai toujours reçu un minimum d’écho dans des groupes anti-capitalistes, écologistes ou féministes, quand j’ai suggéré que Facebook, Twitter, Google Drive et autres n’étaient pas nos amis et proposé d’utiliser les outils créés et maintenus par des groupes politiques plus proches de nous et soucieux de nos libertés : les outils Framasoft (qui vont du pad à l’agenda en ligne, en passant par l’interface de sondages et la feuille de calcul), le Crabgrass de Riseup qui offre des fonctionnalités magiques et je me désole de ne faire partie d’aucun groupe qui l’utilise, etc. Et j’ai régulièrement mis en cause chez mes correspondant·es l’idée saugrenue d’avoir un compte Gmail qui vous pousse à garder dix ans de données en ligne plutôt que de ranger dans des fichiers dédiés et régulièrement sauvegardés les images qui vous tiennent à cœur. Et chaque fois, ce que j’entends, c’est que ce serait sympa de sauver la banquise mais… quand même, c’est pratique. Et j’ai vu des bonnes volontés s’arrêter au fait que Framacalc ne propose pas de mettre en couleur les cases, même quand cette couleur contribue à la lisibilité de la feuille sans rajouter aucune information digne d’intérêt. Aucune. Ces outils sont parfois moins bien que leur concurrence commerciale mais ne peut-on arbitrer sur d’autres critères ?

Nous n’allons pas nous flageller, non : si ces entreprises prolifèrent, de la start-up aux GAFA, c’est bien parce que les États leur laissent la bride sur le col. Ils démontent le droit du travail au profit de la micro-entreprise, ils votent des législations liberticides et laissent passer des pratiques intrusives et des concentrations industrielles qui devraient normalement tomber sous le coup de lois anti-trust (Messenger + Facebook + WhatsApp + Instagram, what else?). C’est bien simple : les appels au contrôle des GAFA viennent aujourd’hui du sein desdits GAFA (et pas forcément des concurrents !) autant que des politiques. Visiblement, ça nous touche moins que la dernière vidéo de pandas mignons qui fait le buzz. Mais ça devrait. Et bien que notre marge de manœuvre soit limitée, bien qu’une défection individuelle ne signifie pas grand-chose numériquement, même si c’est dur de se passer des centaines de likes qui saluent vos traits d’esprit et vos indignations sur Twitter, même si votre organisation a fait son trou sur Facebook, il me semble que la première chose à faire, dans cette situation, c’est de quitter ces réseaux pour en faire vivre de plus démocratiques, sobres et décentralisés. Votre engagement anti-capitaliste, écologiste et anti-autoritaire le mérite bien…

Mauvaise nouvelle : il va falloir réapprendre à se faire un peu chier, dans la vie.

 

PS : Ceci est mon 300e billet sur ce blog, ouvert il y a exactement dix ans. 300 billets, ça ne veut pas dire 300 textes, il y a quelques annonces sur le lot. Mais oui, cela fait deux textes par mois en moyenne. Les meilleurs ont été publiés ailleurs (notamment dans les journaux papier L’An 02, CQFD, L’Âge de faire, Moins ! et d’autres encore) ou reformulés dans le cadre des livres Égologie (Le Monde à l’envers, 2007) et La Conjuration des ego (Syllepse, 2019). Je prépare aussi la réédition de ma brochure sur le revenu garanti (aux éditions du Monde à l’envers cet hiver). C’est un blog qui m’a aidée à écrire dans des formats courts puis un peu plus longs (mais toujours pas très longs !) et à faire œuvre malgré le chômage de longue durée et le manque de sollicitations. Je me fais chier à payer le nom de domaine chaque année, ce qui permet de bénéficier d’un hébergement offert par Gandi.net et de ne pas livrer votre cerveau à la publicité.

(1) À vrai dire j’ai cédé dans la perspective d’un travail de terrain à l’étranger, où les seuls accès à Internet se faisaient par mobile et où mes informateurs utilisaient WhatsApp plus volontiers que des sms hors de prix. Et j’y ai gagné un dictaphone de bien meilleure qualité. Mais au quotidien, en France, je me laisse convaincre par le smartphone alors que j’ai encore le choix tous les matins de mettre plutôt mon vieux Nokia dans ma poche.

(2) Ces réseaux sociaux hébergent vos propos, vous permettent de mettre en ligne vos textes, images, fichiers vidéo et audio. Vous restez responsable de vos publications. Tout va bien. Sauf que les dernières innovations en matière de libertés civiles (qui s’accompagnent de la remise en cause d’un droit de la presse qui fonctionne très bien depuis 1881) font de ces réseaux vos éditeurs, lesquels partagent avec vous la responsabilité pénale de vos publications. Devinez la peine que vont prendre ces gros acteurs capitalistes à faire vérifier par des petites mains rémunérées que vos propos sont en effet contraires à la loi, diffamatoires, insultants ou appelant à la haine ? C’est moins cher de le mettre à la poubelle dès qu’une personne qui ne vous aime pas les signale, d’autant plus que vous ne représentez rien (à moins que vous ne soyez Donald Trump, dans ce cas  l’appel à la haine est acceptable). Les organisations qui pourraient se saisir de ce cas de censure pour le rendre public sont elles aussi sur ces réseaux (qui contrôlent leur audience) ou ailleurs et plus personne ne les entend crier parce que tout le monde est sur Facebook. Monde de rêve, hein ?

(3) Moi aussi, je reste, tentant de limiter ma participation et préférant socialiser dans des lieux plus proches de mes valeurs, Seenthis.net ou Mastodon.

 

unmilitant appelle à la convergence des luttes contre le capitalisme en mentionnant tous les réseaux sociaux classiques (facebook, twitter, whatsapp etc.) derrière lui des flics trouvent que c’est pratqiue pour se retrouver
illustration réalisée avec https://framalab.org/gknd-creator/#




Les données que récolte Google – Ch.6

Voici déjà la traduction du sixième chapitre de Google Data Collection, l’étude élaborée par l’équipe du professeur Douglas C. Schmidt, spécialiste des systèmes logiciels, chercheur et enseignant à l’Université Vanderbilt. Si vous les avez manqués, retrouvez les chapitres précédents déjà publiés.


Il s’agit cette fois de comprendre comment Google complète les données collectées avec les données provenant des applications et des comptes connectés des utilisateurs.

Traduction Framalang : Auteurs: Khrys, Piup, Goofy, David_m, Côme, Fabrice, Serici

 

VI. Données collectées par les applications clés de Google destinées aux particuliers

67. Google a des dizaines de produits et services qui évoluent en permanence (une liste est disponible dans le tableau 4, section IX.B de l’annexe). On accède souvent à ces produits grâce à un compte Google (ou on l’y associe), ce qui permet à Google de relier directement les détails des activités de l’utilisateur de ses produits et services à un profil utilisateur. En plus des données d’usage de ses produits, Google collecte également des identificateurs et des données de localisation liés aux appareils lorsqu’on accède aux services Google. 2

68. Certaines applications de Google (p.ex. YouTube, Search, Gmail et Maps) occupent une place centrale dans les tâches de base qu’une multitude d’utilisateurs effectuent quotidiennement sur leurs appareils fixes ou mobiles. Le tableau 2 décrit la portée de ces produits clés. Cette section explique comment chacune de ces applications majeures collecte les informations des utilisateurs.

Tableau 2 : Portée mondiale des principales applications Google

Produits  Utilisateurs actifs
Search  Plus d’un milliard d’utilisateurs actifs par mois, 90.6 % de part de marché des moteurs de recherche 3
Youtube  Plus de 1,8 milliard d’utilisateurs inscrits et actifs par mois 4
Maps  Plus d’un milliard d’utilisateurs actifs par mois 5
Gmail  1,2 milliard d’utilisateurs enregistrés 6

A. Recherche

69. Google Search est le moteur de recherche sur internet le plus populaire au monde 7, avec plus de 11 milliards de requêtes par mois aux États-Unis 8. En plus de renvoyer un classement de pages web en réponse aux requêtes globales des utilisateurs, Google exploite d’autres outils basés sur la recherche, tels que Google Finance, Flights (vols), News (actualités), Scholar (recherche universitaire), Patents (brevets), Books (livres), Images, Videos et Hotels. Google utilise ses applications de recherche afin de collecter des données liées aux recherches, à l’historique de navigation ainsi qu’aux activités d’achats et de clics sur publicités. Par exemple, Google Finance collecte des informations sur le type d’actions que les utilisateurs peuvent suivre, tandis que Google Flight piste leurs réservations et recherches de voyage.

70. Dès lors que Search est utilisé, Google collecte les données de localisation par différents biais, sur ordinateur ou sur mobile, comme décrit dans les sections précédentes. Google enregistre toute l’activité de recherche d’un utilisateur ou utilisatrice et la relie à son compte Google si cette personne est connectée. L’illustration 13 montre un exemple d’informations collectées par Google sur une recherche utilisateur par mot-clé et la navigation associée.

Un exemple de collecte de données de recherche extrait de la page My Activity (Mon Activité) d'un utilisateur
Illustration 13 : Un exemple de collecte de données de recherche extrait de la page My Activity (Mon Activité) d’un utilisateur

 

71. Non seulement c’est le moteur de recherche par défaut sur Chrome et les appareils Google, mais Google Search est aussi l’option par défaut sur d’autres navigateurs internet et applications grâce à des arrangements de distribution. Ainsi, Google est récemment devenu le moteur de recherche par défaut sur le navigateur internet Mozilla Firefox 9 dans des régions clés (dont les USA et le Canada), une position occupée auparavant par Yahoo. De même, Apple est passé de Microsoft Bing à Google pour les résultats de recherche via Siri sur les appareils iOS et Mac 10. Google a des accords similaires en place avec des OEM (fabricants d’équipement informatique ou électronique) 11, ce qui lui permet d’atteindre les consommateurs mobiles.

B. YouTube

72. YouTube met à disposition des utilisateurs et utilisatrices une plateforme pour la mise en ligne et la visualisation de contenu vidéo. Il attire plus de 180 millions de personnes rien qu’aux États-Unis et a la particularité d’être le deuxième site le plus visité des États-Unis 12, juste derrière Google Search. Au sein des entreprises de streaming multimédia, YouTube possède près de 80 % de parts de marché en termes de visites mensuelles (comme décrit dans l’illustration 14). La quantité de contenu mis en ligne et visualisé sur YouTube est conséquente : 400 heures de vidéo sont mises en ligne chaque minute 13 et 1 milliard d’heures de vidéo sont visualisées quotidiennement sur la plateforme YouTube.14

Illustration 14 : Comparaison d'audiences mensuelles des principaux sites multimédia aux États-Unis

 

Illustration 14 : Comparaison d’audiences mensuelles des principaux sites multimédia aux États-Unis 15

73. Les utilisateurs peuvent accéder à YouTube sur l’ordinateur (navigateur internet), sur leurs appareils mobiles (application et/ou navigateur internet) et sur Google Home (via un abonnement payant appelé YouTube Red). Google collecte et sauvegarde l’historique de recherche, l’historique de visualisation, les listes de lecture, les abonnements et les commentaires aux vidéos. La date et l’horaire de chaque activité sont ajoutés à ces informations.

74. Si un utilisateur se connecte à son compte Google pour accéder à n’importe quelle application Google via un navigateur internet (par ex. Chrome, Firefox, Safari), Google reconnaît l’identité de l’utilisateur, même si l’accès à la vidéo est réalisé par un site hors Google (ex. : vidéos YouTube lues sur cnn.com). Cette fonctionnalité permet à Google de pister l’utilisation YouTube d’un utilisateur à travers différentes plateformes tierces. L’illustration 15 montre un exemple de données YouTube collectées.

 

Illustration 15 : Exemple de collecte de données YouTube dans My Activity (Mon Activité)
Illustration 15 : Exemple de collecte de données YouTube dans My Activity (Mon Activité)

 

75. Google propose également un produit YouTube différencié pour les enfants, appelé YouTube Kids, dans l’intention d’offrir une version « familiale » de YouTube avec des fonctionnalités de contrôle parental et de filtres vidéos. Google collecte des informations de YouTube Kids, notamment le type d’appareil, le système d’exploitation, l’identifiant unique de l’appareil, les informations de journalisation et les détails d’utilisation du service. Google utilise ensuite ces informations pour fournir des annonces publicitaires limitées, qui ne sont pas cliquables et dont le format, la durée et le site sont limités.16.

C. Maps

76. Maps est l’application phare de navigation routière de Google. Google Maps peut déterminer les trajets et la vitesse d’un utilisateur et ses lieux de fréquentation régulière (ex. : domicile, travail, restaurants et magasins). Cette information donne à Google une idée des intérêts (ex. : préférences d’alimentation et d’achats), des déplacements et du comportement de l’utilisateur.

77. Maps utilise l’adresse IP, le GPS, le signal cellulaire et les points d’accès au Wi-Fi pour calculer la localisation d’un appareil. Les deux dernières informations sont collectées par le biais de l’appareil où Maps est utilisé, puis envoyées à Google pour évaluer la localisation via son interface de localisation (Location API). Cette interface fournit de nombreux détails sur un utilisateur, dont les coordonnées géographiques, son état stationnaire ou en mouvement, sa vitesse et la détermination probabiliste de son mode de transport (ex. : en vélo, voiture, train, etc.).

78. Maps sauvegarde un historique des lieux qu’un utilisateur connecté à Maps par son compte Googe a visités. L’illustration 16. montre un exemple d’un tel historique 17. Les points rouges indiquent les coordonnées géographiques recueillies par Maps lorsque l’utilisateur se déplace ; les lignes bleues représentent les projections de Maps sur le trajet réel de l’utilisateur.

Illustration 16 : Exemple d'un historique Google Maps (« Timeline ») d'un utilisateur réel
Illustration 16 : Exemple d’un historique Google Maps (« Timeline ») d’un utilisateur réel

79. La précision des informations de localisation recueillies par les applications de navigation routière permet à Google de non seulement cibler des audiences publicitaires, mais l’aide aussi à fournir des annonces publicitaires aux utilisateurs lorsqu’ils s’approchent d’un magasin 18. Google Maps utilise de plus ces informations pour générer des données de trafic routier en temps réel.19

D. Gmail

80. Gmail sauvegarde tous les messages (envoyés et reçus), le nom de l’expéditeur, son adresse email et la date et l’heure des messages envoyés ou reçus. Puisque Gmail représente pour beaucoup un répertoire central pour la messagerie électronique, il peut déterminer leurs intérêts en scannant le contenu de leurs courriels, identifier les adresses de commerçants grâce à leurs courriels publicitaires ou les factures envoyées par message électronique, et connaître l’agenda d’un utilisateur (ex. : réservations à dîner, rendez-vous médicaux…). Étant donné que les utilisateurs utilisent leur identifiant Gmail pour des plateformes tierces (Facebook, LinkedIn…), Google peut analyser tout contenu qui leur parvient sous forme de courriel (ex. : notifications, messages).

81. Depuis son lancement en 2004 jusqu’à la fin de l’année 2017 (au moins), Google peut avoir analysé le contenu des courriels Gmail pour améliorer le ciblage publicitaire et les résultats de recherche ainsi que ses filtres de pourriel. Lors de l’été 2016, Google a franchi une nouvelle étape et a modifié sa politique de confidentialité pour s’autoriser à fusionner les données de navigation, autrefois anonymes, de sa filiale DoubleClick (qui fournit des publicités personnalisées sur internet) avec les données d’identification personnelles qu’il amasse à travers ses autres produits, dont Gmail 20. Le résultat : « les annonces publicitaires DoubleClick qui pistent les gens sur Internet peuvent maintenant leur être adaptées sur mesure, en se fondant sur les mots-clés qu’ils ont utilisés dans leur messagerie Gmail. Cela signifie également que Google peut à présent reconstruire le portrait complet d’une utilisatrice ou utilisateur par son nom, en fonction de tout ce qui est écrit dans ses courriels, sur tous les sites visités et sur toutes les recherches menées. » 21

82. Vers la fin de l’année 2017, Google a annoncé qu’il arrêterait la personnalisation des publicités basées sur les messages Gmail 22. Cependant, Google a annoncé récemment qu’il continue à analyser les messages Gmail pour certaines raisons 23.




Les données que récolte Google – Ch.4

Voici déjà la traduction du quatrième chapitre de Google Data Collection, l’étude élaborée par l’équipe du professeur Douglas C. Schmidt, spécialiste des systèmes logiciels, chercheur et enseignant à l’Université Vanderbilt. Si vous les avez manqués, retrouvez les chapitres précédents déjà publiés.
Il s’agit cette fois d’explorer les stratégies des régies publicitaires qui opèrent en arrière-plan : des opérations fort discrètes mais terriblement efficaces…

Traduction Framalang : Côme, goofy, Khrys,Obny, Penguin, Piup, serici.

IV. Collecte de données par les outils des annonceurs et des diffuseurs

29. Une source majeure de collecte des données d’activité des utilisateurs provient des outils destinés au annonceurs et aux éditeurs tels que Google Analytics, DoubleClick, AdSense, AdWords et AdMob. Ces outils ont une portée énorme ; par exemple, plus d’un million d’applications mobiles utilisent AdMob24, plus d’un million d’annonceurs utilisent AdWords25, plus de 15 millions de sites internet utilisent AdSense26 et plus de 30 millions de sites utilisent Google Analytics27.

30. Au moment de la rédaction du présent rapport, Google a rebaptisé AdWords « Google Ads » et DoubleClick « Google Ad Manager« , mais aucune modification n’a été apportée aux fonctionnalités principales des produits, y compris la collecte d’informations par ces produits28. Par conséquent, pour les besoins du présent rapport, les premiers noms ont été conservés afin d’éviter toute confusion avec des noms de domaine connexes (tels que doubleclick.net).

31. Voici deux principaux groupes d’utilisateurs des outils de Google axés sur l’édition — et les annonces publicitaires :

  • Les éditeurs de sites web et d’applications, qui sont des organisations qui possèdent des sites web et créent des applications mobiles. Ces entités utilisent les outils de Google pour (1) gagner de l’argent en permettant l’affichage d’annonces aux visiteurs sur leurs sites web ou applications, et (2) mieux suivre et comprendre qui visite leurs sites et utilise leurs applications. Les outils de Google placent des cookies et exécutent des scripts dans les navigateurs des visiteurs du site web pour aider à déterminer l’identité d’un utilisateur et suivre son intérêt pour le contenu et son comportement en ligne. Les bibliothèques d’applications mobiles de Google suivent l’utilisation des applications sur les téléphones mobiles.
  • Les annonceurs, qui sont des organisations qui paient pour que des bannières, des vidéos ou d’autres publicités soient diffusées aux utilisateurs lorsqu’ils naviguent sur Internet ou utilisent des applications. Ces entités utilisent les outils de Google pour cibler des profils spécifiques de personnes pour que les publicités augmentent le retour sur leurs investissements marketing (les publicités mieux ciblées génèrent généralement des taux de clics et de conversion plus élevés). De tels outils permettent également aux annonceurs d’analyser leurs audiences et de mesurer l’efficacité de leur publicité numérique en regardant sur quelles annonces les utilisateurs cliquent et à quelle fréquence, et en donnant un aperçu du profil des personnes qui ont cliqué sur les annonces.

32. Ensemble, ces outils recueillent des informations sur les activités des utilisateurs sur les sites web et dans les applications, comme le contenu visité et les annonces cliquées. Ils travaillent en arrière-plan — en général imperceptibles par des utilisateurs. La figure 7 montre certains de ces outils clés, avec des flèches indiquant les données recueillies auprès des utilisateurs et les publicités qui leur sont diffusées.

Figure 7 : Produits Google destinés aux éditeurs et annonceurs29

33. Les informations recueillies par ces outils comprennent un identifiant non personnel que Google peut utiliser pour envoyer des publicités ciblées sans identifier les informations personnelles de la personne concernée. Ces identificateurs peuvent être spécifiques à l’appareil ou à la session, ainsi que permanents ou semi-permanents. Le tableau 1 liste un ensemble de ces identificateurs. Afin d’offrir aux utilisateurs un plus grand anonymat lors de la collecte d’informations pour le ciblage publicitaire, Google s’est récemment tourné vers l’utilisation d’identifiants uniques semi-permanents (par exemple, les GAID)30. Des sections ultérieures décrivent en détail la façon dont ces outils recueillent les données des utilisateurs et l’utilisation de ces identificateurs au cours du processus de collecte des données.

Tableau 1: Identificateurs transmis à Google

Identificateur Type Description
GAID/IDFA Semi-permanent Chaine de caractères alphanumériques pour appareils Android et iOS, pour permettre les publicités ciblées sur mobile. Réinitialisable par l’utilisateur.
ID client Semi-permanent ID créé la première fois qu’un cookie est stocké sur le navigateur. Utilisé pour relier les sessions de navigations. Réinitialisé lorsque les cookies du navigateur sont effacés.
Adresse IP Semi-permanent Une unique suite de nombre qui identifie le réseau par lequel un appareil accède à internet.
ID appareil Android Semi-permanent Nombre généré aléatoirement au premier démarrage d’un appareil. Utilisé pour identifier l’appareil. En retrait progressif pour la publicité. Réinitialisé lors d’une remise à zéro de l’appareil.
Google Services Framework (GSF) Semi-permanent Nombre assigné aléatoirement lorsqu’un utilisateur s’enregistre pour la première fois dans les services Google sur un appareil. Utilisé pour identifier un appareil unique. Réinitialisé lors d’une remise à zéro de l’appareil.
IEMI / MEID Permanent Identificateur utilisé dans les standards de communication mobile. Unique pour chaque téléphone portable.
Adresse MAC Permanent Identificateur unique de 12 caractères pour un élément matériel (ex. : routeur).
Numéro de série Permanent Chaine de caractères alphanumériques utilisée pour identifier un appareil.

A. Google Analytics et DoubleClick

34. DoubleClick et Google Analytics (GA) sont les produits phares de Google en matière de suivi du comportement des utilisateurs et d’analyse du trafic des pages Web sur les périphériques de bureau et mobiles. GA est utilisé par environ 75 % des 100 000 sites Web les plus visités31. Les cookies DoubleClick sont associés à plus de 1,6 million de sites Web32.

35. GA utilise de petits segments de code de traçage (appelés « balises de page ») intégrés dans le code HTML d’un site Web33. Après le chargement d’une page Web à la demande d’un utilisateur, le code GA appelle un fichier analytics.js qui se trouve sur les serveurs de Google. Ce programme transfère un instantané « par défaut » des données de l’utilisateur à ce moment, qui comprend l’adresse de la page web visitée, le titre de la page, les informations du navigateur, l’emplacement actuel (déduit de l’adresse IP), et les paramètres de langue de l’utilisateur. Les scripts de GA utilisent des cookies pour suivre le comportement des utilisateurs.

36. Le script de GA, la première fois qu’il est exécuté, génère et stocke un cookie spécifique au navigateur sur l’ordinateur de l’utilisateur. Ce cookie a un identificateur de client unique (voir le tableau 1 pour plus de détails)34 Google utilise l’identificateur unique pour lier les cookies précédemment stockés, qui capturent l’activité d’un utilisateur sur un domaine particulier tant que le cookie n’expire pas ou que l’utilisateur n’efface pas les cookies mis en cache dans son navigateur35

37. Alors qu’un cookie GA est spécifique au domaine particulier du site Web que l’utilisateur visite (appelé « cookie de première partie »), un cookie DoubleClick est généralement associé à un domaine tiers commun (tel que doubleclick.net). Google utilise de tels cookies pour suivre l’interaction de l’utilisateur sur plusieurs sites web tiers36 Lorsqu’un utilisateur interagit avec une publicité sur un site web, les outils de suivi de conversion de DoubleClick (par exemple, Floodlight) placent des cookies sur l’ordinateur de l’utilisateur et génèrent un identifiant client unique37 Par la suite, si l’utilisateur visite le site web annoncé, le serveur DoubleClick accède aux informations stockées dans le cookie, enregistrant ainsi la visite comme une conversion valide.

B. AdSense, AdWords et AdMob

38. AdSense et AdWords sont des outils de Google qui diffusent des annonces sur les sites Web et dans les résultats de recherche Google, respectivement. Plus de 15 millions de sites Web ont installé AdSense pour afficher des annonces sponsorisées38 De même, plus de 2 millions de sites web et applications, qui constituent le réseau Google Display Network (GDN) et touchent plus de 90 % des internautes39 affichent des annonces AdWords.

39. AdSense collecte des informations indiquant si une annonce a été affichée ou non sur la page web de l’éditeur. Il recueille également la façon dont l’utilisateur a interagi avec l’annonce, par exemple en cliquant sur l’annonce ou en suivant le mouvement du curseur sur l’annonce40. AdWords permet aux annonceurs de diffuser des annonces de recherche sur Google Search, d’afficher des annonces sur les pages des éditeurs et de superposer des annonces sur des vidéos YouTube. Pour suivre les taux de clics et de conversion des utilisateurs, les publicités AdWords placent un cookie sur les navigateurs des utilisateurs pour identifier l’utilisateur s’il visite par la suite le site web de l’annonceur ou s’il effectue un achat41.

40. Bien qu’AdSense et AdWords recueillent également des données sur les appareils mobiles, leur capacité d’obtenir des renseignements sur les utilisateurs des appareils mobiles est limitée puisque les applications mobiles ne partagent pas de cookies entre elles, une technique d’isolement appelée « bac à sable »42 qui rend difficile pour les annonceurs de suivre le comportement des utilisateurs entre différentes applications mobiles.

41 Pour résoudre ce problème, Google et d’autres entreprises utilisent des « bibliothèques d’annonces » mobiles (comme AdMob) qui sont intégrées dans les applications par leurs développeurs pour diffuser des annonces dans les applications mobiles. Ces bibliothèques compilent et s’exécutent avec les applications et envoient à Google des données spécifiques à l’application à laquelle elles sont intégrées, y compris les emplacements GPS, la marque de l’appareil et le modèle de l’appareil lorsque les applications ont les autorisations appropriées. Comme on peut le voir dans les analyses de trafic de données (Figure 8), et comme on peut trouver confirmation sur les propres pages web des développeurs de Google43, de telles bibliothèques peuvent également envoyer des données personnelles de l’utilisateur, telles que l’âge et le genre, tout cela va vers Google à chaque fois que les développeurs d’applications envoient explicitement leurs valeurs numériques vers la bibliothèque.

Figure 8 : Aperçu des informations renvoyées à Google lorsqu’une application est lancée

C. Association de données recueillies passivement et d’informations à caractère personnel

42. Comme nous l’avons vu plus haut, Google recueille des données par l’intermédiaire de produits pour éditeurs et annonceurs, et associe ces données à une variété d’identificateurs semi-permanents et anonymes. Google a toutefois la possibilité d’associer ces identifiants aux informations personnelles d’un utilisateur. C’est ce qu’insinuent les déclarations faites dans la politique de confidentialité de Google, dont des extraits sont présentés à la figure 9. La zone de texte à gauche indique clairement que Google peut associer des données provenant de services publicitaires et d’outils d’analyse aux informations personnelles d’un utilisateur, en fonction des paramètres du compte de l’utilisateur. Cette disposition est activée par défaut, comme indiqué dans la zone de texte à droite.

Figure 9 : Page de confidentialité de Google pour la collecte de sites web tiers et l’association avec des informations personnelles4445.

43. De plus, une analyse du trafic de données échangé avec les serveurs de Google (résumée ci-dessous) a permis d’identifier deux exemples clés (l’un sur Android et l’autre sur Chrome) qui montrent la capacité de Google à corréler les données recueillies de façon anonyme avec les renseignements personnels des utilisateurs.

1) L’identificateur de publicité mobile peut être désanonymé grâce aux données envoyées à Google par Android.

44. Les analyses du trafic de données communiqué entre un téléphone Android et les domaines de serveur Google suggèrent un moyen possible par lequel des identifiants anonymes (GAID dans ce cas) peuvent être associés au compte Google d’un utilisateur. La figure 10 décrit ce processus en une série de trois étapes clés.

45. Dans l’étape 1, une donnée de check-in est envoyée à l’URL android.clients.google.com/checkin. Cette communication particulière fournit une synchronisation de données Android aux serveurs Google et contient des informations du journal Android (par exemple, du journal de récupération), des messages du noyau, des crash dumps, et d’autres identifiants liés au périphérique. Un instantané d’une demande d’enregistrement partiellement décodée envoyée au serveur de Google à partir d’Android est montré en figure 10.

Figure 10 : Les identifiants d’appareil sont envoyés avec les informations de compte dans les requêtes de vérification Android.

46. Comme l’indiquent les zones pointées, Android envoie à Google, au cours du processus d’enregistrement, une variété d’identifiants permanents importants liés à l’appareil, y compris l’adresse MAC de l’appareil, l’IMEI /MEID et le numéro de série du dispositif. En outre, ces demandes contiennent également l’identifiant Gmail de l’utilisateur Android, ce qui permet à Google de relier les informations personnelles d’un utilisateur aux identifiants permanents des appareils Android.

47. À l’étape 2, le serveur de Google répond à la demande d’enregistrement. Ce message contient un identifiant de cadre de services Google (GSF ID)46 qui est similaire à l’« Android ID »47 (voir le tableau 1 pour les descriptions).

48. L’étape 3 implique un autre cas de communication où le même identifiant GSF (de l’étape 2) est envoyé à Google en même temps que le GAID. La figure 10 montre l’une de ces transmissions de données à android.clients.google.com/fdfe/bulkDetails?au=1.

49. Grâce aux trois échanges de données susmentionnés, Google reçoit les informations nécessaires pour connecter un GAID avec des identifiants d’appareil permanents ainsi que les identifiants de compte Google des utilisateurs.

50. Ces échanges de données interceptés avec les serveurs de Google à partir d’un téléphone Android montrent comment Google peut connecter les informations anonymisées collectées sur un appareil mobile Android via les outils DoubleClick, Analytics ou AdMob avec l’identité personnelle de l’utilisateur. Au cours de la collecte de données sur 24 heures à partir d’un téléphone Android sans mouvement ni activité, deux cas de communications d’enregistrement avec des serveurs Google ont été observés. Une analyse supplémentaire est toutefois nécessaire pour déterminer si un tel échange d’informations a lieu avec une certaine périodicité ou s’il est déclenché par des activités spécifiques sur les téléphones.

2) L’ID du cookie DoubleClick est relié aux informations personnelles de l’utilisateur sur le compte Google.

51. La section précédente expliquait comment Google peut désanonymiser l’identité de l’utilisateur via les données passives et anonymisées qu’il collecte à partir d’un appareil mobile Android. Cette section montre comment une telle désanonymisation peut également se produire sur un ordinateur de bureau/ordinateur portable.

52. Les données anonymisées sur les ordinateurs de bureau et portables sont collectées par l’intermédiaire d’identifiants basés sur des cookies (par ex. Cookie ID), qui sont typiquement générés par les produits de publicité et d’édition de Google (par ex. DoubleClick) et stockés sur le disque dur local de l’utilisateur. L’expérience présentée ci-dessous a permis d’évaluer si Google peut établir un lien entre ces identificateurs (et donc les renseignements qui y sont associés) et les informations personnelles d’un utilisateur.
Cette expérience comportait les étapes ordonnées suivantes :

  1. Ouverture d’une nouvelle session de navigation (Chrome ou autre) (pas de cookies enregistrés, par exemple navigation privée ou incognito) ;
  2. Visite d’un site Web tiers qui utilisait le réseau publicitaire DoubleClick de Google ;
  3. Visite du site Web d’un service Google largement utilisé (Gmail dans ce cas) ;
  4. Connexion à Gmail.

53. Au terme des étapes 1 et 2, dans le cadre du processus de chargement des pages, le serveur DoubleClick a reçu une demande lorsque l’utilisateur a visité pour la première fois le site Web tiers. Cette demande faisait partie d’une série de reqêtes comprenant le processus d’initialisation DoubleClick lancé par le site Web de l’éditeur, qui a conduit le navigateur Chrome à installer un cookie pour le domaine DoubleClick. Ce cookie est resté sur l’ordinateur de l’utilisateur jusqu’à son expiration ou jusqu’à ce que l’utilisateur efface manuellement les cookies via les paramètres du navigateur.

54. Ensuite, à l’étape 3, lorsque l’utilisateur visite Gmail, il est invité à se connecter avec ses identifiants Google. Google gère l’identité à l’aide d’une architecture single sign on (SSO) [NdT : authentification unique], dans laquelle les identifiants sont fournis à un service de compte (ici accounts.google.com) en échange d’un « jeton d’authentification », qui peut ensuite être présenté à d’autres services Google pour identifier les utilisateurs. À l’étape 4, lorsqu’un utilisateur accède à son compte Gmail, il se connecte effectivement à son compte Google, qui fournit alors à Gmail un jeton d’autorisation pour vérifier l’identité de l’utilisateur.48 Ce processus est décrit à la figure 24 de la section IX.E de l’annexe.

55. Dans la dernière étape de ce processus de connexion, une requête est envoyée au domaine DoubleClick. Cette requête contient à la fois le jeton d’authentification fourni par Google et le cookie de suivi défini lorsque l’utilisateur a visité le site web tiers à l’étape 2 (cette communication est indiquée à la figure 11). Cela permet à Google de relier les informations d’identification Google de l’utilisateur à un cookie DoubleClick. Par conséquent, si les utilisateurs n’effacent pas régulièrement les cookies de leur navigateur, leurs informations de navigation sur les pages Web de tiers qui utilisent les services DoubleClick pourraient être associées à leurs informations personnelles sur Google Account.

Figure 11 : La requête à DoubleClick.net inclut le jeton d’authentification Google et les cookies passés.

56. Il est donc établi à présent que Google recueille une grande variété de données sur les utilisateurs par l’intermédiaire de ses outils d’éditeur et d’annonceur, sans que l’utilisateur en ait une connaissance directe. Bien que ces données soient collectées à l’aide d’identifiants anonymes, Google a la possibilité de relier ces informations collectées aux identifiants personnels de l’utilisateur stockés sur son compte Google.

57. Il convient de souligner que la collecte passive de données d’utilisateurs de Google à partir de pages web tierces ne peut être empêchée à l’aide d’outils populaires de blocage de publicité49, car ces outils sont conçus principalement pour empêcher la présence de publicités pendant que les utilisateurs naviguent sur des pages web tierces50. La section suivante examine de plus près l’ampleur de cette collecte de données.




Fournisseurs d’emails, arrêtez de faire de la merde ! (#PasMonCaca)

Cet article fait écho à mon précédent article sur le pouvoir de nuisance des silos de mail.

Dans cet article, je pestais contre le pouvoir ahurissant que confère une grosse base d’utilisateurs à certains fournisseurs de mail (Gmail, Yahoo, etc).

En effet, il est quasiment impensable pour quiconque envoie des mails de passer outre leurs façons de faire, sous peine de se couper d’une grande partie des internautes.

Quand bien même on se conforme à leurs desiderata, quand bien même on met en place toutes les bonnes pratiques existantes, certains fournisseurs de mail ne font pas leur travail correctement…

Nota Bene : Framasoft n’est pas la seule structure à rencontrer les problèmes décrits ci-dessous. Des universités aux entreprises en passant par les google groups, on trouve des témoignages un peu partout sur le Web de mails qui n’arrivent pas à destination, et les administrateurs systèmes échangent souvent entre eux pour savoir si ça vient d’eux ou du serveur d’en face (vous aurez déjà deviné, d’après le titre de cet article, d’où vient généralement le problème).

“Postman.” par Alexander, William (1767-1816) licence CC0 1.0

Florilège

À tout seigneur, tout honneur, commençons par laposte.net.

laposte.net

La Poste avait tout pour fournir un service de mail propre et performant : son histoire dans les communications remonte à loin (on peut faire remonter sa généalogie au XVe siècle avec la première poste d’État de Louis XI) et si nous avons tous eu une lettre ou un colis qui s’est perdu dans les méandres des centres de tri, force est de constater que ça fonctionnait quand même très bien. En 2000, la Poste, encore entreprise publique, devait pouvoir fournir une adresse électronique à tous les Français⋅e⋅s.

Comment ne pas lui faire confiance ? Nous-mêmes, libristes avons, pendant longtemps, conseillé laposte.net à qui nous demandait un fournisseur de mail « propre », qui n’espionne pas les conversations, ne met pas de publicité…

Les choses ont bien changé.

Le prestataire de la Poste (ah bah oui, c’est un sous-traitant, vous n’imaginiez quand même pas que la Poste allait avoir des compétences en interne à l’heure des suppressions de postes de fonctionnaires ?) semble être, excusez le terme, un vrai branquignol : nous avons souvent des messages d’erreur comme 421 4.3.2 All server ports are busy (les serveurs ne sont pas correctement dimensionnés), 550 5.5.0 Service refuse. Veuillez essayer plus tard. service refused, please try later. LPN007_510 (« nope, on veut pas, revenez plus tard ») ou mon préféré, 451 4.7.1 Service unavailable – try again later (tout est vautré).

Ça fait des mois que les serveurs de laposte.net plantent régulièrement, avec en point d’orgue une panne qui a duré plusieurs jours en avril et une communication qui a mis plusieurs jours à arriver (un message pour dire qu’il y a un problème serait-il un aveu de faiblesse pour eux ?).

Résultat :

  • les mails s’accumulent sur nos serveurs, et comme on retente de les envoyer pendant quelques jours, eh bien ça ralentit le traitement des autres mails (bon, maintenant, j’ai mis en place des mailqueues séparées, mais ce n’est pas quelque chose que je devrais avoir à mettre en place !) ;
  • les utilisateurs ne reçoivent pas leurs mails de confirmation d’inscription à nos services ;
  • qui les utilisateurs contactent-ils ? Ah bah non, pas le support de la Poste, ce serait trop simple. Non, non, c’est nous. Et c’est usant. Non pas de vous répondre, mais le fait que ce soit 95 % du temps la faute à votre fournisseur de mail qui ne fait pas correctement son boulot.

Orange (wanadoo)

Ah, Orange. Tout un poème…

L’opérateur historique qui, lui aussi, a bénéficié de son aura d’ancien service public pour capter une grande majorité des internautes français lorsque vint l’heure de se choisir son premier FAI. Du coup, beaucoup de personnes ont encore une adresse wanadoo. Et comme Orange est le FAI majoritaire en France, encore plus de personnes ont une adresse orange.

J’avais déjà parlé dans mon précédent article de sa sale manie de ne pas accepter qu’on lui envoie trop de mails en une seule connexion. Imaginez un quidam qui refuse que son facteur lui apporte plus de trois lettres par tournée. Le facteur doit donc se représenter plusieurs fois s’il a plus de trois lettres à délivrer. C’est débile. Orange fait ça, mais pour le mail.

C’est le seul fournisseur que je connaisse qui impose ce genre de limite (qu’on ne vienne pas me dire que c’est pour lutter contre le spam : comment font les autres ? Hein ? Orange n’aurait pas les capacités financières et techniques de lutter plus proprement contre le spam ?).

Heureusement, ça se règle facilement, mais tout de même.

Et puis, de temps en temps, pouf, il rejette nos mails à coup de 550 5.2.0 Mail rejete. Mail rejected. ofr_506. Pourquoi ? Va savoir. Et ça se débloque tout seul au bout d’un temps.

Free

Après l’opérateur historique, voici celui qu’on surnomme le trublion du net. De temps en temps, celui-ci semble modifier les règles de son antispam, et nous voilà avec des mails 550 spam detected, quand bien même c’est le 300e mail quasi identique que nous envoyons de la journée. Et puis ça s’en va et ça revient.

Pareil avec 451 too many errors from your ip, ça bloque de temps en temps et ça repart comme c’est venu… alors qu’il s’agit majoritairement de mails de notification (framapiaf, framasphere, framagit…) et donc que les adresses ont été vérifiées ! Certes, il peut y avoir des erreurs, mais tellement peu dans le volume de mails que nous envoyons à Free… Ça arrive vraiment de façon aléatoire. Grmpf.

Facebook

On l’oublie, mais Facebook, en 2010, a proposé d’avoir une adresse mail @facebook.com (bon, ils ont arrêté les inscriptions en 2014, ce qui explique l’oubli). Et certaines personnes utilisent encore ces adresses.

Nos mails étaient bloqués de temps à autre avec un code 554 5.7.1 POL-P4 Connection refused, ce qui veut dire en gros « Revenez dans 24 ou 48 heures ». En soi, ce n’était pas forcément délirant, si jamais nous avions, pour une raison ou pour une autre, envoyé beaucoup de mails d’un coup à leurs serveurs. Mais depuis quelques semaines, il n’y a plus de déblocage : nos mails ne partent plus pour facebook.com, même en les faisant partir d’un autre serveur ou en diminuant la vitesse d’envoi.


Voilà pour les fournisseurs de mails qui font n’importe quoi avec leurs serveurs. Ils présentent tout de même l’avantage de nous permettre de comprendre pourquoi les destinataires n’ont pas reçu leurs mails, fût-ce pour de stupides raisons. Mais il y en a de plus vicieux…

Ceux qui n’amènent pas les mails à leurs destinataires (ou qui les cachent)

On ne les connaît pas bien, ce n’est que lorsque l’on nous contacte pour et que nous voyons que le mail est bien parti qu’on les repère : les fournisseurs de mails qui acceptent nos mails mais, pour une raison ou pour une autre, les envoient rejoindre le grand rien.

Eh oui, nos mails disparaissent parfois sur le serveur de votre fournisseur de messagerie. Vous ne les trouverez dans aucun dossier, pas même dans les spams.

Il s’agit le plus souvent de choix algorithmiques du fournisseur : l’antispam est vraiment sûr que ce message est frauduleux ? Bah, pas la peine d’embêter l’utilisateur, on le jette ! (ce qui est stupide car ne permettant pas la correction des faux positifs par les utilisateurs).

Encore mieux, Gmail. Comme expliqué dans notre FAQ, si vous recevez un mail identique à un que vous avez envoyé, comme un message à une framaliste à laquelle vous êtes inscrit, Gmail cachera le mail reçu de la liste. Vous l’avez envoyé, vous en connaissez le contenu, non ? Ah, vous vouliez voir quand le message arriverait, histoire d’être sûr qu’il a bien été traité par notre serveur de listes ? Pas de bol.

Ceux qui proposent une application pourrie

Les personnes qui utilisent l’application de mail Orange sur leur téléphone ont des soucis pour envoyer des messages à des framalistes. Après investigation, nous nous sommes rendus compte que l’application met l’adresse de la liste (enfin un dérivé, elle met l’adresse dédiée à la réexpédition des mails reçus par la liste) dans l’en-tête Sender.

Que cela veut-il dire et pourquoi est-ce un problème ? Cela fait croire que le mail provient du serveur des framalistes. Comme notre serveur n’est pas stupide, voyant un mail provenant soit-disant de lui-même mais passant par un serveur non-autorisé à envoyer des mails framalistes, celui-ci refuse le mail. Tout simplement. C’est une des techniques classiques de lutte contre le spam que d’agir ainsi.

“cow dung patties” par mary jane watson licence CC BY 2.0

Conclusion

Les problèmes face aux gros silos de mail sont nombreux, et sont loin d’être tous dus à une mauvaise configuration de votre serveur mail que vous chouchoutez vous-même (ou de ceux que nous configurons… Non vraiment, c’est pas nous qui pondons de telles bouses ! D’où ce joli hache-tague : c’est #PasMonCaca).

Je pense personnellement et sincèrement qu’il y a une part d’incompétence de la part de ces silos dans un certain nombre de cas. Si tout le monde jouait le jeu correctement, le mail ne serait pas aussi compliqué qu’aujourd’hui.

Que pouvez-vous faire ? Eh bien, à part changer de fournisseur de mail (connaissez-vous les CHATONS ?), vous pouvez contacter le support de votre fournisseur actuel, lui expliquer la situation et lui dire que ce n’est pas normal. Nous pouvons vous fournir, le cas échéant, les codes d’erreur retournés par son serveur pour les mails que nous vous envoyons. Peut-être qu’en étant suffisamment nombreux à râler, la situation évoluera.

Fun fact : combien des fournisseurs de mail évoqués dans cet article permettent de contacter leur serveur de mail en IPv6 ? Un seul — je vous laisse chercher lequel 😁

(Et si vous vous posez la question, oui, les serveurs de framasoft.org et framalistes.org sont accessibles en IPv6, comme toute l’infrastructure de Framasoft. Quand on veut, on peut.)

Image d’en-tête par barefootcollege, source.




Être un géant du mail, c’est faire la loi…

Google, Yahoo, Microsoft (Outlook.com & Hotmail) voient forcément vos emails. Que vous soyez chez eux ou pas, nombre de vos correspondant·e·s y sont (c’est mathématique !), ce qui fait que vos échanges finissent forcément par passer sur leurs serveurs. Mais ce n’est pas là le seul problème.

Quand les facteurs deviennent shérifs…

« Bonjour, c’est moi qui fais la loi ! »
Par Mennonite Church USA ArchivesAlta Hershey, Incoming Mail, 1957, No restrictions, Link

Ça, c’est côté public : « Tout le monde est chez eux, alors au final, que j’y sois ou pas, qu’est-ce que ça change ? ». En coulisses, côté serveurs justement, ça change tout. La concentration des utilisateurs est telle qu’ils peuvent de fait imposer des pratiques aux « petits » fournisseurs d’emails, de listes de diffusion, etc. Ben oui : si vous ne respectez pas les exigences de Gmail, les emails que vous enverrez vers tou·te·s leurs utilisateurs et utilisatrices peuvent passer en spam, voire être tout bonnement bloqués.

Comme pour Facebook, on se trouve face à un serpent qui se mord la queue : « Tous mes amis sont dessus, alors je peux pas aller sur un autre réseau… » (phrase entendue lors des début de Twitter, Instagram, Snapchat, et Framasphère*…). Sauf qu’en perdurant chez eux, on devient aussi une part de la masse qui leur confère un pouvoir sur la gouvernance – de fait – d’Internet !

Il n’y a pas de solutions idéale (et, s’il vous plaît, ne jugeons pas les personnes qui participent à ces silos… elles sont souvent pas très loin dans le miroir 😄) ; mais nous pensons que prendre conscience des enjeux, c’est faire avancer sa réflexion et sa démarche vers plus de libertés.

Nous reprenons donc ici un article de Luc, notre administrateur-système, qui a partagé sur son blog son expérience de « petit » serveur d’email (à savoir Framasoft, principalement pour Framalistes) face à ces Léviathans. Luc ayant placé son blog dans le domaine public, nous nous sommes permis de remixer cet article avec des précisions qu’il a faites en commentaires et des simplifications/explications sur les parties les plus techniques (à grands coups de notes intempestives 😜 ).

Le pouvoir de nuisance des silos de mail

Crédits : Illus­tra­tion de Vincent Van Gogh, Joseph Roulin assis

par Luc Didry, aka Framasky.

Quand on pense aux GAFAM, on pense surtout à leur vilaine habi­tude d’as­pi­rer les données de leurs utili­sa­teurs (et des autres aussi d’ailleurs) mais on ne pense pas souvent à leur poids déme­suré dans le domaine du mail.

Google, c’est gmail, Micro­soft, c’est hotmail, live, msn et je ne sais quels autres domaines, etc. [Outlook.com. On l’oublie souvent. – Note du Framablog]

Tout ça repré­sente un nombre plus que consé­quent d’uti­li­sa­teurs. Google reven­diquait en 2015 900 millions de comptes Gmail. Bon OK, il y en a une part qui ne doit servir qu’à avoir un compte pour son téléphone Android, mais quand même. C’est énorme.

Je n’ai pas de statis­tiques pour Micro­soft et Yahoo, mais c’est pareil : ils pèsent un certain poids dans les échanges mondiaux [nous, on en a trouvé : 1,6 milliard de comptes à eux trois en 2016 – NdF].

Ce qui nous ramène à une situa­tion des plus déplai­santes où un petit nombre d’ac­teurs peut en em***er une multi­tude.

WARNING : la liste à puce qui suit contient des exemples techniques un poil velus. Nos notes vous aideront à y survivre, mais vous avez le droit de la passer pour lire la suite des réflexions de Luc. Ah, et puis il a son franc-parler, le loustic. ^^ – NdF.

Petits exemples vécus :

  • Micro­soft bloque tout nouveau serveur mail qu’il ne connaît pas. C’est arrivé pour mon serveur perso, le serveur de mail de Frama­soft que j’ai mis en place, sa nouvelle IP [l’adresse qui permet d’indiquer où trouver un serveur – NdF] quand je l’ai migré, le serveur de listes de Frama­soft et sa nouvelle IP quand je l’ai migré. Ça me pétait une erreur 554 Message not allowed (de mémoire, je n’ai plus le message sous la main) [erreur qui fait que l’email est tout bonnement refusé – NdF]. Et pour trou­ver comment s’en débrouiller, bon courage : la page d’er­reur de Micro­soft n’in­diquait rien. Je n’ai même pas trouvé tout seul (et pour­tant j’ai cher­ché) : c’est un ami qui m’a trouvé la bonne adresse où se faire dé-black­lis­ter (notez au passage qu’il est impos­sible de faire dé-black­lis­ter une adresse ou un bloc d’adresses IPv6 [la nouvelle façon d’écrire les adresses IP, indispensable face à la croissance du nombre de machines connectées à Internet – NdF]).
  • Gmail qui, du jour au lende­main, décide de mettre tous les mails de mon domaine person­nel en spam. Ce qui ne serait pas trop gênant (hé, les faux posi­tifs, ça existe) si ce n’était pour une raison aber­rante (ou alors c’est une sacrée coïn­ci­dence) : ça s’est passé à partir du moment où j’ai activé DNSSEC [une façon de sécuriser les échanges avec les serveurs DNS [ces serveurs sont les annuaires qui font correspondre une adresse web avec l’adresse IP difficile à retenir pour les humains – NdF²]] sur mon domaine. Et ça s’est terminé dès que j’ai ajouté un enre­gis­tre­ment SPF [une vérification que les emails envoyés ne sont pas usurpés – NdF] à ce domaine. Or le DNSSEC et le SPF n’ont rien à voir ! Surtout pas dans cet ordre-là ! Qu’on ne fasse confiance à un enre­gis­tre­ment SPF que dès lors que le DNS est de confiance (grâce à DNSSEC), soit, mais pourquoi néces­si­ter du SPF si on a du DNSSEC ? [Oui, pourquoi ? – NdF qui laisse cette question aux spécialistes]
  • Yahoo. Ah, Yahoo. Yahoo a décidé de renfor­cer la lutte contre le spam (bien) mais a de fait cassé le fonc­tion­ne­ment des listes de diffu­sion tel qu’il était depuis des lustres (pas bien). En effet, quand vous envoyez un mail à une liste de diffu­sion, le mail arrive dans les boîtes des abon­nés avec votre adresse comme expé­di­teur, tout en étant envoyé par le serveur de listes [le serveur de listes se fait passer pour vous, puisque c’est bien vous qui l’avez envoyé par son intermédiaire… vous suivez ? – NdF]. Et Yahoo a publié un enre­gis­tre­ment DMARC [une sécurité de plus pour l’email… heureusement que Luc a mis des liens wikipédia, hein ? – NdF] indiquant que tout mail ayant pour expé­di­teur une adresse Yahoo doit impé­ra­ti­ve­ment prove­nir d’un serveur de Yahoo. C’est bien gentil, mais non seule­ment ça fout en l’air le fonc­tion­ne­ment des listes de diffu­sion, mais surtout ça met le bazar partout : les serveurs de mail qui respectent les enre­gis­tre­ments DMARC appliquent cette règle, pas que les serveurs de Yahoo. Notez qu’AOL fait la même chose.
  • Orange fait aussi son chieur à coup d’er­reurs Too many connections, slow down. OFR004_104 [104] [« trop de connexions, ralentissement », une erreur qui fait la joie des petits et des grands admin-sys – NdF]. C’est telle­ment connu que le moteur de recherche Google suggère de lui-même wanadoo quand on cherche Too many connections, slow down. Voici la solu­tion que j’ai utili­sée.

Pour s’en remettre, voici une image qui fait plaisir…

On peut le voir, le pouvoir de nuisance de ces silos est énorme. Et plus encore dans le cas de Yahoo qui n’im­pacte pas que les commu­ni­ca­tions entre ses serveurs et votre serveur de listes de diffu­sion, mais entre tous les serveurs et votre serveur de listes, pour peu que l’ex­pé­di­teur utilise une adresse Yahoo [on confirme : dès qu’une personne chez Yahoo utilisait Framalistes, ça devenait un beau bord… Bref, vous comprenez. Mais Luc a lutté et a fini par arranger tout cela. – NdF]. Et comme il y a encore pas mal de gens possé­dant une adresse Yahoo, il y a des chances que vous vous rencon­triez le problème un jour ou l’autre.

Je sais bien que c’est pour lutter contre le spam, et que la messagerie propre devient si compliquée que ça pourrait limite devenir un champ d’expertise à part entière, mais le problème est que quand un de ces gros acteurs tousse, ce sont tous les administrateurs de mail qui s’enrhument.

Si ces acteurs étaient de taille modeste, l’en­semble de la commu­nauté pour­rait soit leur dire d’ar­rê­ter leurs bêtises, soit les lais­ser crever dans leurs forte­resses injoi­gnables. Mais ce n’est malheu­reu­se­ment pas le cas. 🙁 « À grand pouvoir, grandes responsabilités »… Je crois avoir montré leur pouvoir de nuisance, j’aimerais qu’ils prennent leurs responsabilités.

Ils peuvent dicter leur loi, de la même façon qu’Internet Explorer 6 le faisait sur le web il y a des années et que Chrome le fait aujourd’hui (n’ayez pas peur, le titre de la vidéo est en anglais, mais la vidéo est en français). C’est surtout ça qui me dérange.

Une seule solu­tion pour faire cesser ce genre d’abus : la dégoo­gli­sa­tion ! Une décen­tra­li­sa­tion du net, le retour à un Inter­net d’avant, fait de petites briques et pas d’im­menses pans de béton.

 

PS : ne me lancez pas sur MailInB­lack, ça me donne des envies de meurtre.




Surveillons la surve://ance

La revue de presse de Jonas@framasoft, qui paraît quand il a le temps. Épisode No 2/n

Effacer n’est pas supprimer : votre historique de Safari demeure longtemps dans iCloud

(Source : Forbes)

Si vous pensez que la suppression de votre historique de navigation sur votre iPhone ou Mac va faire disparaître définitivement vos habitudes en ligne, vous vous trompez. Lourdement. Selon le PDG d’Elcomsoft qui commercialise un outil d’extraction des données du iPhone, Apple stocke l’historique de navigation de Safari dans le iCloud, en remontant à plus d’un an, peut-être bien davantage, même lorsque l’utilisateur a demandé qu’il soit effacé de la mémoire.

Jay Stanley, spécialiste de l’analyse des politiques de confidentialité à l’ACLU (Union américaine pour les libertés civiles), dit que les entreprises doivent être vigilantes et suivre les bonnes pratiques en détruisant vraiment les données des utilisateurs qui le demandent.

Il rappelle : « l’historique de navigation est un ensemble de données extrêmement sensibles. Elles révèlent les centres d’intérêt des personnes, ce qui les préoccupe, un grand nombre des pensées qui les traversent, ainsi que des informations sur leur santé et leur sexualité ».

L’article se termine par une mise à jour rassurante : Apple semble avoir corrigé le problème dans la dernière version de son OS. Cependant il est conseillé aux utilisateurs soucieux de leurs données sensibles de désactiver la synchronisation de Safari avec  iCloud.

Vos comptes Gmail espionnés légalement

(source : Papergeek)

La justice vient de statuer sur les données stockées sur les serveurs de Google, dont celles du très populaire service de messagerie Gmail. Elle a donc décidé de forcer la firme à divulguer les données de n’importe lequel de ses utilisateurs quelle que soit la nationalité, que vous résidiez ou non aux États-Unis. Même si les données en question se trouvent sur des serveurs en dehors du territoire des États-Unis.

« Nersac, un poste optique ». Détail d’une carte postale française de 1910. Domaine public, image procurée par Signal mirror.

Cyber-harcèlement d’état ?

(source : The New York Times)

Au Mexique, les partisans d’une taxe sur les sodas, comme des nutritionnistes ou responsables de la santé publique, sont victimes de messages électroniques inquiétants ou menaçants. La taxe est destinée à réduire la consommation de boissons sucrées et donc l’obésité, mais elle se heurte évidemment aux pressions des géants voisins des boissons gazeuses, pressions relayées semble-t-il par le gouvernement mexicain lui-même.

Les liens envoyés étaient accompagnés d’une forme invasive de logiciels espions développée par NSO Group, un cyber-distributeur israélien qui vend ses outils d’espionnage exclusivement aux gouvernements et qui a des contrats avec plusieurs agences à l’intérieur du Mexique, comme le révèlent des fuites publiées l’an dernier par le New York Times.

NSO Group et les dizaines d’autres « espiogiciels » commerciaux qui sont apparus autour du globe au cours de la dernière décennie opèrent dans un marché largement non réglementé. Les fabricants de ces logiciels espions comme NSO Group, Hacking Team en Italie et Gamma Group en Grande-Bretagne assurent qu’ils vendent des outils uniquement aux gouvernements pour les enquêtes criminelles et terroristes.

Mais les services gouvernementaux ont toute latitude pour décider qui ils veulent on non pirater avec des outils d’espionnage qui peuvent tout pister de leur cible : tous les appels téléphoniques, les textos, les courriels, les frappes au clavier, la localisation, chaque son et chaque image.

Jonas rejeté par la baleine. Enluminure de la Bible de Jean XXII. École française du XIVe siècle – Domaine public (via Wikimédia Commons)




Mon courrier sécurisé ? — C’est dans la boîte !

Ne plus dépendre de Gmail, Yahoo ou Outlook.com, ne plus avoir toutes ses conversations stockées et centralisées sur les serveurs des géants du web étasunien… C’est un peu le Graal des Dupuis-Morizeau.

Mais comment faire, lorsqu’on a peu de connaissances en informatique, pour avoir une boite email vraiment indépendante et pouvoir chiffrer ses échanges ?

Les barbu-e-s du logiciel libre le savent, la solution la plus sensée réside dans l’auto-hébergement, et c’est souvent complexe à mettre en place.

Mais des solutions innovantes, à base de logiciel et de matériel libre, naissent pour aider notre famille témoin à reprendre le contrôle de leurs emails sans se fouler le clavier.

Aujourd’hui, nous interrogeons Pierre Parent, co fondateur de Own-Mailbox : un petit boîtier qui pourrait bien être une solution simple, respectueuse et efficace pour tous les Dupuis-Morizeau qui nous entourent.

Découvrez la Own-Mailbox en cliquant sur l'image
Découvrez la Own-Mailbox en cliquant sur l’image

Salut, tu peux expliquer d’où vient le projet, tout ça ? Les membres sont, cocorico, français ?

Salut,

Donc tout d’abord, je me présente : Pierre Parent, cofondateur de Own-Mailbox.

Le projet a pour origine tout d’abord mon engagement et mon attachement au logiciel libre et à la vie privée sur Internet.
J’ai découvert les logiciels libres en 2007 grâce à un professeur de l’Insa de Rouen où j’ai fait mes études.

Le projet a aussi pour origine ma volonté de me libérer du travail subordonné et donc salarié. J’ai cette pulsion de liberté qui me pousse à rêver de pouvoir travailler librement sur des choses que je juge moi-même bonnes pour le monde et pour les autres ; ou à défaut, a minima obéir à des décisions collectives et démocratiques auxquelles j’aurai moi-même pris part.

Dès lors, de nombreuses idées de produit pouvant permettre le lancement d’une création d’entreprise me sont venues.
Own-Mailbox a été la plus consistante. J’ai donc continué dans cette cette voie pour améliorer l’idée et aller plus loin.

Romain Kornig, un ami de l’Insa de Rouen, a tout de suite été très enthousiaste quand je lui ai parlé de l’idée de Own-Mailbox,

Un peu plus tard quand le projet a commencé à prendre forme et que j’ai senti que cela pouvait déboucher sur quelque chose de sérieux, je me suis rendu compte que je ne pouvais faire ce projet tout seul. J’ai proposé à Romain de me rejoindre, et il a tout de suite dit oui !

Nous avons fondé tous les deux la boite (sans jeux de mots !) à Rennes.

Own-Mailbox, c’est un boîtier qu’on met entre Internet et sa machine ?

Non. Own-Mailbox, c’est un tout petit serveur mail que l’on branche chez soi, qui se configure automatiquement, et qui devient alors accessible depuis partout dans le monde. On peut alors y accéder via un webmail (HTTPS) ou en IMAPS, depuis chez soi, mais aussi depuis partout dans le monde. Le serveur permet de chiffrer les emails de manière très simple, afin d’éviter d’être espionné.

Own-Mailbox remplace un peu les serveurs de Gmail, mais en tout petit, chez soi, et hors de portée de la NSA.

Et comment ça se branche, ce boîtier, il faut une prise spéciale ? Et une fois le truc branché, mon ordinateur va le reconnaître tout de suite ou bien il y a un logiciel à installer, des paramètres à régler, une authentification à opérer, etc. ?

C’est très simple. On branche un câble Ethernet entre la Own-Mailbox et sa box internet, et on la relie au secteur via le transformateur fourni. Voilà.

Aucun logiciel supplémentaire n’est nécessaire, on accède à la Own-Mailbox via un navigateur web (comme Firefox) ou un client mail (comme Thunderbird)

Ça veut dire qu’il faut se promener partout avec ?

Non, la Own-Mailbox doit rester chez vous.

Je te préviens, s’il faut que je me mette à Linux et à la ligne de commande, compte pas sur moi.

Pas du tout, c’est très simple, comme tu peux le voir notre vidéo de démonstration (en anglais) :


Vidéo « Own-Mailbox »

Par les temps qui courent, on comprend bien l’intérêt de protéger sa correspondance, mais ça ne rend pas les choses un peu compliquées ? Notre famille-test, les Dupuis-Morizeau, ils vont s’en sortir ?

Own-Mailbox est précisément conçue pour rendre le chiffrement et l’auto-hébergement accessibles à tous. Nous nous assurons qu’à aucun moment l’utilisation d’une Own-Mailbox ne demande une quelconque compétence technique.

En revanche la question serait plutôt : est-ce que notre famille-test va accorder assez d »importance à la vie privée pour investir le minimum (temps et argent) nécessaire à sa défense ? Je ne connais pas encore la réponse…

Pourquoi les gens qui s’y connaissent me cassent les pieds avec la différence entre « chiffrer » et « crypter ». Ça ne veut pas dire « rendre illisible » dans les deux cas ?

Ha ha! Il y a quelques années je disais tous le temps « encrypter » jusqu’à ce que l’on me reproche tellement, et que l’on me dise que ça n’est pas français, que j’ai commencer à dire « chiffrer ».

Explique plus doucement, je n’y comprends rien. Ces histoires de clé privée / clé publique. Je ne sais jamais si je publie la bonne… Et si je l’efface par mégarde, ma clé, je ne pourrai plus lire mes vieux mails ?

Bon à mon avis il faut publier la clef… publique ! Après je ne suis pas sûr sûr… 😉

Plus sérieusement Own-Mailbox publiera pour toi la clef publique donc pas besoin de t’embêter avec ça !

Avec Own-Mailbox tu ne pourras pas effacer ta clef par erreur, à moins d’avoir les compétences techniques nécessaires (console linux, ssh, etc.)

Si ça n’est pas le cas, ou si tu ne bidouilles pas ta Own-Mailbox, tu n’as rien a craindre ! 😉

C’est vraiment sûr et garanti, le chiffrage ? Nan, passque quitte à se faire suer, autant que ça marche, hein… La NSA, elle peut peut-être lire quand même ? On peut le pirater, ce boîtier ?

Le chiffrement de Own-Mailbox se base sur des logiciels libres reconnus, testés et éprouvés depuis des années (la technologie GPG).

Eux-mêmes reposent sur des algorithmes mathématiques qui rendent le déchiffrement par des tiers tellement coûteux en temps de calcul qu’il paraît impossible.

Edward Snowden a fait confiance à ces logiciels à des moments où sa vie était en jeu.

Après, un bug est toujours possible, mais le code des logiciels de chiffrement étant ouvert il est constamment relu par de nombreuses personnes ce qui réduit le risque de bug, et le cas échéant réduit le délai avant qu’il ne soit corrigé.

Soutenez Own-Mailbox et précommandez la vôtre en cliquant sur l'image
Soutenez Own-Mailbox et précommandez la vôtre en cliquant sur l’image

Il va falloir que je retienne un mot de passe de vingt caractères, avec des chiffres et des caractères spéciaux ? Pfou !

Non, avec la Own-Mailbox un mot de passe de 10 caractères est sûr.

Des mesures sont prises de manière à ce que l’interface de connexion ne puisse être piratée avec un mot de passe de 10 caractères

(Empêcher le brute force, voir notre FAQ).

Comment dialoguer avec un-e correspondant-e qui ne chiffre pas ses mails ? Comment ille fait pour lire ce que je lui écris ?

Alors soit ce que tu veux lui envoyer n’est pas confidentiel, et tu as toujours la possibilité de le lui envoyer en clair.
Soit tu veux lui envoyer un message confidentiel, eh bien nous avons conçu un système basé sur un lien HTTPS, en le cliquant la personne destinataire du message pourra le visualiser ton message sans risque d’être espionnée.

Une dernière solution est aussi de la convaincre de commencer à chiffrer ses emails et/ou utiliser une Own-Mailbox !

Et si j’écris à quelqu’un-e qui utilise une boite mail fournie par Google ou Microsoft, ça sert à quelque chose de chiffrer ?

Oui, le principe du chiffrement est justement que les intermédiaires (Google ou Microsoft), ne peuvent pas déchiffrer le contenu, seul le destinataire le peut.

Je vois dans la partie « Fonctionnalités » du site web l’annonce suivante : « Integrated Framasoft services, to provide you with private large file sharing, event scheduling, shared spreadsheet and documents. », ça veut dire quoi ?

Cela veut dire que l’on planifie d’ajouter de manière pré-installé sur notre boîtier, une partie des services proposées par Framasoft pour « dégoogliser » Internet( http://degooglisons-internet.org/liste/ ) afin de fournir des services connexes aux mails tel que le partage de gros fichier, les tableurs partagés, l’organisation de réunions, le tout de manière totalement confidentielle.

Vous aussi, vous vous lancez dans le crowdfunding ? Forcément, on vous imagine mal demander des subventions au Ministère de l’Intérieur. 🙂

Pour que Own-Mailbox puisse être utilisable par tous il faut qu’elle soit « All-In-The-Box » et « Plug-And-Play ». Cela implique que nous
produisions des boîtiers physiques pré-configurées.

Nous ne pouvons évidement pas financer de notre poche les premières séries de production, et les banques et autres investisseurs traditionnels ont du mal à se projeter dans ce type de projet un peu hors-système.

Le crowdfunding paraît donc la solution optimale pour ce type de projet, et vous retrouverez notre campagne ici, sur kickstarter.

N’hésitez pas à participer, la campagne ne dure que jusqu’au 5 Octobre 2015.

L’étape d’après, c’est quoi ?

Alors tout d’abord l’étape la plus importante, c’est de livrer les Own-Mailbox aux contributeurs sur Kickstarter, puis aux clients qui suivront !

Lorsque la Own-Mailbox sera bien lancée nous allons sortir une version PME de Own-Mailbox. Car l’espionnage industriel implique de grosses pertes pour les entreprises française comme l’a révélé Wikileaks il y a quelques mois (à hauteur de 200 millions par an).

Par la suite nous avons beaucoup d’autres projets de produits dans les cartons, mais pour l’instant nous gardons cela pour nous !

Pour soutenir ce projet et avoir votre Own-Mailbox avant tout le monde, allez sur leur page Kickstarter.