La pieuvre Microsoft et nos données de santé

29 Juillet 2020

Presse Lundi Matin Health Data Hub Microsoft RGPD

Big Data, algorithme et intelligence artificielle, un collectif de soignants et d’informaticiens s’oppose au gouvernement.
Sous couvert de lutte contre l’épidémie et d’état d’urgence sanitaire, le gouvernement a donné le coup d’envoi à son projet de méga plateforme de données de santé hébergée chez Microsoft. Petite plongée dans l’intelligence artificielle en médecine avec le collectif inter-hop qui depuis le début du projet milite contre cette plateforme géante et pour une utilisation autonome des données de santé à échelle humaine.

Cet article est une collaboration avec le journal Lundi Matin. Vous pouvez retrouver l’article original en suivant ce lien. Merci à eux.

La loi de juillet 2019 « relative à l’organisation et à la transformation du système de santé » comprend une partie sur « l’ambition numérique en santé » : le texte explique qu’il faut « déployer pleinement » la « télémédecine » et les « télésoins » et crée une « Plateforme des Données de Santé » chargée de « réunir, organiser et mettre à disposition » les données de santé issues de différents fichiers existants. L’idée est de mettre en place un énorme entrepôt de données produites par les organismes travaillant dans le secteur du soin afin d’alimenter et de développer des algorithmes, c’est-à-dire de faire littéralement exploser les capacités de l’intelligence artificielle (IA) dans le domaine de la santé.

Cette Plateforme des Données de Santé, dite « Plateforme », a précisément été créée sur les préconisations d’un rapport du député Villani qui, en mars 2018, ambitionnait de « positionner la France à l’avant-garde de l’IA ». La santé figurait parmi les cinq secteurs à « investir » en priorité, à côté de l’éducation, l’agriculture, les transports et l’armement. Dans une novlangue de pointe, le rapport parlementaire exhorte les « pouvoirs publics » à s’adapter très rapidement « sous peine d’assister impuissants à la reformulation complète des enjeux de santé publique et de pratiques médicales ». Bigre !

Précisons d’emblée que le mot Plateforme, utilisé à tout va par les protagonistes de cette escroquerie, désigne en réalité deux choses bien différentes : la solution informatique de stockage et d’exploitation des données, mais aussi le consortium public-privé – qualifié juridiquement de « Groupe d’intérêt public » – institué spécialement pour mettre en place et orchestrer la solution technique. Pour brouiller encore un peu plus les pistes, les textes prévoient explicitement que ladite « Plateforme » doit être dénommée Health Data Hub « dans le cadre de ses communications à rayonnement international », premier indice sérieux des intérêts commerciaux américains dans cette affaire.

Depuis la loi de juillet 2019 qui actait donc la création du consortium public-privé, ce sont essentiellement des arrêtés ministériels et des choix totalement opaques qui, progressivement, définissent les contours du dispositif juridique et informatique de la « Plateforme ». Celles et ceux qui, dès l’origine, se sont opposés à ce projet de centralisation du traitement des données de santé n’ont pas été déçus : tout d’abord, c’est le cloud de Microsoft qui a été choisi comme sous-traitant pour fournir les serveurs permettant de stocker et d’analyser les fichiers de données. Cette infrastructure fonctionne via des logiciels dont les codes ne sont pas publiques, ce qui interdit de savoir ce qui se passe réellement au sein des machines ; cela complique également l’éventuelle migration future vers d’autres serveurs qui n’utiliseraient pas les logiciels Microsoft… Qui s’étonnera d’apprendre que la désignation de Microsoft se soit faite en violation des règles de concurrence applicables aux marchés publics, aucun appel d’offre n’ayant été lancé pour ce projet d’hébergement informatique ? Certainement pas Edward Snowden, qui a publiquement dénoncé le choix d’une centralisation des données hébergées chez un tel mastodonte.

Il semble que le gouvernement français capitulera face au cartel du Cloud et fournira les informations médicales du pays directement à Microsoft. Pourquoi ? C’est juste plus simple. Edward Snowden (@Snowden) May 19, 2020

En avril 2020, le gouvernement a profité du régime de l’état d’urgence sanitaire pour court-circuiter les opposants au projet et ordonner la mise en fonction anticipée de la plateforme technique. Invoquant le besoin urgent d’améliorer les connaissances sur le Covid-19, les ministres ont tout simplement passé outre l’avis de la CNIL qui avait émis plusieurs réserves sérieuses sur le flou entourant encore l’architecture informatique de la plateforme amenée à héberger des données particulièrement sensibles. La CNIL comptait bien, avec l’ANSSI – Agence nationale de la sécurité des systèmes d’information – être associée de près à l’élaboration du volet technique, absolument crucial, mais les responsables du consortium public-privé en ont décidé autrement.

En application de la loi du 11 mai 2020 prolongeant l’état d’urgence sanitaire, les données du nouveau fichier « SI-DEP » (Système d’Information et de DÉPistage) relatives aux personnes infectées par le Covid-19 et aux personnes ayant été en contact avec ces personnes, sont transmises vers les serveurs de Microsoft. Ce partage de données prévu par la loi à l’arrache, « sans le consentement des personnes intéressées », officiellement « aux seules fins de lutter contre la propagation de l’épidémie de covid-19 et pour la durée strictement nécessaire à cet objectif » peut, d’après le même article de loi, fonctionner « pour une durée de six mois à compter de la fin de l’état d’urgence sanitaire ». Et bien sûr, c’est ce qui a été décidé : la sortie officielle et largement fictive de l’état d’urgence sanitaire le 10 juillet n’a pas mis fin à l’envoi des données de contamination vers les serveurs de Microsoft.

Bien sûr, ce projet de Plateforme ne date pas d’hier : c’est une loi de janvier 2016 dite « de modernisation de notre (sic) système de santé » qui crée le Système National des Données de Santé (SNDS). Il s’agit officiellement d’améliorer l’accès aux données de santé afin que « leurs potentialités soient utilisées au mieux dans l’intérêt de la collectivité ». Derrière ce système de fichiers, il y a initialement deux objectifs : produire des données pour la recherche et améliorer les outils d’évaluation, c’est-à-dire de contrôle budgétaire des structures de soin. En pratique, c’est un coup d’accélérateur à la récolte et à la mise en commun des fichiers de santé et le passage vers ce qu’on appelle les données massives ou « big data » en santé. Le « big data », c’est quoi ? C’est une grosse quantité de données qui proviennent de sources différentes et qui sont agrégées très rapidement au sein d’un seule et même infrastructure. Car ce qu’on appelle l’intelligence artificielle sous sa forme la plus récente – qui n’a rien à voir avec l’intelligence – ne peut fonctionner sans une énorme quantité de données. Avec la nouvelle grosse Plateforme, qui à terme devrait centraliser des dizaines de paquets de fichiers, il s’agit donc de créer une source intarissable de « données de santé » destinées à alimenter des algorithmes. Des algorithmes, pourquoi faire ? Quelles sont les données stockées et traitées par Microsoft ? Comment sont-elles anonymisées ? Qui pourra y accéder, pour quels motifs et suivant quelle procédure ?

Mais aussi, comment penser d’autres manières d’organiser le traitement informatique des données de santé qui permettraient réellement d’améliorer la qualité des soins et le bien-être des personnes ? Est-ce que l’intelligence artificielle, c’est-à-dire le traitement algorithmique de milliards de données individuelles, doit être utilisée en médecine ? C’est autour de ces questions que nous avons rencontré des membres du collectif inter-hop, qui s’est créé contre la logique de centralisation des données de santé et pour un partage du savoir en informatique médicale. Il regroupe des informaticiens et des soignants partisans des logiciels libres et d’une utilisation autonome des données de santé à l’échelle locale.

lundimatin : La « Plateforme des données de Santé », mise en fonction de manière précipitée sous couvert d’urgence sanitaire en avril 2020 remplace l’« Institut national des données de santé » qui jusqu’à présent gérait les principaux fichiers de données de santé. Qu’est-ce qui change avec la nouvelle Plateforme ? Commençons, si vous le voulez bien, par le contenu. Quelles sont les données qui vont être ou qui sont déjà centralisées dans la Plateforme ?

Collectif Inter-Hop : A l’origine, quand il a commencé à fonctionner en 2017, le Système national des données de santé était constitué de trois fichiers principaux, trois bases de données médico-administratives : D’abord, les données de l’Assurance Maladie, c’est à dire en gros le fichier contenant les informations liées aux remboursement des soins et des médicaments opérés par la Caisse Nationale d’Assurance Maladie. On y trouve donc, en face de votre numéro de sécurité sociale, quels médecins vous avez consultés tels jours, quels médicaments vous prenez, depuis quand, etc. Ensuite, il y a les données qui proviennent des hôpitaux : le plus tôt possible après la sortie de chaque patient, les hôpitaux doivent établir un « résumé de sortie standardisé » (RSS). Cette fiche informatique contient tout un tas de données, notamment la date de naissance du patient, son sexe, son code postal, la date d’entrée et de sortie et le diagnostic principal (les diagnostics sont codés, codifiés, d’après une classification internationale des maladies éditée par l’OMS). Cette grosse base de données - bizarrement appelée Programme de Médicalisation du Système d’Information (PMSI) - était jusqu’alors essentiellement utilisée pour faire du contrôle de gestion des établissements hospitaliers et c’est notamment en se basant sur ce fichier que l’État décide du montant alloué à chaque hôpital.

Les remboursements, les séjours hospitaliers et enfin, dernier gros fichier, celui des décès ou plus exactement des « causes médicales des décès » : lorsqu’une personne meurt, un·e médecin établit systématiquement un certificat de décès qui indique, entre autres, l’âge de la personne, son sexe, la cause, le jour et le lieu de sa mort. Depuis peu, les médecins ont la possibilité de rédiger ces certificats « en ligne », sur leur tablette et même depuis leur téléphone. Officiellement, l’innovation est censée permettre d’accélérer la « production des indicateurs d’alerte » et même de renforcer la confidentialité des données grâce aux procédures de chiffrement….

Avec la loi du 24 juillet 2019, le « Système national des données de santé » voit son périmètre élargi de manière considérable puisqu’il a vocation à recueillir « l’ensemble des données collectées lors des actes pris en charge par l’assurance maladie »¹. C’est tout simplement énorme puisque cela recouvre l’ensemble des données de santé des 67 millions de personnes vivant en France. Ce sont toutes les données cliniques recueillies par les soignants, les pharmaciens, les centres hospitaliers (dates d’entrée et de sortie, diagnostic, traitement administrés, résultats d’examens complémentaires, comptes-rendus médicaux, génomique et imagerie médicale). Mais aussi des données issues de protocoles de recherche, comme celles attachées à la ’cohorte’ CONSTANCE, - on appelle cohorte un groupe de personnes engagées dans une même étude épidémiologique - constituée de 200 000 adultes âgés de 18 à 69 ans².

Mais ce n’est pas tout : par exemple une des premières bases de données à avoir été intégrée à la nouvelle Plateforme est le fichier OSCOUR® (Organisation de la surveillance coordonnée des urgences ; les bureaucrates raffolent des acronymes). Cette base, gérée par Santé publique France, excroissance du ministère de la Santé, couvre plus de 80 % des passages aux urgences en France. Pour chaque patient admis aux urgences, elle recueille les éléments suivants : code postal de résidence, date de naissance, sexe, date et heure d’entrée et de sortie, durée de passage, mode d’entrée, provenance, mode de transport, classification de gravité, diagnostic principal et associés, mode de sortie, destination pour les patients mutés ou transférés. On voit que, pour cette seule base de données, les informations collectées sont très nombreuses et précises.

Il faut mentionner aussi le fichier SI-VIC constitué dans la foulée des attentats de 2015 officiellement pour que, face à une situation exceptionnelle, l’Etat puisse rapidement dénombrer les blessés et les répartir au mieux dans les hôpitaux. Théoriquement, le fichier est purement administratif : il contient notamment les noms et prénoms, la nationalité, la date de naissance et le sexe de la personne mais ne doit comporter aucune information d’ordre médical. Pourtant, d’après le Canard Enchaîné du 17 avril 2020³, certaines fiches de personnes admises dans les hôpitaux de Paris en 2019, en marge des manifestations de gilets jaunes, faisaient mention de la nature des blessures, permettant ainsi d’identifier et, donc, de tracer les manifestants blessés. Cela confirme que le fichage est toujours à haut risque pour la liberté. Et avec la nouvelle Plateforme Nationale des Données de Santé, on entre encore dans une autre dimension, puisque tout est centralisé chez Microsoft Azure…

Un mot pour finir sur les fichiers : sous le régime de l’état d’urgence sanitaire, trois nouvelles bases de données ont été créées autour de l’infection au Covid-19 : Contact Covid, Stop Covid et « SI-DEP . Contact Covid par exemple regroupe les données recueillies par les « brigades d’anges gardiens » de la Caisse d’assurance maladie et concernent notamment l’identité, les coordonnées et le lieu de travail des personnes déclarées comme « contact » par le patient infecté. SIDEP, de son côté, regroupe les résultats des tests biologiques permettant le diagnostic du Covid. Ces fichiers sont des menaces incroyables car ils peuvent justifier des intrusions très profondes dans nos vies, via l’accès jugé crucial à nos données médicales.

En principe, sur la Plateforme, toutes les données doivent être « anonymisées » ou plutôt « pseudonymisées ». Pouvez-vous nous expliquer ce concept de pseudonymisation et en quoi la concentration des données dites pseudonymisées affaiblit leur anonymisation ?

Il faut distinguer la pseudonymisation de l’anonymisation. Dans le domaine de la recherche scientifique, qui est censée être un des premiers objectifs de la Plateforme, l’anonymisation n’est pas de mise car le meilleur, et sans doute le seul, moyen d’anonymiser des données consiste, en gros, à les mélanger de façon totalement aléatoire. Mais naturellement, si on procède de la sorte, les données ne représentent plus la réalité et leur intérêt pour la recherche, notamment en santé, disparaît complètement. La pseudonymisation est alors une sorte de compromis qui consiste à faire disparaître certaines données directement identifiantes (nom, prénom, numéro de sécurité sociale, date de naissance, code postal…) ou à les remplacer par des données indirectement identifiantes (alias, clé de cryptage).

C’est la Caisse nationale d’assurance maladie qui est « responsable » des opérations permettant la connexion entre les différents fichiers (on parle d’appariement) puis de la pseudonymisation des données, laquelle intervient donc avant que les fichiers n’arrivent chez Microsoft.

Le problème c’est, qu’en pratique, avec les données simplement pseudonymisées, il est toujours possible de remonter à l’identité de la personne concernée. Par exemple, si la nuit du 3 décembre 2019, une ou deux personnes sont admises au service des urgences de Nantes pour une appendicite aiguë, même si le fichier OSCOUR ne contient pas leur nom, on pourrait très facilement les retrouver en recoupant le fichier OSCOUR avec le fichier de l’hôpital de jour qui les a reçues ou avec le fichier des remboursements de soin ou de médicament. L’Université de Louvain et l’Imperial College de Londres[^nature_dei] ont montré que 83% des Américains peuvent être ré-identifiés en utilisant seulement trois variables : le genre, la date de naissance et le code postal, données qui sont par exemple compilées dans le fichier OSCOUR. En présence de 15 variables, la personne peut être ré-identifiée dans 99,98% des cas.

La numérisation du monde permet à chacun de nos faits et gestes d’être enregistrés, analysés, exploités et éventuellement interprétés. Cette nouvelle Plateforme géante a pour vocation d’interconnecter plusieurs dizaines de fichiers et des milliers de données de santé. Plus on lie entre elles les bases de données, plus le risque de ré-identification est élevé. Désormais, les personnes qui se font soigner en France, et dont les données de santé alimenteront la Plateforme, pourront toujours être identifiées par ceux qui, via les administrateurs du réseau Microsoft, accéderont aux serveurs. Peu importe que cela soit interdit par la loi, l’histoire récente nous a montré que les textes légaux ne sont pas des garanties suffisantes pour protéger notre vie privée. A partir du moment où une opération est techniquement possible, il faut s’attendre à ce qu’elle soit mise en œuvre par les GAFAMs⁴ ou par les services répressifs des États.

Pourriez-vous nous expliquer le rôle de ce fameux « Cloud », ces machines qui, au-delà de stocker les données, les lisent et les traitent ? Microsoft prétend que les données sont chiffrées, mais vous dénoncez le fait que la société américaine aura, de toute manière, accès aux données « en clair ». Dans quelle mesure, cette multinationale pourra-t-elle y mettre le nez et exploiter les millions de données de santé des personnes qui habitent en France ?

Le chiffrement des données est en effet à distinguer de la pseudonymisation. Ici, les deux se cumulent : les données stockées sur la Plateforme sont pseudonymisées et chiffrées. Pour chaque fichier, la pseudonymisation faire disparaître les informations directement identifiantes (nom, prénom, etc.), tandis que le chiffrement sert à rendre secret, comme illisible, l’ensemble des données du fichier et il faut alors une clé pour les déchiffrer à nouveau. Dans notre affaire, la CNIL⁵ a révélé que les clés de déchiffrement des fichiers étaient détenues par Microsoft. Pourquoi ? Car Microsoft ne se contente pas de stocker les données sur ses serveurs. Le « Cloud » est également une plateforme d’analyse et de traitement des données⁶, comme cela est clairement ressorti du contentieux que nous avons mené, avec d’autres partisans du logiciel libre, devant le Conseil d’État⁷. Dans cette affaire, nous contestions l’arrêté d’avril 2020 qui déclenchait la mise en œuvre accélérée de la Plateforme. Malheureusement, le Conseil d’État a refusé de suspendre le processus mais il tout de même enjoint au consortium public-privé qui gère la Plateforme de fournir à la CNIL les éléments relatifs aux procédés de pseudonymisation utilisés. Cela devrait théoriquement permettre à la CNIL de vérifier le niveau de protection des données de santé hébergées chez Microsoft….

L’audience devant le Conseil d’État a aussi permis de mettre à jour que la Plateforme technique utilise, pour son fonctionnement usuel, 40 logiciels de Microsoft Azure. Ces logiciels, ces programmes, sont utilisés pour analyser les données hébergées, à l’image d’un énorme tableur Microsoft Excel dans lequel une giga-entreprise ferait ses calculs de comptabilité.

S’il est possible de chiffrer vraiment des données lorsqu’on les confie à une société chargée uniquement de les héberger, le chiffrage n’est plus possible si la société qui les héberge doit également les analyser, les passer dans la moulinette de plusieurs programmes informatiques. Donc, en l’espèce, Microsoft possède nécessairement les clefs de déchiffrement et peut sans difficulté mettre son nez dans les données de santé qu’il héberge sur ses serveurs. L’argument du chiffrage pour nous protéger du géant américain est donc nul et non avenu.

Le projet a été critiqué par la CNIL et par votre association aussi parce que, Microsoft étant une société américaine, les autorités américaines pourraient facilement avoir accès aux données stockées sur ses serveurs dans le cadre d’une procédure judiciaire. En effet, en application du Clarifying Lawful Overseas Use of Data Act (dit CLOUD Act), les autorités américaines peuvent, dans le cadre d’enquêtes pénales, requérir des sociétés américaines qui hébergent et traitent des données numériques, l’accès à certaines données stockées aux États-Unis mais aussi à l’étranger.

Par ailleurs, d’après la CNIL qui a eu accès au contrat passé avec Microsoft, le document prévoit des « transferts de données en dehors de l’Union européenne dans le cadre du fonctionnement courant de la plateforme, notamment pour les opérations de maintenance ou de résolution d’incident » . Si on comprend bien, les serveurs utilisés par la Plateforme ne seraient pas tous situés au même endroit et, quoi qu’il en soit, les autorités américaines pourraient y accéder facilement ?

Sur le site de la Plateforme, on apprend que les machines - ou serveurs - de Microsoft qui hébergent les données françaises sont situées aux Pays-Bas. A priori, ceci n’est pas un problème puisque cet État européen est censé appliquer le droit européen de la protection des données personnelles, qui n’est pas parfait mais qui encadre a minima les demandes de transferts de données. Précisément, les dispositions du Règlement européen sur la protection des données (RGPD) interdisent qu’une juridiction ou une autorité administrative d’un pays non-européen puisse accéder directement à des données hébergées en Europe et à ce titre protégées par le règlement (sauf convention d’entraide judiciaire ou dérogation relative à l’intérêt vital de la personne concernée). Autrement dit, théoriquement, les autorités américaines n’ont pas d’accès direct aux données situées sur les serveurs européens, même si la société propriétaire des serveurs est américaine. Donc stricto sensu, que les machines soient situées aux Pays-Bas ou en France ne change rien du point de vue de la protection contre une intrusion directe de l’administration américaine.

Cela étant, le fait est que depuis le début du projet les responsables de la Plateforme assuraient à qui voulait l’entendre que l’ensemble des données resteraient en France⁸.

Disons que ce petit mensonge n’a fait qu’alimenter notre méfiance.

Surtout, l’audience au Conseil d’État a permis de montrer que Microsoft ne pouvait pas garantir que les données d’analyse restent en France, ni même en Europe. Et c’est tout à fait logique : le principe même d’un « Cloud » est de faire fonctionner en réseau des centaines de machines, et Microsoft possède des serveurs partout dans le monde entier. Les données de santé, données sensibles par essence, se retrouvent donc, dans le cadre du fonctionnement normal de la Plateforme, à migrer dans le monde entier en fonction de la puissance de calcul demandée par les informaticiens⁹. Et, à partir du moment où les données sortent du territoire européen, la protection minimale liée au RGPD s’évapore en fumée.

D’ailleurs, dans le contrat, Microsoft affirme même qu’il lui est possible d’utiliser les données de la Plateforme pour améliorer ses propres algorithmes d’intelligence artificielle….

À en croire, la présidence de la Plateforme, OVH, le concurrent français de Microsoft Azure, est lui aussi « mondialisé » et ne présente pas de meilleures garanties du point de vue de la protection des données. Qu’en pensez vous ?

À nos yeux, la moins mauvaise solution aurait été de choisir des entreprises européennes - qui ne sont pas concernées par d’éventuelles injonctions américaines délivrées sur le fondement du Cloud Act - et dont les serveurs, situés en Europe, sont soumis au règlement européen sur la protection des données.

Le Cloud Act s’applique aux sociétés américaines au sens du droit américain, c’est-à-dire aux sociétés incorporées aux États-Unis suivant les lois américaines (et aux sociétés qui sont contrôlées par ces sociétés américaines), ce qui, à notre connaissance, n’est pas le cas d’OVH. En outre, si le consortium public-privé qui gère la Plateforme exigeait d’OVH que les data centers utilisés soient exclusivement situés sur le territoire de l’Union européenne, les données seraient en principe protégées par le droit européen et ne pourraient pas être transférées hors de l’Union européenne sans que les formalités minimales prévues par le le droit européen soient respectées. Cela dit, OVH est une grosse société qui affirme elle-même être présente dans plus de 19 pays dans le monde. Comme indiqué dans ses conditions générales, OVH peut recourir à des sous-traitants - certains étant des filiales de la société mère, d’autres étant des sociétés n’appartenant pas au Groupe OVH - qui l’assistent dans le stockage et le traitement des données. Donc, on retrouverait une grosse partie du problème lié au contrat avec Microsoft Azure : on centralise toutes les données chez un même (gros) fournisseur de service qui, de son côté, a potentiellement déployé son infrastructure à travers une constellations d’États. Autrement dit, on donne les données de santé de 67 millions de personnes (physiques) à une seule personne morale à qui l’on devrait faire confiance pour ne pas utiliser toutes les potentialités de ses machines !

Il nous semble que des alternatives bien plus conformes à une vraie protection des données existent. Si, à court terme, on reste dans l’idée d’une centralisation des données, il existe déjà des plateformes comme Teralab, développée au sein d’un institut de recherche de Mines Télécom, qui peut stocker et analyser de très grandes quantités de données. Ses machines sont à Douai et fonctionnent grâce à des logiciels open source, l’équipe technique est à Rennes et le reste à Paris. Elle héberge déjà des données de santé. Pourquoi ne pas avoir poursuivi dans cette voie ? Mais, surtout, pourquoi vouloir absolument réunir toutes les données de santé de plus de 65 millions de personnes chez un même fournisseur de service ?

En tant que professionnels de santé, nous pensons qu’il peut être bénéfique pour la qualité des soins d’exploiter les données de santé. Ces données sont au cour d’une partie importante de la recherche depuis la fin du XIXe, et plus encore depuis le développement de la médecine dite « fondée sur les preuves » (de l’anglais « evidence based medecine ») qu’on pourrait aussi appeler la médecine fondée des données factuelles. Il s’agit d’une démarche qui consiste, pour le soignant, à se poser une question attentivement conçue pour un patient donné, à laquelle il s’agit de répondre grâce à plusieurs éléments de fait collectés, « évalués » et finalement utilisés de la manière qui lui semble la plus adaptée au cas particuliers. Il s’agit en réalité de faire se rencontrer, avec le plus de discernement possible, le général et le particulier. Mais pour connaître ou du moins appréhender le ’général’, il faut des études cliniques faites de manière systématique. C’est ce qu’on appelle de manière pas très heureuse les « cohortes » de patients dont les chercheurs extraient des données statistiques. Ces données ne sont ni des trésors, ni des ennemis, elles sont ce qu’elles sont. Dans une certaine mesure, suivant certains chemins, elles peuvent aider à soigner. Par exemple, il faut bien des études statistiques sur un large échantillon de personnes pour évaluer l’efficacité d’un médicament laquelle stricto sensu ne peut être que variable suivant les personnes, suivant les moments, etc… Autrement dit, il peut être très utile, pour mieux soigner les personnes, de générer des données de santé ; mais la mise à jour de ces données comme leurs utilisations doivent être bien réfléchies et organisées au premier chef par les soignants travaillant main dans la main avec les informaticiens. Il faut bien sûr au minimum que les patients donnent leur consentement à la collecte de données mais il faudrait aussi trouver des moyens de les associer davantage à ce qui pourrait être un mode de collectivisation de leur expérience médicale.

Quelles solutions techniques permettraient selon vous d’utiliser les données pour mieux soigner les personnes ?

Dans le cadre de notre association, nous préconisons un stockage et un traitement des données qui soient par défaut décentralisés. D’abord, un système informatique décentralisé est par essence moins fragile. Techniquement, si un des fichiers ou une des bases de données est corrompue, l’ensemble ne l’est pas. Que les hôpitaux, qui produisent pas mal de données, puissent eux-mêmes les stocker et choisir la manière de les analyser nous semble une solution plus sûre contre le piratage informatique mais aussi meilleure en terme d’éthique médicale. Par exemple, via ses représentants, le collège des usagers de l’hôpital pourra avoir son mot à dire sur tel ou tel protocole de recherche.

A-t-on vraiment intérêt à déconnecter complètement d’un côté les entités qui produisent de « la » donnée (hôpitaux, pharmacies, laboratoires médicaux, médecins…) et de l’autre les structures qui hébergent ces données pour la recherche et organisent une partie de leurs traitements algorithmiques ? C’est là une question politique. Nous pensons qu’il faut trouver un point d’équilibre : le croisement savamment réfléchi de données venant de différents fichiers peut certainement permettre de faire des découvertes et de travailler à de nouveaux traitements médicaux. Pour autant, nous sommes convaincus qu’en pratique, ce ne sont pas la recherche médicale et les patients qui tireront le plus grand profit d’un mastodonte-big-data comme la Plateforme Health Data Hub.

Dans la direction opposée, il faut réfléchir à une architecture modulaire, décentralisée et open source avec les premiers concernés : les soignants, les patients et celles et ceux qui recourent à la médecine. Collectivement et continûment, il faut s’interroger sur la médecine que l’on veut et imaginer des agencements qui permettent ici et là d’utiliser les données pour mieux soigner les personnes.

Dans les faits, c’est un peu ce que font déjà les hôpitaux qui pratiquent des analyses de données massives et de l’IA au sein de structures nommées les Entrepôts de Données de Santé. L’APHP, par exemple, stocke et traite les données de plus de 11 millions de patients via des logiciels open source dont un des objectifs et de faciliter le partage de connaissance entre les chercheurs.

Avec cette Plateforme montée à la va-vite, sans concertation, confiée à Microsoft en violation des règles d’attribution des marchés publics, on est aux antipodes d’un projet collaboratif. Ce projet, à bien des égards, rappelle le projet SAFARI (pour Système Automatisé pour les Fichiers Administratifs et le Répertoire des Individus) des années 1970. L’idée était d’interconnecter les bases provenant de plusieurs institutions : police, ministères des Finances, ministère du Travail, cadastre et numéro unique de sécurité sociale. Ce projet de centralisation des données a suscité une vive opposition et n’a jamais abouti mais il a débouché sur la création de la CNIL.

Dans l’affaire de la Plateforme des données de santé, la CNIL a été largement court-circuitée et, en choisissant une société américaine, l’État décide en plus de nous priver potentiellement de la protection des données, déjà imparfaite, du droit européen. La Plateforme, c’est un peu notre SAFARI des années 2020, mais hébergé cette fois chez Microsoft.

Revenons sur l’opportunité, c’est-à-dire l’utilité, de cette énorme base de données pour faire progresser les traitements médicaux et mieux soigner les personnes. Faut-il vraiment selon vous encourager l’intelligence artificielle dans le domaine médical ?

L’intelligence artificielle qu’est-ce c’est ? Ça n’a bien sûr rien à voir avec l’intelligence au sens courant du terme, les capacités d’un ordinateur étant toujours in fine quantifiées et donc bornées. L’intelligence artificielle, c’est un procédé de traitement informatique – basé sur des algorithmes – qui permet de déléguer à une machine un processus de décision. Dans sa version actuelle la plus aboutie, l’IA utilise des algorithmes qui intègrent des règles d’apprentissage : au fur et à mesure que l’ordinateur intègre et traite des données, il affine automatiquement la manière de les traiter. Yann LeCun, inventeur de cette méthode dite du deep learning – qui dirige aujourd’hui le laboratoire de recherche d’IA chez Facebook – explique que c’est une classe d’algorithmes permettant de simuler l’intelligence humaine. Il oublie de préciser que, pour que les règles d’apprentissage fonctionnent et qu’au final la machine crache des statistiques, des « tendances », il faut toujours des flux très important de données.

Le procédé fonctionne déjà assez bien - au vu de ses propres objectifs - dans de nombreux secteurs : pour prédire le comportement d’un consommateur sur internet, pour associer des consommateurs sur les réseaux sociaux, pour faire de la reconnaissance faciale ou trier des archives sonores, par exemple. Mais, à ce jour, aucune IA ne soigne de patient dans aucun hôpital de par le monde. Un jour prochain, c’est sûr, un algorithme permettra de détecter certaines tumeurs sur les radiographies et, tant que le médecin restera la clef de voûte du diagnostic, l’outil informatique sera sûrement une aide précieuse.

Mais, en l’espèce, la manière dont l’État s’est littéralement jeté dans ce projet de giga plateforme de données, sur fond d’état d’urgence sanitaire, est tout à fait critiquable. La preuve d’un gain significatif en matière de santé entre l’utilisation de données créées et collectées à des échelles humaines et l’analyse de données massives par des algorithmes est souvent présentée comme une évidence, alors qu’elle reste largement à démontrer. Que va-t-on précisément gagner en multipliant de manière exponentielle le nombre et la nature des données de santé collectées et traitées ? Quels domaines de la médecine vont particulièrement bénéficier de ces techniques ? Il est très difficile de le prévoir, notamment parce que le matériau à analyser apparaît comme infini, indéfini, en tous cas insaisissable¹⁰.

Ce qui est sûr en revanche, c’est d’abord le risque de fuite de données et le risque associé de perdre la confiance des patients. Si les personnes perdent confiance en leur médecin, et plus largement envers les personnes qui les soignent, cela pourrait avoir de graves conséquences en termes de santé publique.

Savez vous qu’en juillet 2017, Google, propriétaire du système d’intelligence artificielle DeepMind Health, a divulgué les données de santé de plus de 1,5 million de Londoniens ? La société américaine avait conclu un contrat avec les autorités de santé britanniques pour développer une application de surveillance des patients atteints d’insuffisance rénale, lesquels patients n’avaient pas été correctement informés de l’utilisation qui allait être faite de leur dossier médical¹¹…

Il y a bien sûr un autre risque majeur attaché à ce type de Plateforme : cette masse gigantesque de données constitue littéralement une mine d’or aux yeux de toutes les grosses sociétés qui cherchent à développer leurs programmes d’intelligence artificielle, au premier chef desquels figurent ici les assureurs et les mutuelles. Si ces données tombent entre leurs mains, elles pourront affiner leur tarif en fonction des risques que telle ou telle catégorie de personnes présentent. Rapidement, les probabilités produites par les algorithmes pourraient servir à refuser l’accès d’un malade à tel traitement considérant son coût élevé et les chances de succès, trop minces….

A cette rubrique, nous militons pour un rapprochement entre le soin et la recherche. La médecine se pratique en temps réel : quand un malade vient vous voir, vous n’avez pas envie de lui dire : « attendez 1,3 mois qu’on détermine un bon algorithme et que l’ordinateur désigne le traitement qui a les meilleurs chances de succès ». Nous, médecins et informaticiens, voulons développer main dans la main des algorithmes de recherche dont les résultats puissent le plus vite possible être exploités pour soigner les personnes. C’est ce que la recherche décentralisée, menée à partir des différents Entrepôts de données des hôpitaux, permet.

Les ingénieurs de la Plateforme vont faire exactement l’inverse : ils vont travailler sur des données dont ils ne connaissent quasiment rien. Très loin des centres où les données ont été recueillies, ils vont les « nettoyer » et les rendre exploitables par des algorithmes, dont certains sont peut-être la propriété exclusive de Microsoft… Par ailleurs, même si un chercheur de la Plate-forme arrive à la conclusion, grâce à son programme informatique, que tel sujet doit bénéficier de tel traitement, il va être très difficile de lui en faire vraiment bénéficier puisqu’il n’a pas d’accès direct aux patients. Autrement dit, plus on éloigne le traitement des données, des structures de soin, plus les retombées thérapeutiques deviennent, disons ’abstraites’, lointaines. C’est un autre vrai problème éthique lié à cette Plateforme.

Cela étant, il est vrai que, pour certains projets de recherche à identifier au cas par cas, la centralisation extrême des données peut s’avérer nécessaire ; c’est le cas par exemple pour essayer de comprendre et de soigner des maladies dites rares¹². Dans ce cas particulier, il est intéressant de centraliser les données existantes pour obtenir une masse critique de données sur laquelle réfléchir et travailler.

Pour finir, il faut avoir en tête que les fichiers, autrement dit les bases de données médicales qui émanent des hôpitaux, ne sont pas, en l’état actuel, pensées pour alimenter convenablement les énormes algorithmes de l’intelligence artificielle. Ces fichiers médicaux n’ont pas été conçus pour la recherche mais pour le soin, et l’approche est naturellement très différente. En pratique, aujourd’hui, les bases de données médicales sont conçues pour que les soignants aient accès à l’ensemble des données concernant un ou une patiente. Pour faire de la recherche, on a besoin d’accéder à une variable spécifique - par exemple l’âge de la personne – concernant des milliers de patients. C’est en quelque sorte une démarche inverse et symétrique à celle du soin. Les informaticiens les plus chevronnés pensent qu’il faut au minimum cinq ans pour « qualifier » les travaux menés par les hôpitaux les plus en avance, c’est-à-dire pour rendre leurs données de santé exploitables par une giga-plateforme, dont les grands « tiroirs » virtuels sont standardisés et donc inter-connectables. Nous avons donc largement le temps de réfléchir et de mettre en place des infrastructures décentralisées sur lesquelles les chercheurs et les patient garderaient la main.

On comprend bien que derrière cette Plateforme des données de santé, il y a de gros enjeux financiers.… Quels sont les protagonistes de cette affaire ?

Une « mission de préfiguration de la Plateforme » a été instituée, laquelle a été pilotée par un professeur de médecine, la présidente de l’Institut national des données de santé (que la Plateforme devait absorber) et Gilles Wainrib, co-directeur de Owkin, grosse startup dans le domaine de l’IA en santé, financée notamment par la Banque publique d’investissement et …Google Venture. Avant que le vieil institut et la Plateforme ne fusionnent, le projet était porté par la Direction de la recherche, des études, de l’évaluation et des statistiques, la DREES, un service de l’État alors dirigé par Jean-Marc Aubert promoteur infatigable du projet de Plateforme. Les révélations du journal Le Monde à l’endroit de ce haut fonctionnaire sont édifiante¹³ : Jusqu’en octobre 2017 où il est nommé directeur de la DREES, le sieur Aubert est employé par la société Iqvia (anciennement IMS Health), le plus gros marchand de données de santé du monde, comme directeur pour les « solutions patients » aux Etats-Unis. A peine la nouvelle Plateforme lancée, notre polytechnicien s’en retourne travailler pour Iqvia, cette fois comme big-boss de la filiale française… Cela se passe de tout commentaire.

Pour finir, concernant l’application STOP-COVID qui intervient de toutes façons trop tard pour pouvoir servir contre l’épidémie, vous êtes sceptiques sur la fiabilité du dispositif d’un point de vue médical. Pourquoi ?

Pour plusieurs raisons. D’abord, pour être alerté en cas de ’contact’ avec un patient infecté, il faut en principe être resté 15 minutes à moins d’un mètre de cette personne. Mais, par exemple, dans le métro, puisque les masques sont obligatoires, la distance d’un mètre et les 15 minutes de contact n’ont aucune pertinence. Autre exemple, si vous vous trouvez dans une pièce contiguë à celle où vit une personne malade, vous pouvez être alertée car le Bluetooth ne tient pas compte du mur qui, pourtant, vous protège absolument contre la contagion. Au passage, le Bluetooth est une technologie énergivore qui risque de décharger si vite nos batteries que nous préférerons tous et toutes stopper l’application pour pouvoir continuer à utiliser nos téléphones au quotidien.

Surtout, tout le monde a bien en tête les potentialités énormes de traçage qu’ouvre ce type de dispositif. Un collectif de chercheur·es spécialistes en cryptographie, sécurité ou droit des technologie sexplique très bien les risques lors d’un entretien d’embauche ou de la visite d’un appartement qu’on voudrait louer¹⁴.

Un des chercheurs en informatique de ce collectif a par ailleurs montré que l’application Stop-Covid stockait plus d’informations que celles officiellement répertoriées¹⁵. S’il a pu s’en rendre compte, c’est parce que le code source de l’application développée par l’INRIA est entièrement ouvert, n’importe qui peut y accéder. Le code open source permet aussi à des informaticiens indépendants, spécialistes de la sécurité des données, de vérifier que le logiciel offre les garanties de sécurité que les malades sont en droit d’attendre. Voilà une illustration supplémentaire de la nécessité d’utiliser des logiciels dont les codes soient intégralement publiés. Encore une fois, les logiciels de traitement des données que Microsoft va utiliser pour faire fonctionner la Plateforme ne seront pas tous publiés…Les informaticiens pourront donc s’adonner à des opérations de traitements littéralement secrètes…

Pour revenir à Stop-Covid, l’échec du dispositif a, en l’espèce, été officialisé par Cédric O, l’ancien secrétaire d’État chargé du Numérique, puisqu’après 3 semaines d’activité et 1,9 millions de téléchargements, l’application n’avait envoyé que 14 notifications d’alerte. Mais il est fort à parier qu’il s’agisse là d’un coup d’essai surtout destiné à nous familiariser avec le traçage et nous faire croire qu’il faudrait, à tout prix, accepter d’être tracé·es pour le bien être collectif.

Nous pensons qu’au vu des dangers pour les libertés, il faut renoncer à ce genre de technologie et faire confiance aux êtres humains pour essayer par d’autres moyens d’endiguer les épidémies à venir. Les ordinateurs, c’est une évidence, peuvent nous aider à faire beaucoup de choses, mais, avec des structures politiques aussi pyramidales que les nôtres, il faut s’en méfier et lutter contre les usages qui alimentent les velléités de toute puissance et de contrôle.

Face à ce changement d’échelle, la CNIL a pointé du doigt les difficultés à faire respecter, en pratique, les deux grand principes applicables au fichage : recueillir le moins de données possibles et limiter l’usage des données en fonction de la finalité attachée à chaque fichier. ↩
Présentation de Constances ↩
Lire, R. Métairie, avec AFP, « Qu’est-ce que la plateforme Si-Vic, mise en cause dans un possible fichage de gilets jaunes ? », Libération, 26 avril 2019. ↩
Google, Apple, Facebook, Amazon, Microsoft & co ↩
Délibération n° 2020-044 du 20 avril 2020 portant avis sur un projet d’arrêté complétant l’arrêté du 23 mars 2020 prescrivant les mesures d’organisation et de fonctionnement du système de santé nécessaires pour faire face à l’épidémie de covid-19 dans le cadre de l’état d’urgence sanitaire ↩
Health Data Hub - FAQ ↩
Conseil d’État, 19 juin 2020, Plateforme Health Data Hub ↩
Health Data Hub : nos données de santé vont-elles être livrées aux Américains ? ↩
Sur injonction du Conseil d’Etat, le site officiel de la Plateforme fait désormais mention de cette possibilité. En cherchant bien, on peut lire sur le site : ’Sur injonction du juge administratif, on peut désormais, en cherchant bien, lire sur le site officiel de la Plateforme : ’Compte tenu du contrat passé avec son sous-traitant et du fonctionnement des opérations d’administration de la plateforme technologique, il est possible que des données techniques d’usage de la plateforme (qui ne révèlent aucune information de santé) soient transférées vers des administrateurs situés en dehors de l’Union Européenne’. https://www.health-data-hub.fr/outil-de-visualisation. Rubrique ’répertoire de projets’. page 127 et aller au projet numéro 3173. ↩
Pour des exemples d’algorithmes en médecine, lire notamment L. Galanopoulo, ’Des logiciels experts en diagnostic médical’, in Carnet de Science n°3, CNRS, 2017, p. 103. ↩
Google ‘betrays patient trust’ with DeepMind Health move ↩
Un seuil arbitraire admis en Europe est de moins d’une personne atteinte sur 2 000. https://www.orpha.net/consor/cgi-bin/Education_AboutRareDiseases.php?lng=FR ↩
St. Foucard et St Horel, .« Données de santé : conflit d’intérêts au cœur de la nouvelle Plate-forme », Le Monde, 24 déc. 2019. ↩
Le tracage anonyme, dangereux oxymore ↩
StopCovid, l’appli qui en savait trop ↩

InterHop