LancetGate : une firme de données de santé affirme des choses extraordinaires sur ses données

Peter Ellis tient le blog Free Range Statistics, qui compte parmi les cinquante meilleurs sites mondiaux sur les statistiques. Voici ce qu’il a à nous dire sur Surgisphere, la firme de données électroniques de santé qui a fourni les données utilisées dans la désormais tristement célèbre étude publiée par le Lancet, ‘Hydroxychloroquine ou chloroquine avec ou sans macrolide pour le traitement du COVID-19 : une analyse de données multinationales – celle-là même qui a provoqué un scandale.


Par Peter Ellis
Paru sur Free Range Statistics sous le titre A health data firm making extraordinary claims about its data


En un coup d’œil :

Surgisphere, une minuscule start-up qui prétend fournir des grandes données réelles pour des études scientifiques sur la santé, fabrique probablement de toutes pièces des données à grande échelle.

Une étude revue par les pairs qui a probablement utilisé des données fabriquées de toutes pièces

Si vous suivez de près la recherche de traitements contre le COVID-19, et peut-être même si ce n’est pas le cas, vous aurez vu l’effervescence de la couverture médiatique de l’étude observationnelle parue dans le Lancet Hydroxychloroquine or chloroquine with or without a macrolide for treatment of COVID-19: a multinational registry analysis. Cette étude a fait la une des journaux, notamment parce que l’hydroxychloroquine est le médicament que le président Trump dit prendre en croyant qu’il réduira ses chances d’attraper le COVID-19. Ce point de vue ne sera pas étayé par des preuves jusqu’à ce que des essais randomisés soient effectués. L’étude du Lancet, qui a été menée avant des essais de ce type, a utilisé les correspondances de scores de tendances pour essayer de maîtriser l’aspect non randomisé. Elle a constaté que la prise d’hydroxychloroquine et de chloroquine était associée à un risque accru de problèmes cardiaques.

Je suis très sceptique quant aux pouvoirs de l’hydroxychloroquine contre le COVID-19 (« sceptique » dans le sens où j’ai suspendu mon jugement pour le moment – il n’y a tout simplement pas de preuves dans un sens ou dans l’autre). Mais je veux que le test de ses propriétés soit fait correctement, avec des essais contrôlés en double aveugle. Et si nous devons utiliser des études observationnelles (ce à quoi je ne m’oppose pas, mais elles ne sont tout simplement pas aussi utiles qu’une expérience où l’on peut manipuler le traitement), elles doivent utiliser des données réelles.

Les données de cette étude, et d’au moins un preprint [publication non encore revue par des pairs, NdT] sur un second traitement, ont été fournies par une entreprise de l’Illinois appelée Surgisphere.

Les données représenteraient le traitement et les résultats de santé de 96 032 patients de 671 hôpitaux sur six continents. Cependant, il n’y a tout simplement aucun moyen plausible de penser que ces données puissent être réelles.

Je le répète, je pense que les données qui se cachent derrière cette étude très médiatisée et très importante du Lancet sont entièrement fabriquées.

Si Surgisphere peut nommer les 671 hôpitaux participants ou prouver d’une autre manière que les données sont réelles, je me rétracterai, je supprimerai ce post et j’écrirai toutes les humbles excuses qu’ils souhaiteront. Mais je pense qu’il n’y a pratiquement aucune chance pour que cela se produise.

Surgisphere pouvait-il réellement disposer des données des patients de 671 hôpitaux ?

Je suis loin d’être le premier à demander plus d’informations sur cette nouvelle base de données étonnante dont personne n’avait entendu parler, et ils ont eu une semaine pour s’expliquer. Voici ce qu’ils ont trouvé à dire :

La base des données de Surgisphere est un agrégat des dossiers médicaux électroniques désidentifiés des clients de QuartzClinical, le programme d’apprentissage automatique et la plateforme d’analyse de données de Surgisphere. Surgisphere s’intègre directement aux DME de nos clients hospitaliers pour leur fournir des informations sur les données exploitables afin d’améliorer leur efficacité et efficience. Dans le cadre des accords avec les clients de QuartzClinical, Surgisphere, en tant que collaborateur mondial pour les données de santé, a l’autorisation d’inclure les données des DME de ces hôpitaux dans son registre/base de données interrogeable sur les consultations avec les patients en temps réel.

Bien que nos accords d’utilisation des données avec ces institutions nous empêchent de partager les données des patients ou les noms des [hôpitaux] clients, nous sommes en mesure de réaliser les analyses appropriées et de partager les résultats agrégés avec la communauté scientifique au sens large.

(« DME » est le dossier médical électronique, c’est-à-dire les données personnelles des patients).
Franchement, cela n’est même pas drôle.

Je peux imaginer pourquoi les hôpitaux clients ne voudraient pas être nommés, car s’il s’avérait qu’ils permettent que leurs données soient envoyées dans l’Illinois pour y être analysées à loisir – l’article du Lancet dit qu’il a été « jugé » qu’une approbation éthique n’était pas nécessaire – cela soulèverait sûrement un tollé. Ce serait un scandale bien plus grave que celui de Facebook transmettant des données à Cambridge Analytica. Après tout, ce que nous publions sur Facebook était considéré par beaucoup de gens comme quasi-public. Imaginez que vos dossiers médicaux électroniques – données démographiques des patients, antécédents médicaux, médicaments, allergies, résultats de laboratoire, résultats de radiologie – soient envoyés à Cambridge Analytica.

En Australie, nous avons récemment eu une grande controverse publique sur le partage des dossiers de santé entre prestataires de soins. Je ne peux pas imaginer la réaction si l’on découvrait qu’ils étaient partagés avec des chercheurs étrangers sans autorisation ou à leur insu. Et le fait que les hôpitaux ne soient pas nommés par Surgisphere signifie qu’aucun patient d’aucun hôpital dans le monde ne sait si ses données sont utilisées ou non dans cette étude.

Mais attendez, pourriez-vous dire, ces données (qui, je pense, n’existent pas, mais faisons comme si elles existaient pour les besoins de la discussion) ne vont pas à un organisme louche comme Cambridge Analytica, mais à Surgisphere, un organisme de collaboration mondiale en matière de données sur les soins de santé.

Bon, jetons un coup d’œil à Surgisphere. Surgisphere a cinq employés qui ont des comptes LinkedIn. Outre le directeur général et co-auteur de l’article du Lancet, nous trouvons un vice-président du développement commercial et de la stratégie, un vice-président des ventes et du marketing et deux rédacteurs scientifiques (en fait, un rédacteur scientifique et un rédacteur scoentifique, ce qui n’inspire pas confiance dans leur souci du détail lors de la rédaction). LinkedIn enregistre également un employé de QuartzClinical – un directeur des ventes et du marketing.

Voici quelques-unes des personnes dont vous pourriez attendre qu’elles travaillent pour une véritable entreprise de collaboration mondiale en matière de données sur les soins de santé, qui a vendu des logiciels à 671 hôpitaux et les a intégrés à leurs systèmes de dossiers de santé électroniques (DSE), et qui coordonne une collaboration internationale soutenue en matière de recherche sur la santé :

  • gestionnaire et coordinateurs du réseau mondial
  • équipe de liaison entre les hôpitaux clients
  • personnel de support / help desk
  • formateurs et concepteurs de matériel de formation
  • chercheurs
  • équipe juridique chargée de traiter les questions relatives à la vie privée et aux contrats dans le cadre des relations avec plus de 670 hôpitaux. Pour traiter les questions de confidentialité et de contrats dans les 670+ hôpitaux. Je suis sûr que les questions liées au seul RGPD  de l’UE suffiraient à occuper une importante équipe juridique.
  • développeurs de logiciels ou de bases de données. Au pire, un humble développeur d’extraction-transformation-chargement ou deux pour introduire ces milliards de lignes de données de transactions dans une base de données.
  • administrateurs de bases de données et ingénieurs de données
  • spécialistes des solutions d’intégration du DSE
  • responsable de la gouvernance des données
  • si l’un des éléments ci-dessus est sous-traité, une équipe de gestion chargée de gérer l’ensemble de la sous-traitance

Surgisphere ne compte aucune de ces personnes, à l’exception de Sapan Desai, qui est à la fois directeur général et chercheur en médecine (ce qui donne une bonne indication de la taille de l’entreprise – la plupart des DG ne sont pas également des chercheurs actifs dans le domaine de l’édition). À en juger par son profil LinkedIn, son équipe se compose de trois directeurs commerciaux et de deux rédacteurs scientifiques.

Surgisphere et son personnel ne sont pas non plus présents sur GitHub. Pas plus qu’il n’y a d’explication sur l’impressionnante ingénierie des données qu’il faudrait mettre en place pour obtenir toutes ces données. Ni d’articles de journaux, de documents de conférence ou même de billets de blog décrivant son réseau, les API qui le connectent, la fierté qu’ils éprouvent au sujet de leur cluster Hadoop sur AWS, la plate-forme de base de données qu’ils utilisent, etc, etc, etc – toutes les choses que de vraies entreprises qui ont fait des innovations impressionnantes (ce que la toute première base de données mondiale de données hospitalières au niveau individuel serait, si elle était réelle).

Pourtant, Surgisphere affirme avoir vendu des logiciels à 671 hôpitaux. Quel serait le coût du déploiement d’un logiciel d’analyse de données par apprentissage automatique dans un hôpital et de son intégration aux DME ? Il ne s’agit pas d’une intégration légère et facile de type installation d’un progiciel de statistiques sur un PC et établissement d’une connexion ODBC avec une base de données. L’intégration aux systèmes de DSE et la façon dont nous savons qu’ils utilisent les données signifie, au minimum, l’envoi de toutes les données dans le Cloud. Cela signifie que vous devez traiter avec des architectes de réseau et de sécurité, disposer de tests extrêmement robustes, d’une sécurité à l’épreuve des balles (rappelez-vous, certaines de ces données sensibles sont les plus étroitement surveillées au monde), et passer par Dieu seul sait quelles formalités administratives dans chaque hôpital pour convaincre les responsables de la gouvernance des données de ce que vous faites.

Je ne sais pas, mais un million de dollars par déploiement ne doit pas être loin de la réalité. Certainement pas moins de 300 000 $ par déploiement. Donc Surgisphere devrait être une entreprise milliardaire si elle a fait cela 670 fois, mais ce n’est clairement pas le cas. En fait, Dun and Bradstreet estime ses revenus à 45 245 dollars. Vous ne pourriez même pas faire l’étape de la découverte d’un projet d’intégration des DME dans un seul hôpital pour cela, sans même parler de déployer quoi que ce soit.

Bien sûr, l’intégration des DME est une réalité, et elle se fait généralement pour déplacer des informations sur des patients en toute sécurité. Par exemple, une recherche rapide sur Google a permis de trouver cette présentation utile sur l’intégration des DME (DME, dossier médical électronique et DSE, dossier de santé électronique, sont des termes interchangeables) dans la région des Grands Lacs. Je remarque que Surgisphere est manifestement absent de la liste des présentateurs sur la diapositive 10. Il est donc assez surprenant (mais pas vraiment) qu’ils prétendent dans l’article du Lancet avoir des données sur la plupart des cas hospitaliers de COVID-19 en Amérique du Nord diagnostiqués avant le 14 avril 2020 – 63 315 cas de ce type dans l’étude selon le tableau S1, ce qui constituerait une nette majorité de tous les cas hospitaliers.

Qu’en est-il du logiciel QuartzClinical ?

Qu’en est-il de ce logiciel QuartzClinical qui aurait été vendu à 671 hôpitaux et qui renvoie des données à Chicago ? Il possède son propre site web. Il prétend utiliser « le machine learning et l’analyse statistique avancée » pour aider à la prise de décision. Fait remarquable, il « intègre avec succès vos dossiers médicaux électroniques, votre système financier, votre chaîne d’approvisionnement et vos programmes de qualité en une seule plate-forme ». Révisons mon estimation d’un million de dollars à 10 millions de dollars sur trois ans, au minimum, si cela signifie que vous remplacez chacune de ces choses par une seule plateforme. Mais cela signifie probablement simplement une base de données qui puise dans vos différentes sources de données et qui est doté d’une couche analytique et d’un moteur de recommandation. C’est une solution simple de veille économique, mais c’est quand même un gros projet pour un hôpital.

Je ne peux pas en dire plus car le site QuartzClinical est très léger sur les détails. Il ne contient pas de témoignages de clients. Il ne parle pas de ce qu’il y a sous le capot. Il ne contient aucune information sur ses versions ou son historique, ni sur sa feuille de route. Il prétend cependant avoir remporté quelques prix. Voyons cela :

  • « Grand Prize in Quality (Grand prix de la qualité), 39e Congrès mondial des hôpitaux 2015 de la Fédération internationale des hôpitaux ». Eh non, ce prix a en fait été décerné au Texas Children’s Hospital pour « Advanced Population Health – the critical role of care delivery systems ».
  • « Deuxième place du Dr Kwang Tae Kim Grand Award, Fédération internationale des hôpitaux, 41e Congrès mondial des hôpitaux, 2017 ». Eh non, les deux mentions d’honneur étaient pour « Achieving high reliability through care coordination for patients who require emergency surgery » par le Northwest Community Hospital, USA et « The application of improving clinical alert system to reduce the unexpected cardiac arrest event in Taiwan (Yuan’s General Hospital, Taiwan). Aucun de ces projets ne semble quelque chose dont QuartzClinical aurait pu faire partie.
  • « Institute for Healthcare Improvement – Quatre des meilleurs résultats du symposium scientifique de l’IHI (2017) ». Je n’ai pas trouvé ce « prix », il est donc possible qu’ils aient vraiment été inscrits dans une liste de « quatre des meilleurs ». La seule mention de QuartzClinical sur le site de l’ihi.org est celle d’exposant au symposium de 2018. Il est possible qu’ils aient également exposé un an plus tôt et qu’ils aient obtenu une sorte de reconnaissance.
  • Prix McKesson Quest for Quality de l’American Hospital Association pour 2017. Ce prix a été décerné au Memorial Medical Center de Springfield, dans l’Illinois. D’après leur description de la façon dont ils ont gagné le prix, je ne vois rien qui semble lié à un logiciel comme QuartzClinical. Au lieu de cela, ils ont fait des choses comme changer le processus de traitement des fractures de la hanche, et ont placé des rampes dans les chambres d’hôpital. Cependant, selon son profil LinkedIn, le DG de Surgisphere, Sapan Desai, a travaillé pour le Memorial Medical Center de la mi-2014 à la mi-2016 en tant que directeur de « l’alliance de la qualité et de l’analyse prédictive », il est donc plausible qu’il ait joué un rôle dans le programme qui leur a permis de gagner le prix, même si QuartzClinical n’était pas directement impliqué.
  • Prix Frost et Sullivan pour l’innovation technologique dans les soins de santé 2019. Oui, ce prix semble avoir été véritablement remporté. Cependant, la page Wikipédia de Frost and Sullivan indique que ces prix sont « basés sur des recherches utilisant une méthodologie propriétaire, qui est parfois basée sur un seul article produit par le bénéficiaire du prix », les décrivant comme un prix de vanité que le bénéficiaire paie pour communiquer [c’est-à-dire un prix acheté, NdT]. Je ne peux pas juger de cela.

Outre ces cinq prix, il y a un communiqué de presse selon lequel Sapan Desai « a reçu une mention d’honneur pour ses réalisations exceptionnelles en matière de qualité et de sécurité des patients, de responsabilité sociale des entreprises, d’innovations dans la prestation de services à un coût abordable, de leadership dans le domaine des soins de santé et de pratiques de gestion » lors de la cérémonie de remise du Dr. Kwang Tae Kim Grand Award de l’IHF à Taipei, Taiwan, en 2018. Cela semble faux. Les prix Dr Kwang Tae Kim sont destinés aux hôpitaux et organisations de soins de santé, et non à des particuliers. Les cinq mentions de Sapan Desai sur le site web de l’IHF concernent des conférences qu’il a données, il n’y est pas question d’un prix. Le fait que son propre communiqué de presse annonçant sa « mention d’honneur » ne renvoie à aucune source faisant autorité est en soi suspect.

Ainsi, une affirmation correcte (Frost et Sullivan), une exagérée (le prix du Memorial Medical Center, qui n’était pas décerné à QuartzClinical mais, au moins, était un prix plausiblement liée à Desai), trois apparemment fausses (concernant l’International Hospital Federation) et une incertaine (l’Institute for Healthcare Improvement).

J’ai été particulièrement intrigué par le Grand Prix de la qualité 2015 (Grand Prize in Quality) de l’IHF. Cette affirmation semble si spécifique et facilement réfutable, et en plus d’être sur le site de QuartzClinical, elle est reprise par Sapan Desai à titre individuel, par exemple dans sa biographie pour cet événement en 2018 – « Il est lauréat du Grand prix international de la qualité des soins de santé de la Fédération internationale des hôpitaux en 2015 ». Peut-être travaillait-il au Texas Children’s Hospital ? (non, il n’y travaillait pas).

Puis je suis tombé sur cet article revendiquant un « prix de la meilleure qualité » lors de ce 39e congrès de l’IHF en 2015. Malgré le titre, le texte rapporte en fait que Desai a reçu le « premier prix de la meilleure présentation », pour son « Improving the Success of Strategic Management Using Big Data ». Il n’y a aucune trace de ce prix sur le site de l’IHF, bien qu’il ait certainement fait cette présentation. Il est plausible qu’il ait reçu un prix de la meilleure présentation. Je pense maintenant qu’à un moment donné, lorsqu’il a gonflé ultérieurement son CV, cela a évolué en « Grand Prize in Quality – Grand Prix de la qualité des soins de santé ».

Ma hypothèse préférée est que les autres revendications apparemment fausses de prix, si elles ont un quelconque fondement, sont des exagérations de prix de conférence ou des mentions honorables pour des conférences qui ont été gonflées en prix importants pour son logiciel.

Comment pourrions-nous savoir d’une autre façon que ces récompenses d’avant 2019 ne pouvaient pas être attribuées à QuartzClinical ? Eh bien, le logiciel n’a été lancé qu’en janvier 2019, comme le montre ce « blog d’évaluation » qui ne fait que répéter textuellement et de manière transparente les communiqués de presse.

Avec QuartzClinical, nous avons en fin de compte une description d’un logiciel qui semble combiner du stockage de données provenant de plusieurs sources avec une couche analytique qui fournit ensuite des algorithmes d’aide à la décision. L’analyse est apparemment effectuée hors des locaux du client (car nous savons que Surgisphere prétend conserver toutes les données pour une utilisation future). Les sources de données comprennent à la fois les finances et les dossiers médicaux électroniques et, pour leur déploiement, il faudrait au minimum une ingénierie des données et des pipelines assez complexes. L’entreprise qui en est propriétaire n’a aucune capacité de gestion de projets informatiques, de développement de logiciels, de déploiement ou de soutien. Il y a très peu de références à ce logiciel sur le web en dehors de son propre matériel promotionnel. Il a une entrée dans venddy.com, un site qui permet à des vendeurs et acheteurs de systèmes de santé de se passer mutuellement en revue, mais aucun commentaire d’utilisateur. Le matériel promotionnel apparaît sur le web à partir du début 2019, ce qui signifie que nous savons qu’il a environ un an. Le propriétaire a l’habitude de gonfler son CV bien au-delà de toute possibilité d’en avoir une idée réaliste (par exemple, une mention honorable pour avoir donné un article évolue au fil du temps vers un Grand Prix de la qualité).

Quelles sont les chances pour qu’un nouvel outil d’analyse des données basé sur le Cloud, qui s’intègre aux systèmes de données les plus sensibles dont disposent les hôpitaux (finances et dossiers médicaux électroniques) et transfère ces données au-delà des frontières internationales, passe de zéro à être déployé dans 671 hôpitaux sur six continents en 12 mois alors qu’il n’a fait l’objet d’aucun examen par des utilisateurs et qu’aucune discussion sur le web n’a été menée par les responsables informatiques qui ont participé avec enthousiasme à son déploiement ? Zéro, c’est la probabilité ; ou aussi proche de zéro que possible.

‘Surgical Outcomes’

Ensuite, quelques mots sur Surgical Outcomes, le réseau international de collaboration des clients de QuartzClinical (hôpitaux et centres de santé) qui fournissent leurs données à Surgisphere en toute confiance. Voir ici le site Web de Surgical Outcomes. Il s’agit d’une étrange combinaison de battage publicitaire sur le machine learning et l’amélioration des processus six-sigma. Vous pouvez rejoindre le réseau pour 295 $ par an et accéder à des ressources éducatives en ligne pour la formation médicale continue / le maintien de la certification. Ou payer 2 495 $ pour accéder à d’autres services tels que la participation à la « recherche collaborative ».

Il y a de nombreuses captures d’écran d’un outil de veille économique, probablement QuartzClinical (dont la promotion est très importante), permettant à l’utilisateur d’approfondir (par exemple) les procédures chirurgicales et de comprendre les facteurs de coût, accompagnées de vidéos loufoques sur la puissance des données et l’importance des mesures de performance.

Il y a un blog franchement étrange, avec une centaine d’articles postés à partir de septembre 2019. Ceux-ci combinent des instructions statistiques de base sur des sujets tels que la correspondance des tendances avec des conseils sur le contrôle de la qualité et la gestion de projets. Certaines des statistiques sont tout simplement erronées ; un exemple choisi au hasard étant cette capture d’écran qui nomme incorrectement les limites d’un intervalle de confiance « paramètres ».

« Vous voulez donc aller deux erreurs standard en dessous et deux erreurs standard au-dessus de la population de l’échantillon afin d’obtenir vos paramètres de population. Compte tenu du calcul que vous venez d’effectuer – disons qu’il est de 0,06 – vous pouvez calculer ces paramètres. Deux erreurs types (01)6 x 2) au-dessus de votre population d’échantillon (appelons-la 0,56) seraient de 0,68, et deux erreurs types en dessous de cette population seraient de 0,44. Les paramètres de votre population deviennent donc 0,44 et _68. »

Le plus ancien post de blog sur le site « Surgical Outcomes » date de septembre 2019 et s’intitule « How do I sign up » (« Comment s’inscrire ? »). Je pense que l’on peut dire sans risque de se tromper que c’est le début du « réseau de collaboration internationale » de Surgical Outcomes. Voici une capture d’écran de ce post de blog :

« Comment s’inscrire ? L’inscription au réseau de collaboration se fait en trois étapes, que vous pouvez toutes franchir en une journée. 1. Contactez-nous ! Nous voulons en savoir plus sur votre pratique et sur la façon dont nous pouvons vous aider. Nous effectuerons une évaluation technologique rapide et vous poserons des questions sur vos DSE, votre processus d’approbation de l’IRB et vos data sets. Nous répondrons également à toutes vos questions pendant cette période. 2. Inscrivez-vous ! Nous vous enverrons un accord d’association commerciale similaire à ce que vous pourriez voir avec la NSW [Base de données électronique du ministère de la santé de la Nouvelle-Galles du Sud, Australie, NdT] ou la STS [Society of Thoracic Surgeons, société internationale des chirurgiens thoraciques, NdT]. Cet accord-type est nécessaire chaque fois que vous traitez des informations médicales protégées. 3. Tous à bord ! Nous allons créer votre compte et vous apprendre à démarrer. Accédez à un webinar et sachez qu’il vous suffit d’un coup de fil pour avoir accès à une personne en direct. Nous travaillerons également avec votre hôpital pour que notre technologie soit incorporée dans son système afin d’entièrement automatiser le processus de collecte des données. »

Vous et moi savons, cher lecteur, que ce n’est pas ainsi que les hôpitaux acceptent de partager les données personnelles des patients. En particulier, ce n’est pas la façon dont les hôpitaux d’autres pays décident de partager leurs données avec une entreprise américaine. Nous savons également qu’une « évaluation technologique rapide » n’est pas ce qui est nécessaire avant de déployer une plateforme analytique. Surtout par une entreprise qui tirerait les données des systèmes financiers et des DME de l’hôpital, les stockerait dans le Cloud, y effectuerait un apprentissage automatique et renverrait des recommandations de décision intégrées aux processus propres de l’hôpital.

L’article lui-même

Je n’ai même pas mentionné les problèmes de données que l’on peut tirer directement de la lecture de l’étude, si ce n’est en passant, sur la proportion étonnamment élevée de cas hospitaliers nord-américains qui ont fait partie de l’échantillon. Plusieurs des erreurs les plus évidentes concernent l’Australie et ont été rapportées dans les médias. Par exemple, elle rapporte beaucoup plus de cas en Australie qu’il n’y en avait dans les hôpitaux du pays au moment de l’étude, comme le rapporte le Guardian. Surgisphere a répondu qu’un hôpital récemment inscrit (pourrait-il y avoir d’un autre type !) « s’est auto-désigné comme appartenant à l’Australasie … Cet hôpital aurait dû être plus adéquatement assigné à la désignation continentale Asie ». Hmm, donc la base de données secrète a une qualité de données épouvantable mais bien sûr, les erreurs, ça arrive à tout le monde.

Mais comme le souligne Thomas Lumley, l’hôpital mal classé devait avoir 546 cas de COVID-19 hospitalisés au 14 avril et se décrit lui-même comme étant situé en Australasie. L’Indonésie avait suffisamment de cas hospitalisés à cette date, mais il semble peu probable qu’il y ait eu une concentration de cette taille dans un seul hôpital. Et un hôpital indonésien se décrirait-il comme étant australasien ? (non, il ne le ferait pas). Et ces données pourraient-elles être partagées légalement avec une entreprise qui ne sait même pas quelles lois du pays elle doit respecter ? (non, cela ne serait pas possible).

Et puis il y a le fait que le taux de tabagisme est trois fois plus élevé en Amérique du Nord qu’au Sud ; l’éventail réduit des IMC moyens ; les données détaillées peu plausibles pour l’Afrique ; les données ethniques qu’il est illégal de recueillir dans certains pays ; et ainsi de suite.

Je ne veux plus écrire, cela me désole et me met en colère rien que d’y penser. De toute façon, tout est mieux dit dans les liens en bas de page.

Auparavant, j’étais plus ou moins d’accord avec ceux qui disaient que « l’évaluation par les pairs est cassée », mais je pensais que c’était exagéré ; maintenant j’y crois vraiment. À l’avenir, ma devise sera vraiment « soit vous publiez les données et le code, soit ce que vous dites n’a jamais existé » – pas seulement parce que « c’est une bonne pratique » mais parce que, « si vous ne le faites pas, je devrai penser que vous pourriez l’inventer ». En ce qui concerne les données sensibles, nous devrons trouver des moyens de fournir des versions synthétisées ou d’autres versions à divulgation contrôlée.

Voici une bonne citation d’Andrew Gelman (lien inclus plus bas)

La bonne nouvelle de cet épisode est qu’il a fait taire les personnes qui critiquaient une étude de Stanford sur les anticorps parce qu’elle n’avait pas été examinée par des pairs. Le problème de l’étude de Stanford sur les anticorps n’était pas qu’elle n’avait pas été revue par des pairs, mais qu’elle avait été mal analysée statistiquement et que les auteurs n’avaient fourni aucune donnée ou code.

J’espère me tromper sur toute cette affaire. Peut-être que les développeurs ETL de Desai, le personnel de support et les spécialistes de l’intégration des DME ne sont tout simplement pas sur LinkedIn alors que ses commerciaux le sont. Peut-être que les hôpitaux partagent vraiment nos données en toute connaissance de cause et avec plaisir avec une entreprise américaine, et que les données sont stockées dans des serveurs européens pour se conformer à la GDPR et qu’il y a même des autorisations de patients données quelque part, et qui n’ont pas été mentionnées. Peut-être que QuartzClinical est enveloppé dans le logiciel d’une autre entreprise et qu’il a donc été déployé dans 671 hôpitaux sans aucun examen ni discussion parce que sa marque est cachée.

Dans ce cas, je me sentirais mal d’avoir écrit un post aussi long et agressif. Mais cela semble très peu probable. Il est terrible de penser que l’explication la plus probable de ce que nous voyons est simplement que les données sont fabriquées de toutes pièces, dans ce qui est peut-être une conspiration criminelle, et que le processus de publication scientifique est tellement cassé que cette fraude est passée à travers les mailles du filet. Il me semble tout simplement très probable que cette explication soit la bonne.

Quelques autres critiques

Peter Ellis est un statisticien professionnel et un spécialiste des données australasien doté d’une expérience dans la gestion d’équipes d’analyse/stats/données scientifiques comptant jusqu’à 20 personnes, actuellement consultant en tant que Data Scientist en chef au sein du groupe Nous. Une grande partie de sa carrière a été consacrée à la gestion et à l’évaluation de grands programmes d’aide à l’étranger. Depuis 2011, il travaille sur toute une série de questions relatives aux données économiques, ainsi que sur les données et les capacités statistiques permettant de soutenir divers objectifs organisationnels.

Traduction et note d’introduction Entelekheia

Ajouter un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

%d blogueurs aiment cette page :