Nous croulons sous les sornettes

Big Data, Mégadonnées, Algorithmes,

A mettre en parallèle avec Les publications scientifiques les plus renommées accusent : nombre d’études scientifiques publiées, peut-‘être la moitié, seraient fausses’

Ce paragraphe du Bullshit Syllabus des professeurs Carl T. Bergstrom et Jevin West est une petite merveille. Jugez-en par vous mêmes :

Le monde croule sous une avalanche de sornettes. Les politiciens ne s’encombrent pas de faits. La science se conduit à coups de communiqués de presse. L’éducation universitaire récompense les sornettes et sanctionne la pensée critique. La culture des start-up élève les sornettes au rang des beaux-arts. Des publicitaires nous adressent des clins d’yeux complices, nous invitent à les rejoindre dans le décryptage de sornettes – et profitent de notre garde baissée pour nous soumettre à un tir de barrage secondaire de sornettes. La majorité des activités administratives, que ce soit dans le secteur privé ou public, semble ne pas être grand-chose de plus qu’un exercice sophistiqué de réassemblage combinatoire de sornettes.

Par Katharine Schwab
Cet article est paru sur Fast Company.com sous le titre Data Can Lie—Here’s A Guide To Calling Out B.S.


Nous vivons dans une époque de sornettes. Nous avons des sornettes de type politique, comme celles qui ont émergé dans les débats nationaux de l’année dernière avec la propagande sur les « fake news ». Mais nous en avons des formes encore plus insidieuses – particulièrement dans le monde des mégadonnées et de l’apprentissage automatique.

Selon les professeurs de l’université de Washington Carl T. Bergstrom et Jevin West, il est temps d’y porter remède. Leur réponse ? Un programme scolaire d’apprentissage en billevesées, calembredaines et sornettes. Autrement dit, comment les repérer. C’est un cours gratuit, structuré en conférences et en études de cas particuliers visant à donner aux étudiants (et à tous les intéressés) les outils d’analyse de conclusions scientifiques atteintes à l’aide de données et d’apprentissage automatique de machines. Au cours des six derniers mois, les deux scientifiques ont créé le programme et l’ont publié en ligne.

Les deux sont frustrés, disent-ils, par le traitement des statistiques dans les médias et les salles de classe. West, un professeur de statistiques, pense que depuis l’émergence des mégadonnées et  la facilitation de l’accès aux outils permettant à plus de gens de travailler sur elles, le montant final des sornettes a accusé une nette augmentation. Étant données toutes les données accessibles, les probabilités de manipulations par des statisticiens ou d’autres scientifiques pour les faire cadrer avec des préconceptions – ou mentir intentionnellement au public – se sont développées à mesure.

Alors que Bergstrom, un biologiste de l’évolution, pense que « les sornettes ont toujours été présentes » et hésite à dire que leurs niveaux ont significativement augmenté, il tombe d’accord sur la facilité avec laquelle, aujourd’hui, des données tirées de leur contexte deviennent virales – la plupart des gens ne prennent pas la peine de vérifier les graphiques et visualisations de données avant de les partager en ligne, et émettent des conclusions souvent biaisées ou carrément en contradiction avec les données présentées. De plus, il pense que les mégadonnées se prêtent particulièrement à ce type de manipulations. Avant que les mégadonnées deviennent un outil de recherche, quand les scientifiques ne disposaient que d’échantillons réduits, à moins de manipulations grossières, tester des théories stupides ne menait souvent nulle part. Aujourd’hui, avec d’énormes bases de données, quelle que soit la question posée, un schéma apparaîtra toujours, même si c’est purement par accident. Et le scientifique croira tenir sa réponse. « Les gens trouveront toujours des schémas à partir de toutes ces données », dit-il, « c’est un nouveau risque. »

C’est également le cas des chercheurs qui utilisent des algorithmes censément capables d’apprentissage. « Un algorithme peut donner des bons résultats, » dit Bergtrsom, « mais la validité en est sujette à caution. » Est-ce qu’un algorithme peut réellement enregistrer les traits du visage d’une personne et à partir de ça, en déterminer les penchants pour la criminalité ? Ouais, peut-être pas. Mais c’était la thèse soutenue par un article publié il y a quelques mois.

« Si vous regardez un peu mieux, vous voyez que les algorithmes ont été programmés pour enregistrer des détails sans importance comme des vêtements ou des froncements de sourcils, » explique West. « Les biais humains de ceux qui conçoivent les programmes rendent les algorithmes aussi peu fiables que des hommes. » De sorte que les algorithmes sont un domaine dans lequel de sérieux progrès sont à prévoir avant de pouvoir prétendre à un bon niveau de confiance. [Ndt, au Moyen-Orient,  les drones des USA qui tuent par algorithmes se trompent de cible dans 90% des cas].

Donc, comment combattre les sornettes ? West et Bergstrom proposent une simple série de questions à vous poser à chaque fois que vous regardez des résultats de tests. Tout d’abord, pensez à la source de l’information. Qui vous parle ? Est-ce que leurs conclusions servent leurs intérêts et comment ? Cherchez leurs sources d’informations, remontez à l’origine. La source est-elle crédible ? Quelles étaient les méthodes utilisées pour générer leurs résultats ? Par exemple, le duo de scientifiques dénonce un article de Nature de 2004 selon lequel en 2156, les femmes allaient courir le 100 mètres plus vite que les hommes. Le problème était que la conclusion était obtenue à partir d’un modèle de progression linéaire, ce qui signifiait qu’en 2636, les temps de course du 100 mètres allaient devenir négatifs. C’est un exemple classique d’extrapolation abusive. Les femmes ont certes beaucoup progressé au cours de ces cent dernières années, mais cela ne veut pas dire qu’elles vont continuer de progresser au même rythme.

West et Bergstom avouent ne pas être immunisés. « les humains sont des créatures faillibles » admettent-ils.

Leur programme anti-foutaises est ici. En anglais.
http://callingbullshit.org/

%d blogueurs aiment cette page :