Catégories
Chirurgie esthétique

Hyped affirme que l'IA surpasse les médecins lors du diagnostic pourrait nuire à la sécurité des patients

Un certain nombre d'études affirment que l'intelligence artificielle (IA) fait aussi bien ou mieux que les médecins pour interpréter les images et diagnostiquer les conditions médicales. Cependant, une étude récente publiée dans Le BMJ en mars 2020 révèle que la plupart de ces recherches sont viciées et les résultats exagérés. Le résultat pourrait être que la décision d'adopter l'IA dans le cadre des soins aux patients repose sur des prémisses erronées, compromettant la qualité des soins aux patients pour des millions de personnes.

Intelligence artificielle

L'IA est un domaine informatique avancé, avec de nombreuses découvertes et réalisations à son actif. Il est également remarquable pour son niveau d'innovation. Avec sa flexibilité et sa capacité à «  apprendre '' des expériences passées, il est présenté comme une solution pour aider à améliorer les soins aux patients et à retirer une partie du travail des épaules des professionnels de la santé qui ont trop à faire. En particulier, l'apprentissage automatique en profondeur est un domaine de l'IA qui est considéré comme incroyablement utile pour interpréter correctement les images médicales.

Crédit d'image: metamorworks / Shutterstock

Les chercheurs a examiné systématiquement la conception, les normes de déclaration, le risque de biais et les allégations d'études comparant la performance des algorithmes de diagnostic d'apprentissage en profondeur pour l'imagerie médicale à celle des cliniciens experts. Crédit d'image: metamorworks / Shutterstock

De nombreuses autres études apparaissent sur l'utilisation de l'apprentissage en profondeur dans ce domaine. Les articles de recherche et les gros titres des médias semblent souvent impliquer que l'apprentissage en profondeur peut être plus performant que les médecins dans cette tâche, contribuant à stimuler la demande pour que cela soit intégré à la pratique clinique de routine. Cependant, l'élément manquant est un examen impartial des preuves qui se cachent derrière cette affirmation, ainsi qu'une évaluation du risque de confier de telles tâches à des machines.

Ces recherches se concentrent sur les réseaux de neurones convolutifs (CNN) qui sont alimentés en données brutes, puis développent leurs propres mécanismes pour reconnaître les modèles dans les données. La caractéristique de l'apprentissage effectué par les CNN est que l'algorithme lui-même vient identifier les caractéristiques de l'image qui aident à classer l'image dans la bonne catégorie. Cela contraste avec la programmation conventionnelle qui dépend de l'entrée humaine pour sélectionner la bonne fonction.

Selon les chercheurs, des affirmations exagérées dans ce domaine sont risquées. « Le danger est que l'appétit du public et du commerce pour l'IA des soins de santé dépasse le développement d'une base de preuves rigoureuse pour soutenir ce domaine relativement jeune. » Au lieu de cela, ils soulignent la nécessité de développer et de valider d'abord un algorithme, y compris la démonstration de son efficacité à prédire la condition choisie. La deuxième étape consiste à évaluer son utilité réelle dans la détection des maladies grâce à des essais bien menés et transparents.

L'étude

L'étude actuelle visait à produire une revue de toutes les études publiées au cours de la dernière décennie. L'objectif principal était de comparer la façon dont un algorithme d'apprentissage profond fonctionnait en imagerie médicale par rapport à des experts médicaux.

Étonnamment, il n'y avait que deux essais contrôlés randomisés et 81 études non randomisées qui remplissaient les critères de l'étude. Ces études visaient à utiliser des images médicales pour classer la personne comme ayant ou non la maladie.

Dans ce dernier groupe, il n'y avait que neuf essais prospectifs, où les données ont été collectées au fil du temps en suivant les participants individuels. Parmi ceux-ci, seuls 6 ont eu lieu dans une situation clinique réelle. Il est donc difficile de comparer les performances des cliniciens par rapport à l'apprentissage automatique. Le résultat pourrait être un taux de faux positifs inacceptablement élevé, qui n'est pas signalé ou rapidement évident. De plus, les études rétrospectives sont généralement citées comme preuves pour les demandes d'approbation, bien que le diagnostic ne soit pas fait avec du recul.

En moyenne, il n'y avait que 4 experts humains dans le groupe contre lequel la machine a été testée au cours de toutes les études. Les chercheurs de la présente étude ont également constaté que très peu de données brutes ou de code ont été publiés, ce qui limite leur capacité à examiner les résultats de manière indépendante.

Ils ont également trouvé une forte probabilité de biais dans 58/81 études. Le biais signifie que la conception de l'étude n'a pas été élaborée avec suffisamment de soin pour éviter les problèmes susceptibles de modifier les résultats de la recherche. Deuxièmement, ils ont constaté que les études ne respectaient souvent pas les normes de déclaration acceptées.

Dans environ 75% des essais, la conclusion a été formulée en termes qui suggèrent que l'IA fonctionne aussi bien ou mieux que les experts humains. En comparaison, seulement 38% des études ont indiqué la nécessité de poursuivre les recherches sous la forme d'études prospectives ou d'essais contrôlés randomisés. Les auteurs de la présente étude commentent: «(L'utilisation) judicieuse et responsable de la langue dans les études et les communiqués de presse qui tiennent compte de la force et de la qualité des preuves peut aider» – à obtenir une interprétation correcte des résultats de l'étude.

Implications

La présente étude avait ses limites, telles que la possibilité que certaines études pertinentes soient manquées et que seul le rôle de l'IA sous la forme d'un apprentissage automatique approfondi ait été examiné. Par conséquent, les conclusions peuvent ne pas être généralisables à d'autres types d'IA.

D'un autre côté, ils affirment qu'il existe de nombreuses affirmations peut-être exagérées faisant le tour du monde de la recherche sur les performances équivalentes ou supérieures de l'apprentissage automatique par rapport aux experts cliniques. Selon leurs mots, « de nombreuses affirmations sans doute exagérées existent concernant l'équivalence (ou la supériorité sur) les cliniciens, ce qui présente un risque potentiel pour la sécurité des patients et la santé de la population au niveau de la société ».

En d'autres termes, l'utilisation d'un langage exagéré pour présenter des résultats peu prometteurs peut conduire à leur mauvaise interprétation par les médias et le public. En conséquence, ont-ils dit, cela pourrait conduire à «la fourniture éventuelle de soins inappropriés qui ne correspondent pas nécessairement à l'intérêt supérieur des patients».

Au lieu de cela, disent les chercheurs, « le développement d'une base de preuves de meilleure qualité et rapportée de manière plus transparente à l'avenir aidera à éviter le battage médiatique, à réduire les déchets de recherche et à protéger les patients. »

Référence de la revue:

  • Nagendran, M., Chen, Y., Lovejoy C. A., et al. Intelligence artificielle versus cliniciens: revue systématique de la conception, des normes de reporting et des revendications d'études en deep learning. BMJ 2020; 368: m689. https://www.bmj.com/content/368/bmj.m689

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *