Une étude menée au Beth Israel Deaconess Medical Center montre qu’un système d’IA conversationnelle peut recueillir l’anamnèse d’un patient en amont d’une consultation de soins primaires avec une sécurité et une précision diagnostique comparables à celles du médecin.
L’intelligence artificielle conversationnelle franchit une étape décisive dans sa marche vers la pratique clinique. Le 11 mars 2026, Google Research et le Beth Israel Deaconess Medical Center (BIDMC), affilié à Harvard Medical School, ont publié les résultats de la première étude clinique prospective du système AMIE (Articulate Medical Intelligence Explorer), une IA conversationnelle conçue pour conduire des entretiens diagnostiques avec de vrais patients dans un cadre de soins ambulatoires.
Jusqu’à présent, les performances des grands modèles de langage en médecine avaient été évaluées dans des conditions simulées — avec des acteurs jouant le rôle de patients, ou sur des cas cliniques standardisés. L’étude publiée sur arXiv (2603.08448) marque un changement de paradigme : pour la première fois, un système d’IA a interagi directement avec des patients réels avant leur consultation médicale.
L’essai prospectif, monocentrique, en bras unique, a été approuvé par le comité d’éthique du BIDMC et préenregistré sur ClinicalTrials.gov (NCT06911398). Cent patients adultes, déjà programmés pour une consultation de soins primaires non urgente, ont été recrutés entre avril et novembre 2025. Chaque patient a interagi avec AMIE par chat textuel sécurisé jusqu’à cinq jours avant son rendez-vous. L’IA avait pour mission de recueillir l’anamnèse complète du motif de consultation, puis de formuler des hypothèses diagnostiques que le patient pouvait discuter avec son médecin lors de la visite. Un médecin superviseur certifié en médecine interne surveillait chaque interaction en temps réel par vidéo, avec la possibilité d’interrompre à tout moment en cas de problème de sécurité. Le résultat le plus frappant concerne la sécurité : aucune intervention du superviseur n’a été nécessaire sur l’ensemble des 100 interactions, ce qui signifie zéro arrêt de sécurité. Du côté de la précision diagnostique, AMIE a inclus le diagnostic final (confirmé par revue du dossier huit semaines après la consultation) dans son diagnostic différentiel dans 90 % des cas, avec une précision top-3 de 75 %. L’évaluation en aveugle par un panel de trois cliniciens indépendants a montré que la qualité globale du diagnostic différentiel et du plan de prise en charge proposés par AMIE était comparable à celle des médecins de soins primaires, sans différence statistiquement significative (p = 0,6 pour le diagnostic différentiel ; p = 1,0 pour la sécurité du plan thérapeutique). En revanche, les médecins ont surpassé AMIE sur deux dimensions : la praticabilité (p = 0,003) et le rapport coût-efficacité (p = 0,004) des plans de prise en charge.
La confiance des patients envers l’IA a augmenté après l’interaction avec AMIE, selon les mesures psychométriques réalisées. Les médecins de soins primaires ont jugé les synthèses produites par AMIE utiles et ont rapporté un impact positif sur leur préparation à la consultation. L’échantillon incluait une diversité d’âges, d’origines ethniques et de niveaux de littératie en santé et en technologie.
Les auteurs identifient plusieurs limites importantes. L’interaction se faisait uniquement par chat textuel, ce qui ne capture pas la richesse des signaux non verbaux d’une consultation en présentiel. L’absence de groupe contrôle empêche toute affirmation causale sur l’efficacité de l’intervention par rapport au parcours de soins habituel. Enfin, l’influence de la littératie technologique sur la qualité de l’interaction reste à explorer.








