In der Medizin gebe es 10 000 Erkrankungen, aber nur 200 Symptome, sagt man. Da sind falsche Diagnosen vorprogrammiert. Um ihre Zahl zu reduzieren, setzen Kliniken zunehmend auf künstliche Intelligenz. Doch eine neue Studie sät Zweifel am Nutzen solcher Assistenzsysteme.
Die Symptome unklar, die Zeit knapp: Im Alltag eines Spitals kommt es leicht zu Fehldiagnosen. Bis zu fünfzehn Prozent aller Patienten, die medizinische Hilfe suchen, erleiden teilweise schwere Komplikationen, weil ihr Leiden übersehen, zu spät erkannt oder falsch eingeschätzt wurde.
Um die hohe Zahl an diagnostischen Irrtümern zu verringern, setzen viele Kliniken auf KI-gesteuerte Computersysteme. Auf Basis der eingegebenen Patientendaten und Symptome schlagen sie Diagnosen vor und sollen dem Arzt so als Entscheidungshilfe dienen. Ob die digitalen Assistenten diesem Anspruch gerecht werden, war bis anhin ungewiss. In «Schreibtischstudien» oft vielversprechend, wurden sie bis anhin noch keinem Realitätstest unterzogen.
Für mehr Klarheit sorgt nun eine Studie im Fachblatt «Lancet Digital Health», die auf Patientendaten aus den Notaufnahmen von vier Schweizer Spitälern beruht. Forscher um Wolf Hautz von der Universitätsklinik für Notfallmedizin des Inselspitals in Bern haben darin untersucht, ob KI die diagnostische Treffsicherheit von Ärzten in der Notaufnahme verbessert.
Isabel Pro berät den Arzt bei der Diagnose
Als digitalen Entscheidungshelfer wählten sie das KI-System Isabel Pro, das in der Medizin weit verbreitet und gut evaluiert ist. Um es Isabel Pro leichterzumachen, testeten sie es bei Patienten mit Symptomen, die von menschlichen Ärzten besonders oft fehlgedeutet werden. Hierzu zählen Ohnmachtsanfälle, Fieber unklarer Ursache oder unspezifische Bauchschmerzen.
Allein das Symptom Bauchschmerzen kann rund 200 unterschiedliche Ursachen haben. Diese reichen von Erkrankungen des Magen-Darm-Trakts wie einer Blinddarmentzündung über frauenspezifische Leiden wie Eierstockzysten bis zu Stoffwechselentgleisungen, Rückenproblemen und psychischen Störungen. Eine korrekte Diagnose muss deshalb auch alle weiteren Symptome und Begleitumstände berücksichtigen und abwägen.
Einbezogen wurden in die Studie 1204 Männer und Frauen, die wegen solcher Beschwerden die Notaufnahme eines der beteiligten Spitäler – des Inselspitals in Bern, des Bürgerspitals Solothurn und der Spitäler Tiefenau und Münsingen – aufgesucht hatten. Bei etwas mehr als der Hälfte von ihnen stellten die Ärzte die Diagnose nach «Rücksprache» mit Isabel Pro, bei den übrigen ohne Hilfe der KI.
In der Praxis erweist sich Dr. KI als wenig hilfreich
Das unerwartete Resultat: Die KI zeigte praktisch keinen Nutzen, was eine Reduzierung von Fehldiagnosen angeht. Unabhängig davon, ob die Ärzte sie eingesetzt hatten oder nicht, waren ihre Diagnosen bei rund acht Prozent der Patienten falsch und bei weiteren zehn Prozent von zweifelhafter Qualität. Letzteres galt dann als gegeben, wenn die Patienten nach wenigen Tagen erneut in die Notaufnahme kamen oder innert kurzer Zeit von der Allgemeinstation auf die Intensivstation verlegt werden mussten.
Auch auf die meisten anderen untersuchten Parameter hatte das KI-System keinen nennenswerten Einfluss, darunter die Art und Anzahl der Untersuchungen, die Aufenthaltsdauer in der Notaufnahme oder im Spital, die Häufigkeit ernster Komplikationen und die Kosten.
Es gab allerdings eine Ausnahme: Bei Frauen irrten sich die Ärzte etwas seltener in der Diagnose, wenn sie sich mit dem digitalen Assistenten beraten hatten. Da insgesamt nur wenige Frauen von Fehldiagnosen betroffen waren, könnte es sich bei diesem einzigen positiven Signal der Studie laut den Autoren aber auch um Zufall handeln.
Stress in der Notaufnahme
«Da es gerade in der Notaufnahme häufig zu Fehldiagnosen kommt, hatten wir grosse Hoffnungen in die KI gesetzt», sagt Hautz und bringt seine Enttäuschung über den Ausgang der Studie zum Ausdruck. In wenigen anderen medizinischen Bereichen seien Ärzte derart gefordert wie hier. So müssten sie häufig unter enormem Zeitdruck eine grosse Zahl von Patienten versorgen – und das zu jeder Tages- und Nachtzeit.
Dass die diagnostische Qualität darunter leide, sei wenig erstaunlich. «Falls KI von Vorteil wäre, sollte das in einem so komplexen Umfeld wie der Notaufnahme daher besonders deutlich zutage treten», sagt der Notfallarzt. Das sei aber nicht der Fall gewesen. Daher gehe er davon aus, dass KI auch in anderen medizinischen Bereichen die Qualität der Diagnosen nicht verbessere.
Wie aber kommt es, dass solche digitalen Assistenten unter experimentellen Bedingungen teilweise exzellente Resultate erzielen, im Klinikalltag aber offenbar versagen? «An der verwendeten KI dürfte es jedenfalls nicht liegen», stellt der New Yorker Internist Mark Graber auf Anfrage klar, ein Advokat für Patientensicherheit und Begründer der amerikanischen Society to Improve Diagnosis in Medicine. Isabel Pro sei das Beste, was es auf dem Markt gebe.
Die Maschine vergisst nicht
Laut Wolf Hautz lässt sich das enttäuschende Abschneiden der KI nicht auf eine ablehnende Haltung oder mangelnde Übung der Ärzte zurückführen. Denn diese seien bestens mit dem System vertraut gewesen und hätten das Verfahren auch nachweislich eingesetzt.
Warum kann die gleiche KI dann in experimentellen Studien so gute Ergebnisse vorweisen? «Bei solchen Untersuchungen geht es in der Regel darum, bereits vorhandene Informationen richtig zu interpretieren. Die Ärzte müssen also nicht selber entscheiden, welche Daten sie erheben wollen, diese sind bereits alle verfügbar. Der einzige Irrtum, der ihnen unterlaufen kann, ist, an etwas nicht zu denken», antwortet Hautz. Da Maschinen dieses Problem nicht hätten, seien sie bei solchen Papierstudien oft besser als der Mensch.
Aber auch die Art und Weise, wie Ärzte mit der Maschine kommunizieren, scheint einer nutzbringenden Anwendung von KI im Wege zu stehen. Hinweise darauf liefern Erkenntnisse der Kognitionsforschung. Demnach legen sich Ärzte innert weniger Minuten auf eine oder wenige Diagnosen fest und nehmen daraufhin nur Untersuchungen vor, die zu ihrer Hypothese passen.
Die KI kann nur sehen, was auch der Arzt sieht
Dabei übersehen oder vernachlässigen sie oft Dinge, die nicht in ihr vorgefertigtes Bild passen. Die KI hat auf diese Überlegungen keinen Einfluss, sondern kann nur das verarbeiten, was der Arzt ihr zur Verfügung stellt. Mit anderen Worten: Sind Ärzte auf einem Auge blind, gilt das auch für die KI.
Dieses Phänomen halten Silvia Mamede und Henk Schmidt von der Erasmus-Universität in Rotterdam für einen wesentlichen Grund dafür, dass die digitalen Diagnosehelfer hinter den Erwartungen zurückbleiben. Die beiden Fehldiagnoseforscher plädieren für einen anderen Umgang mit KI. Demnach sollte diese nicht auf der Basis der vom Arzt erhaltenen Daten eigene Diagnosen vorschlagen. Vielmehr sollten sie ihn zu einer «bewussten Reflexion» anregen, einem kritischen Hinterfragen: «Welche klinischen Befunde passen nicht zu meiner diagnostischen Hypothese? Welche fehlen?»
Dasselbe empfiehlt der Internist Mark Graber auch Patienten. «Wenn Ärzte eine Krankheit diagnostizieren, sollten die Patienten immer fragen, ob ihre Beschwerden eventuell auch andere Gründen haben könnten», rät der Internist. Aus langjähriger Erfahrung wisse er, dass schon diese eine Frage vor Fehldiagnosen schützen könne.