Update zu Dr. AI

Blog

HeimHeim / Blog / Update zu Dr. AI

Jun 27, 2023

Update zu Dr. AI

Es ist sechs Monate her, seit ich über das Potenzial der neuen Transformator-KI-Technologie geschrieben habe, als medizinisches Expertensystem zu dienen. Seitdem gab es eine Reihe von Studien, in denen die Fähigkeit von getestet wurde

Es ist sechs Monate her, seit ich über das Potenzial der neuen Transformator-KI-Technologie geschrieben habe, als medizinisches Expertensystem zu dienen. Seitdem gab es zahlreiche Studien, in denen die Fähigkeit von ChatGPT und ähnlichen Systemen getestet wurde, Diagnosen oder klinische Entscheidungen zu treffen oder standardisierte medizinische Untersuchungen zu bestehen. Die Ergebnisse waren überwiegend positiv. Beispielsweise veröffentlichten Kung et al. Anfang des Jahres eine Studie, in der sie herausfanden, dass ChatGPT alle drei Teile des United States Medical Licensing Exam (USMLE) mit einer grenzwertigen Erfolgsquote von 60 % bestehen konnte. Es gab auch zahlreiche Fachprüfungen mit gemischten Ergebnissen, aber ChatGPT hat die meisten davon bestanden.

Eine aktuelle Studie erweitert diese Forschung, indem sie nicht nur das medizinische Wissen, sondern auch die medizinische Entscheidungsfindung untersucht. Für die Studie verwendeten sie 36 veröffentlichte klinische Vignetten aus dem Clinical Manual von Merck Sharpe & Dohme (MSD) und testeten die Fähigkeit von ChatGPT, eine anfängliche Differentialdiagnose zu erstellen, klinische Managemententscheidungen zu empfehlen (z. B. welche Studien bestellt werden sollten) und dann eine zu treffen Auf der Grundlage dieser Informationen kann eine endgültige Diagnose gestellt werden. Sie fanden:

„ChatGPT erreichte eine Gesamtgenauigkeit von 71,7 % (95 %-KI 69,3 %–74,1 %) über alle 36 klinischen Vignetten hinweg. Der LLM zeigte die höchste Leistung bei der Erstellung einer endgültigen Diagnose mit einer Genauigkeit von 76,9 % (95 %-KI 67,8 %–86,1 %) und die niedrigste Leistung bei der Erstellung einer anfänglichen Differenzialdiagnose mit einer Genauigkeit von 60,3 % (95 %-KI 54,2 %–86,1 %). 66,6 %). Im Vergleich zur Beantwortung von Fragen zum allgemeinen medizinischen Wissen zeigte ChatGPT eine schlechtere Leistung bei den Fragetypen Differentialdiagnose (β=–15,8 %; P<0,001) und klinisches Management (β=–7,4 %; P=0,02).

Das ist beeindruckend und passt zu früheren Untersuchungen zu den Stärken und Schwächen von ChatGPT-Systemen. Zur Überprüfung: ChatGPT ist eine Open-Source-Version eines sogenannten Large Language Model (LLM). Die Kerntechnologie der künstlichen Intelligenz (KI) wird Transformer genannt – „GPT“ steht für „Generative Pre-Trained Transformer“. Es ist generativ, weil es nicht einfach Text aus einer Quelle kopiert, sondern Text basierend auf einem Vorhersagemodell generiert. Es basiert auf einer umfangreichen Textmenge, die aus dem Internet stammt.

Diese LLM-Systeme denken nicht und sind nicht auf dem Weg zu einer allgemeinen KI, die menschliche Intelligenz simuliert. Sie wurden mit einer wirklich guten automatischen Vervollständigung verglichen – sie funktionieren, indem sie das wahrscheinlichste nächste Wortsegment basierend auf Milliarden von Beispielen aus dem Internet vorhersagen. Und doch können ihre Ergebnisse durchaus beeindruckend sein. Sie können eine natürlich klingende Sprache produzieren und eine beeindruckende Wissensbasis aufbauen.

Aber sie sind immer noch so spröde, wie solche schmalen KI-Systeme spröde sind, was bedeutet, dass sie zerbrechen, wenn man sie anstrengt. Die Hauptschwäche dieser LLM besteht darin, dass sie anfällig für sogenannte Halluzinationen sind. Das bedeutet, dass sie Dinge erfinden können. Denken Sie daran – sie generieren Texte auf der Grundlage von Wahrscheinlichkeiten und nicht auf der tatsächlichen Überprüfung von Fakten oder der Wiedergabe von genauem Wissen. Wenn es also beispielsweise statistisch wahrscheinlich ist, dass zwei Dinge zusammen erwähnt werden, generiert ChatGPT Text, der den Anschein erweckt, als stünden sie in direktem Zusammenhang. Es kann auch plausibel aussehende Bezüge gänzlich erfinden, indem eine verweisartige Struktur erzeugt und diese mit statistisch ermittelten, aber falschen Angaben gefüllt wird.

Dies ist ein schwerwiegender Fehler für ein Expertensystem. Um die Leistung von ChatGPT bei der jüngsten Studie in einen Zusammenhang zu bringen: Sie hat die Prüfung nur knapp mit einem Wissensstand bestanden, der dem eines durchschnittlichen neuen Absolventen einer medizinischen Fakultät, aber nicht einem erfahrenen Kliniker, entspricht. Es ist also noch nicht das Niveau erreicht, mit dem man berufstätig sein kann. Es gibt zwei Fragen: Wird es jemals so sein und kann es in der Zwischenzeit nützlich sein?

Um zunächst die zweite Frage zu beantworten, denke ich, dass eine allgemeine LLM-Anwendung wie ChatGPT derzeit als Expertensystem einigermaßen nützlich sein kann, was bedeutet, dass sie von Experten als Werkzeug verwendet wird, um ihnen bei der Arbeit zu helfen. Doch sein Nutzen bringt einige wichtige Vorsichtsmaßnahmen und Vorbehalte mit sich. Den Ergebnissen, die ChatGPT liefert, kann man nicht vertrauen. Sie sollten nicht als maßgeblich angesehen werden, auch wenn sie so klingen. Aber sie können als Ideengeber genutzt werden, um mögliche Diagnosen vorzuschlagen, an die ein Arzt vielleicht noch nicht gedacht hat.

Was ist mit dem Nicht-Experten-Benutzer? Kann eine durchschnittliche Person ChatGPT als Suchmaschine nutzen, um vernünftige Antworten auf medizinische Fragen zu finden? Die Antwort ist ähnlich – sie ist ungefähr so ​​gut wie eine typische Google-Suche, allerdings mit natürlicher Sprache. Es gibt jedoch keine Garantie dafür, dass die Informationen korrekt sind. ChatGPT spiegelt im Wesentlichen nur die im Internet verfügbaren Informationen wider, sowohl gute als auch schlechte. Auch die Art und Weise, wie Fragen formuliert werden, tendiert dazu, die Antworten zu verzerren. Denken Sie noch einmal daran, dass ChatGPT nicht denkt oder versteht (wie Menschen es tun), sondern lediglich ein Vorhersagemodell ist.

Doch welches Potenzial haben solche Systeme in der Zukunft? Ich denke, das Potenzial ist groß. ChatGPT ist ein LLM für allgemeine Anwendungen, das nicht speziell als medizinischer Experte ausgebildet wurde, und dennoch recht gut funktioniert. Stellen Sie sich eine medizinische Expertenversion von ChatGPT vor, die nicht im Internet geschult wurde, sondern auf der Gesamtheit veröffentlichter medizinischer Studien, Praxisstandards und Expertenanalysen basiert. Es ist wahrscheinlich, dass ein solches LLM ChatGPT oder ähnliche Modelle übertreffen würde.

Außerdem können die Ergebnisse durch eine ordnungsgemäße Schulung des Benutzers verbessert werden. Eine aktuelle Studie untersuchte das Potenzial für eine „Optimierung der Befehlsaufforderung“. Das bedeutet, Eingabeaufforderungen (die Frage, die Sie einem LLM stellen) zu erstellen, die darauf ausgelegt sind, zuverlässigere Ergebnisse zu liefern. Diese können auf getesteten Exemplaren basieren. Wir könnten eine Zukunft sehen, in der die Optimierung medizinischer LLM-Eingabeaufforderungen ein Unterrichtsfach an der medizinischen Fakultät ist.

Es scheint allgemeiner Konsens darüber zu bestehen, dass diese LLM-KI-Systeme ein enormes Potenzial als medizinische Expertensysteme haben. Sie befinden sich derzeit am Rande eines funktionierenden medizinischen Grundwissens, jedoch nicht auf dem Niveau erfahrener Kliniker. Sie leiden auch unter erheblichen Einschränkungen, etwa der Fälschung gefälschter Informationen. Aber es scheint, dass wir unglaublich nahe daran sind, solche Systeme so weit zu bringen, dass sie die medizinische Praxis erheblich verbessern könnten. Sie können dazu beitragen, Fehler und Fehldiagnosen zu reduzieren und den effizientesten Weg für die diagnostische Abklärung oder das klinische Management aufzuzeigen. Letztendlich ist Medizin ein Spiel mit Statistiken, und ein medizinischer KI-Assistent könnte die statistischen und sachlichen Informationen liefern, die ein Arzt zum Zeitpunkt der Patientenversorgung benötigt (eines der ultimativen Ziele der evidenzbasierten Medizin).

Ein medizinisches LLM könnte Ärzten auch dabei helfen, auf dem Laufenden zu bleiben. Es ist gelinde gesagt eine Herausforderung, immer auf dem neuesten Stand des medizinischen Wissens zu bleiben. Das Internet hat dies viel einfacher gemacht – ein Arzt kann jetzt einfach schnell nach einer medizinischen Frage suchen und sehen, was die neuesten veröffentlichten Studien sagen. Aber je schneller, effizienter und gründlicher wir diesen Prozess gestalten können, desto besser.

Es muss immer noch ein Mensch auf dem Laufenden sein (und das wird so bleiben, bis wir eine allgemeine KI mit voller menschlicher Intelligenz haben). Dies liegt daran, dass Medizin auch eine menschliche Praxis ist und Urteilsvermögen, emotionale Berechnungen über Risiko und Nutzen, Behandlungsziele und eine menschliche Perspektive erfordert. Fakten allein reichen nicht aus. Aber es ist immer am besten, menschliche und persönliche medizinische Entscheidungen aus der Perspektive genauer, aktueller und gründlicher medizinischer Informationen zu treffen.

Gründer und derzeit Chefredakteur von Science-Based MedicineSteven Novella, MD ist akademischer klinischer Neurologe an der Yale University School of Medicine. Er ist außerdem Moderator und Produzent des beliebten wöchentlichen Wissenschaftspodcasts „The Skeptics‘ Guide to the Universe“ und Autor des NeuroLogicaBlog, eines täglichen Blogs, der Neuigkeiten und Themen in den Neurowissenschaften, aber auch allgemeiner Wissenschaft, wissenschaftlicher Skepsis und Philosophie behandelt Wissenschaft, kritisches Denken und die Schnittstelle von Wissenschaft mit Medien und Gesellschaft. Dr. Novella hat außerdem zwei Kurse mit „The Great Courses“ erstellt und ein Buch über kritisches Denken veröffentlicht – auch „The Skeptics Guide to the Universe“ genannt.

Alle Beiträge anzeigen

Steven Novella, MD