Wie intelligent ist Bingli im Vergleichmit Chat GPT / Glass AI?

Einleitung
Der Einsatz generativer künstlicher Intelligenz (AI) - insbesondere Large Language Models (LLMs) - hat das Potenzial, das Gesundheitswesen zu verändern. Die Sprachmodellierung hat die Verarbeitung natürlicher Sprache revolutioniert, indem sie Computer in die Lage versetzt, menschenähnliche Texte zu verstehen und zu erzeugen. Unter diesen Modellen haben sich LLMs als leistungsstarke Werkzeuge im Bereich der KI erwiesen.

Was genau wurde getan?
Auswertung der Genauigkeit und Reproduzierbarkeit der KI-Modelle von Bingli und Vergleich ihrer Leistung mit LLMs (ChatGPT und GlassAI) unter Verwendung von Vignetten zur Darstellung virtueller Patienten
Warum?
Die Medical Device Regulation (MDR) schreibt strenge Kriterien vor, für die Validierung der Genauigkeit und Reproduzierbarkeit von Software
die als Systeme zur Unterstützung von Entscheidungsfindungen betrachtet werden.

Wie?

572 Vignetten
Test der Genauigkeit und Reproduzierbarkeit mit 572 virtuellen Vignetten, die von Bingli verwendet und in Prompts umgewandelt wurden, die sowohl mit ChatGPT über die API-Integration als auch mit der Glass-AI über ihre spezielle Anwendung kompatibel sind.
Beispiel-Vignette
erzielte Diagnose: Angina pectoris
Alter: 50
Geschlecht: M
Hauptsymptom: Brustschmerzen bei Anstrengung
Zusätzliches Symptom: Tachypnoe
Genauigkeit
Getestet durch Ranking der Zielkrankheit innerhalb der umfangreichen Gruppe von 10 Differentialdiagnosen, um die Fähigkeit jedes Modells zu bewerten um die Fähigkeit jedes Modells zu bewerten, die betreffende Krankheit korrekt zu identifizieren und zu priorisieren.


Reproduzierbarkeit
Empirische Untersuchung des Grades an Übereinstimmung, der zwischen den von einem LLM generierten Antworten beobachtet wurde, wenn zehn identische Aufforderungen vorgelegt wurden (Datensatz von 14 verschiedenen Fällen), unter Verwendung der Fleiss-Kappa-Formel auf unvollständigen Blöcken zur Berechnung der Konkordanz.
Beim Testen der Genauigkeit von Modellen beim Auffinden einer Zielkrankheit auf der Grundlage von simulierten Patientenvignetten/-prompts ist die spezialisierte Diagnose-KI-Plattform Bingli in verschiedenen Testsituationen genauer als ChatGPT und GlassAI. Bingli liefert immer perfekt reproduzierbare Ergebnisse (die gleiche Eingabe erzeugt immer die gleiche Ausgabe).
Obwohl die europäische MDR strenge Kriterien für die Validierung der Genauigkeit und Reproduzierbarkeit von Software vorschreibt, ist die mangelnde Reproduzierbarkeit der Ergebnisse ein besonderes Problem im Gesundheitswesen. In unserem Reproduzierbarkeitstest lieferte ChatGPT nur ein mäßiges Niveau an Übereinstimmung (0,52 Kappa-Wert).