Wie intelligent ist Bingli im Vergleichmit Chat GPT / Glass AI?

bingli_pattern-2

Einleitung
Der Einsatz generativer künstlicher Intelligenz (AI) - insbesondere Large Language Models (LLMs) - hat das Potenzial, das Gesundheitswesen zu verändern. Die Sprachmodellierung hat die Verarbeitung natürlicher Sprache revolutioniert, indem sie Computer in die Lage versetzt, menschenähnliche Texte zu verstehen und zu erzeugen. Unter diesen Modellen haben sich LLMs als leistungsstarke Werkzeuge im Bereich der KI erwiesen.

next
AI Bingli

                                                                Was genau wurde getan?

Auswertung der Genauigkeit und Reproduzierbarkeit der KI-Modelle von Bingli und Vergleich ihrer Leistung mit LLMs (ChatGPT und GlassAI) unter Verwendung von Vignetten zur Darstellung virtueller Patienten

Warum?

Die Medical Device Regulation (MDR) schreibt strenge Kriterien vor, für die Validierung der Genauigkeit und Reproduzierbarkeit von Software
die als Systeme zur Unterstützung von Entscheidungsfindungen betrachtet werden.

EU MDR QMS

             Wie?

a4b5f603-089f-4656-87ab-c2b7867cc215

572 Vignetten

Test der Genauigkeit und Reproduzierbarkeit mit 572 virtuellen Vignetten, die von Bingli verwendet und in Prompts umgewandelt wurden, die sowohl mit ChatGPT über die API-Integration als auch mit der Glass-AI über ihre spezielle Anwendung kompatibel sind.

Beispiel-Vignette
erzielte Diagnose: Angina pectoris
Alter: 50
Geschlecht: M
Hauptsymptom: Brustschmerzen bei Anstrengung
Zusätzliches Symptom: Tachypnoe

 

Genauigkeit

Getestet durch Ranking der Zielkrankheit innerhalb der umfangreichen Gruppe von 10 Differentialdiagnosen, um die Fähigkeit jedes Modells zu bewerten um die Fähigkeit jedes Modells zu bewerten, die betreffende Krankheit korrekt zu identifizieren und zu priorisieren.

correct in disease in top 3 disease not found-1
451a84f3-9663-4d5e-b15c-c4848a489f62


Reproduzierbarkeit

Empirische Untersuchung des Grades an Übereinstimmung, der zwischen den von einem LLM generierten Antworten beobachtet wurde, wenn zehn identische Aufforderungen vorgelegt wurden (Datensatz von 14 verschiedenen Fällen), unter Verwendung der Fleiss-Kappa-Formel auf unvollständigen Blöcken zur Berechnung der Konkordanz.

Fazit
Beim Testen der Genauigkeit von Modellen beim Auffinden einer Zielkrankheit auf der Grundlage von simulierten Patientenvignetten/-prompts ist die spezialisierte Diagnose-KI-Plattform Bingli in verschiedenen Testsituationen genauer als ChatGPT und GlassAI. Bingli liefert immer perfekt reproduzierbare Ergebnisse (die gleiche Eingabe erzeugt immer die gleiche Ausgabe).

Obwohl die europäische MDR strenge Kriterien für die Validierung der Genauigkeit und Reproduzierbarkeit von Software vorschreibt, ist die mangelnde Reproduzierbarkeit der Ergebnisse ein besonderes Problem im Gesundheitswesen. In unserem Reproduzierbarkeitstest lieferte ChatGPT nur ein mäßiges Niveau an Übereinstimmung (0,52 Kappa-Wert).

 

Füllen Sie das Formular aus, um das White Paper zu erhalten