Neues LLM-Benchmark-Tool: Large Language Models (LLMs) in der GKV – Wie gut schneiden sie bei Fragen zu Beiträgen ab?

von Kerstin Baasch; Dr. Kai-Uwe Morgenstern – 4. Dezember 2023

Large-Language-Models (LLMs) wie ChatGPT sind allgegenwärtig und zahlreiche Use Cases lassen ihren Einsatz im Businesskontext erfolgversprechend erscheinen. Aber wie verlässlich sind diese Modelle, besonders bei der Bewältigung spezialisierter Fragestellungen? Dazu haben wir bei _fbeta ein Benchmark-Tool entwickelt, das eine präzise, strukturierte, objektive und vergleichende Bewertung der Leistung von LLMs in der Praxis ermöglicht.

Unser LLM-Benchmark-Tool: Methodik und Vorgehensweise

In einer ersten Ausbaustufe haben wir einen speziell auf die Bedürfnisse und Anforderungen der Gesetzlichen Krankenversicherung (GKV) zugeschnittenen Fragenkatalog entwickelt und mit Fachexpert:innen validiert. Dieser Fragenkatalog umfasst 24 Kategorien, die einen umfassenden Überblick über die GKV bieten. Bewertet wurden ChatGPT 4.0, Falcon 40b, Llama 70b, Llama 13b, Falcon 180b Model A und B. Dazu haben wir diese LLMs mit den Fragen aus unserem entwickelten Katalog konfrontiert und die erhaltenen Antworten sorgfältig analysiert. Im Rahmen einer fortlaufenden Artikelserie (siehe auch hier) stellen wir Ihnen die Ergebnisse aus den Anwendungen unseres Benchmark-Tools vor.

Die Nutzung von Large Language Models (LLMs) wie ChatGPT 4.0, Falcon 40b, Llama 70b, Llama 13b oder Falcon 180b Model A und B bietet Krankenkassen eine innovative Möglichkeit, ihre Servicequalität zu verbessern und effizient zu gestalten. Vor allem Fragen rund um Beiträge in der gesetzlichen Krankenversicherung (GKV) sind hier von Relevanz. Es ist jedoch entscheidend zu erkennen, wie das jeweilige Model hinsichtlich seiner Antwortqualität einzuschätzen ist. Könnte ein solches Model möglicherweise für die Bearbeitung von grundlegenden Fragen genutzt werden, um eine Vielzahl von Anfragen im Voraus abzufangen? Hierzu haben wir die Antworten aus den 23 Fragen zur Kategorie „Beiträge“ gestellten Fragen analysiert und gewichtet.

Stärken und Schwächen der einzelnen Modelle ChatGPT 4.0, Falcon 40b, Llama 70b, Llama 13b, oder Falcon 180b Model A und B

Bei der Entwicklung des LLM-Benchmark haben wir die Kategorie „Beiträge“ in drei unterschiedliche Bereiche unterteilt, damit eine gezieltere Auswertung der Antworten/Ergebnisse möglich ist:

Beiträge-Allgemein : Grundsätzliche Fragen zum Thema Beiträge in der GKV
Beiträge-Pflicht : Fragen zum Thema Beiträge der gesetzlichen Pflichtversicherung (Grundsatz, Berechnung; Zuständigkeiten)
Beiträge-Freiwillig: Fragen zum Thema Beiträge der freiwilligen Versicherung (Grundsatz, Berechnung; Zuständigkeiten.

LLM-Benchmark: Folgende Auffälligkeiten festgestellt

Präzisionsmangel im Bereich Beitragsberechnung: Die analysierten LLMs offenbaren, insbesondere im Bereich der Beitragsberechnung, eine deutliche Diskrepanz in Bezug auf die präzise Benennung sowie die korrekte Anwendung und Umsetzung von Berechnungsgrundlagen. Es zeigt sich, dass innerhalb dieser getesteten LLMs eine Vielfalt an Defiziten existiert, die sich speziell auf die genaue Identifizierung und richtige Verwendung der Grundlagen für Beitragsberechnungen beziehen.

Bessere Antworten bei Fragen zur Pflichtversicherung: Es ist auffällig, dass Fragen zur Pflichtversicherung von Arbeitnehmern im Vergleich zu Fragen zu speziellen Personengruppen wie Selbstständigen oder Künstlern besser beantwortet werden können.

Vorsicht geboten bei Fragen zur freiwilligen Versicherung: Fragen im Bereich der freiwilligen Versicherung, die aufgrund ihrer Komplexität und Vielfalt anspruchsvoller sind, stellen für alle Modelle eine Herausforderung dar. Es wird deutlich, dass bei solchen Fragen mit inhaltlicher Tiefe besondere Vorsicht geboten ist. Es wäre ratsam, die Modelle durch die Verwendung einfacherer und schrittweise anspruchsvollerer Fragen gezielt auf das gewünschte Ergebnis auszurichten.

Zuverlässige Modelle für Grundlagenfragen: Die Modelle ChatPT 4 und Flacon 180b Model B haben sich als führend in der Qualität ihrer Antworten zu grundlegenden Fragen bezüglich Beitragssätzen herausgestellt. Allgemein erweisen sich diese Modelle als recht zuverlässig beider Beantwortung einfacher und grundlegender Fragen zu diesem spezifischen Thema

Problem Datenaktualität: Ein bekanntes Muster zeigt sich auch hier: Die Aktualität der Daten ist bei allen Modellen nicht gewährleistet.

Einblicke in die Antwortqualität der LLMs – ein Beispiel

Bei der konkreten Frage nach der Beitragshöhe für pflichtversicherte Arbeitnehmer:innen in 2023 wurde veraltete Zahlen genannt, der Grundsatz jedoch korrekt erklärt.

Frage: „In welcher Höhe muss ich in der GKV ab 2023 als pflichtversicherter Angestellter Beiträge zahlen und welchen Anteil zahlt mein Arbeitgeber?“

Antwort: „Also, die genaue Beitragshöhe für die Gesetzliche Krankenversicherung (GKV) im Jahr 2023 ist derzeit noch nicht bekannt. Sie hängt von verschiedenen Faktoren ab, einschließlich dem durchschnittlichen Zusatzbeitragssatz, der jedes Jahr neu festgesetzt wird.

Ganz allgemein kann ich dir sagen, dass sich der Beitrag zur GKV aus dem sogenannten allgemeinen Beitragssatz (derzeit 14,6%) und einem kassenindividuellen Zusatzbeitrag zusammen setzt.

Bei der Berechnung des Beitrages wird dein Bruttoeinkommen herangezogen, allerdings nur bis zur sogenannten Beitragsbemessungsgrenze. Diese liegt im Jahr 2022 bei 4.837,50 Euro monatlich und könnte 2023 etwas höher sein. Vom Gesamtbeitrag übernimmt dein Arbeitgeber übrigens 50 %. Den Zusatzbeitrag zahlst du entweder allein, oder er wird – abhängig von der Regelung deiner Krankenkasse – ebenfalls teilweise vom Arbeitgeber getragen.“

Fazit

Zusammengefasst kann man über alle Modelle sagen: Je weniger komplex die Antwort formuliert ist, um so höher die Wahrscheinlichkeit, dass eine korrekte Antwort entsteht.

Die LLMs zeigen grundsätzlich Schwierigkeiten bei der Bewältigung komplexer Fragen in diesem Bereich. Lediglich Chat GPT 4 und Falcon 180 b Model b erzielen in einzelnen Teilen befriedigende Ergebnisse. Damit die Modelle effektiv eingesetzt werden können, muss ein angemessenes Training und die klare Festlegung des Anwendungsfalls im Voraus sichergestellt sein.

Sie sind an einem Training bzw. einer individuellen Anpassung eines LLMs für Ihren Einsatzzweck interessiert? Melden Sie sich. Wir beraten und unterstützen gerne.

E-Mail: Dr. Kai-Uwe Morgenstern

Hier finden Sie weitere Informationen zu Anpassungstechniken von LLMs.