Klinisches ML: Warum Interpretierbarkeit oft wichtiger ist als Genauigkeit
Aus dem Heart Failure Readmission Projekt
Kontext
Im Gesundheitswesen ist das interpretierbare Modell häufig wertvoller als das genaueste. In der Arbeit zur Vorhersage von Wiederaufnahmen bei Herzinsuffizienz (MIMIC‑IV) stand ich vor der Wahl zwischen einem leistungsstarken Black‑Box‑Modell und einem klinisch handlungsleitenden, erklärbaren Modell. Trotz ~6% geringerem Accuracy‑Wert entschied ich mich für Logistische Regression statt XGBoost – wegen Interpretierbarkeit, klinischer Nützlichkeit und regulatorischer Anforderungen (HIPAA/FDA‑Leitlinien).
Entscheidungsrahmen
- Statistische Performance (25%): Accuracy, Precision, Recall, F1, ROC‑AUC
- Interpretierbarkeit (30%): Ärztinnen/Ärzte müssen Treiber verstehen
- Regulatorische Konformität (25%): Erklärbarkeit als Voraussetzung
- Klinischer Nutzen (20%): Handlungsleitende Faktoren, medizinisch plausibel
Die gewichtete Bewertung bevorzugte Logistische Regression für die klinische Einführung – obwohl XGBoost in reinen Metriken vorn lag.
Technische Schwerpunkte
- Daten: MIMIC‑IV; ICD‑10‑Komorbiditäten, Vitalparameter, Labor, Medikation, Prozeduren
- Feature Engineering: Komorbiditäten, zeitliche Vital‑Trends, Labor‑Normalisierung
- Evaluation: Gesundheits‑Metriken mit Fokus auf Sensitivität und Erklärbarkeit
- Ökonomie: Vermeidung von Wiederaufnahmekosten, ROI von Interventionen, Personalplanung
Ergebnisse
- 15–20% Verbesserung bei der Identifikation von Hochrisiko‑Patient:innen
- 12% weniger Fehlallokation von Pflegestunden
- 2–3 Mio. USD jährliche Einsparungen für ein mittleres Krankenhaus; ~300% ROI über 3 Jahre
Fazit
- Klinische Adoption erfordert Interpretierbarkeit und plausibles Feature‑Verständnis
- Regulatorische Readiness muss integriert sein, nicht nachträglich
- Ökonomische Validierung ist ebenso wichtig wie Metriken
Projekt & Code: heart_failure_readmission.