Forscher haben eine webbasierte Anwendung erstellt, die das Risiko für Herz-Kreislauf-Erkrankungen mit hoher Genauigkeit vorhersagt. Das Tool basiert auf maschinellem Lernen und nutzt Daten der National Health and Nutrition Examination Survey (NHANES) aus den Jahren 2021 bis 2023. Die Studie erschien am 20. Februar 2026 in Frontiers in Artificial Intelligence.
Das Team um Suraiya Akhter von der Emporia State University und John H. Miller von der Washington State University verglich vier Methoden zur Auswahl relevanter Merkmale: Pearson-Korrelation kombiniert mit Chi-Quadrat-Test, Alternating-Decision-Tree-basierte Bewertung, Cross-Validated Feature Evaluation und Hypergraph-Based Feature Evaluation. Diese Merkmale dienten zur Erstellung von Modellen mit Random Forest, Support Vector Machine und eXtreme Gradient Boosting.
Die beste Leistung erzielte die Hypergraph-Methode in Kombination mit Support Vector Machine: 82,84 Prozent Gesamtgenauigkeit und eine AUC von 0,9027. Die einflussreichsten Vorhersagefaktoren umfassen Alter, Gesamtcholesterin, Vorgeschichte hoher Blutdruckwerte, Einnahme cholesterinsenkender Medikamente, kürzliche Verschreibung von Arzneimitteln, lebenslange Rauchgewohnheiten, Verhältnis von Familieneinkommen zu Armutsgrenze, Geschlecht, Bildungsstand und Breite der Verteilung roter Blutkörperchen.
Zur Verbesserung der Transparenz wurde SHapley Additive exPlanations eingesetzt, um den Beitrag einzelner Merkmale zu erläutern. Die Web-Anwendung unter https://shiny.tricities.wsu.edu/cvd-r-prediction/ liefert Vorhersagen, Wahrscheinlichkeitswerte und SHAP-Diagramme. Sie erlaubt Stapelanalysen und die Integration neuer Daten zur kontinuierlichen Verbesserung.
Die Arbeit unterstreicht die Bedeutung strategischer Merkmalsauswahl für Genauigkeit und Interpretierbarkeit. Sie bietet einen datenbasierten Ansatz, der Ärzte bei der Risikobewertung unterstützen und präventive Maßnahmen individualisieren könnte. Herz-Kreislauf-Erkrankungen verursachen weltweit rund 17,9 Millionen Todesfälle pro Jahr.
Die Studie basiert auf dem NHANES-Datensatz der Centers for Disease Control and Prevention, der demografische, klinische, labormedizinische und Umfragedaten umfasst.
source:
https://doi.org/10.3389/frai.2026.1690664
