Un estudio aleatorizado por conglomerados demostró que el uso de un modelo de lenguaje grande para evaluar automáticamente el indicador de calidad CMS SEP-1 (Severe Sepsis and Septic Shock Management Bundle) y proporcionar retroalimentación oportuna a los médicos tratantes puede aumentar significativamente el cumplimiento de este indicador. El estudio se publicó en JAMA Network Open.
En la investigación se aleatorizó a 66 médicos de urgencias de dos hospitales universitarios de la Universidad de California, San Diego. En total, los médicos trataron a 301 pacientes que cumplían los criterios de inclusión para el indicador SEP-1. El grupo de intervención recibió una evaluación automatizada del cumplimiento de SEP-1 basada en un modelo de lenguaje grande con retroalimentación específica al alta. El grupo de control siguió el procedimiento habitual.
El cumplimiento del indicador SEP-1 fue del 82,9 por ciento en el grupo de intervención y del 70,1 por ciento en el grupo de control. Esto correspondió a una mejora absoluta de 13,0 puntos porcentuales (Odds Ratio 2,10; intervalo de confianza del 95 % 1,15-3,81; P = 0,02). La mayor diferencia se observó en la finalización del bolo de líquidos de 30 ml/kg, que se omitió con menos frecuencia en el grupo de intervención.
La concordancia entre la evaluación automatizada con LLM y la revisión manual por expertos fue del 92 por ciento. No se encontraron diferencias significativas entre los grupos en cuanto a la mortalidad a 30 días ni a los ingresos en la unidad de cuidados intensivos.
El estudio demuestra que la medición de la calidad y la retroalimentación oportuna asistidas por IA pueden mejorar la adherencia a indicadores de calidad complejos. Los autores ven en ello un enfoque para superar las limitaciones existentes de la notificación manual de la calidad y apoyar un sistema de salud que aprende. Al mismo tiempo, queda por ver si la mejora del cumplimiento del indicador conduce también a mejoras clínicamente relevantes en los resultados de los pacientes. El estudio se llevó a cabo en solo dos centros y examinó exclusivamente el indicador SEP-1, por lo que la transferibilidad a otros entornos e indicadores de calidad aún debe ser evaluada.
