Pular para o conteúdo

Aprendizagem de máquina melhora a qualidade dos dados na saúde: Novas estratégias para precisão e reutilização

Machine Learning (ML) pode aumentar significativamente a qualidade dos dados de saúde, contribuindo para diagnósticos mais precisos e tratamentos mais eficientes. Um novo estudo da Riga Technical University desenvolve e avalia estratégias baseadas em ML, focando nas dimensões centrais de precisão, completude e reutilização. Os resultados, publicados na revista "Frontiers in Artificial Intelligence", mostram melhorias significativas em um conjunto de dados de diabetes e destacam o potencial para frameworks reproduzíveis na prática clínica.

A qualidade dos dados de saúde é crucial para decisões clínicas e resultados de pacientes, mas problemas como valores ausentes e anomalias frequentemente levam a diagnósticos incorretos ou uso ineficiente de recursos. De acordo com as diretrizes da ISO 9000, a qualidade dos dados deve atender às necessidades dos usuários, seja para análises clínicas ou modelos de ML. O estudo de Agate Jarmakovica aborda esses desafios por meio de uma abordagem abrangente que combina métodos técnicos com estratégias organizacionais.

Para a investigação, foi utilizado um conjunto de dados de diabetes publicamente acessível do GitHub, compreendendo 768 instâncias de dados com nove variáveis – incluindo idade, índice de massa corporal (IMC), níveis de glicose no sangue, pressão arterial, espessura da dobra cutânea, insulina sérica, função de árvore genealógica de diabetes e um resultado binário para o status de diabetes. O conjunto de dados foi anonimizado e atendeu aos padrões éticos. A completude inicial foi de 90,57%, com lacunas significativas, por exemplo, em insulina sérica (48,70%) e espessura da dobra cutânea (29,56%).

A metodologia envolveu um fluxo de trabalho detalhado: primeiro, os dados foram carregados e analisados exploratoriamente usando bibliotecas Python como Pandas, com suporte de visualizações usando Matplotlib e Seaborn. Valores ausentes foram tratados por imputação K-Nearest Neighbors (KNN), com cinco vizinhos como parâmetro, para manter um equilíbrio entre resistência a ruído e precisão. Anomalias – cerca de 20,1% dos dados – foram detectadas e corrigidas por meio de técnicas de ensemble como Isolation Forest (para isolamento global de outliers) e Local Outlier Factor (LOF, para comparações de densidade local). Fórmulas para scores de anomalia, baseadas em comprimentos de caminho em árvores (Isolation Forest) e densidade de alcançabilidade local (LOF), permitiram uma identificação precisa.

Adicionalmente, os dados foram normalizados (StandardScaler) e uma Análise de Componentes Principais (PCA) foi realizada, identificando glicose no sangue, IMC e idade como preditores chave para diabetes. Análises de correlação mostraram fortes relações entre essas variáveis. O processo foi implementado no Google Colaboratory, com ferramentas como MLflow e TensorBoard para monitoramento em tempo real e geração de metadados, garantindo a reprodutibilidade.

Modelos preditivos foram treinados para validação: uma divisão de 80/20 do conjunto de dados, combinada com validação cruzada k-fold, testou Random Forest e LightGBM. O Random Forest superou o LightGBM com uma precisão de 75,3% e um valor AUC de 0,83 (em comparação com 0,80 para o LightGBM). Curvas Precision-Recall e ROC confirmaram a eficácia do pré-processamento, que aumentou os valores de AUC em comparação com dados brutos.

Os resultados demonstram progresso claro: a completude aumentou para quase 100%, a precisão se beneficiou da redução de anomalias e a reutilização foi aprimorada por meio de documentação detalhada e controle de versão. Heatmaps, box plots e histogramas visualizaram as melhorias, enquanto um framework conceitual (Figura 1) ilustrou a integração de métodos de ML com abordagens organizacionais.

A revisão da literatura enfatiza que a qualidade dos dados abrange aspectos multidimensionais como integridade, consistência e ética, expandidos com elementos modernos como rastreabilidade e governança. Trabalhos anteriores, como sobre imputação (Thomas e Rajabi, 2021) ou detecção de anomalias (Liu et al., 2008), servem de base. O estudo destaca que o ML não apenas oferece soluções técnicas, mas também cria a base para IA confiável na medicina, onde dados de alta qualidade são essenciais para sistemas de aprendizado profundo (Munappy et al., 2022).

Jarmakovica enfatiza as implicações práticas: “Ao combinar imputação e detecção de anomalias, podemos criar frameworks robustos que contribuem para melhores resultados clínicos e capacidades preditivas.” A melhoria iterativa usando Grid Search e Otimização Bayesiana sublinha a escalabilidade da abordagem.

Especialistas veem tais estratégias como um caminho para conectar o movimento de ciência aberta com a proteção de dados e promover inovações na pesquisa em saúde. O estudo solicita mais pesquisas sobre monitoramento em tempo real e abordagens interdisciplinares para garantir a qualidade dos dados em ambientes dinâmicos.

Para mais informações: Frontiers in Artificial Intelligence, https://doi.org/10.3389/frai.2025.1621514.

avatar do autor
LabNews Media LLC
Os Editores-Chefes do labnews.ai são Marita Vollborn e Vlad Georgescu. Eles são autores best-sellers, escritores de ciência e jornalistas científicos desde 1994.Mais detalhes sobre sua escrita no X-Press Journalistenbüro (https://xpress-journalisten.com).Mais informações na Wikipedia:Sobre Marita: https://de.wikipedia.org/wiki/Marita_Vollborn Sobre Vlad: https://de.wikipedia.org/wiki/Vlad_Georgescu
LabNews Media LLC

LabNews Media LLC

Os Editores-Chefes do labnews.ai são Marita Vollborn e Vlad Georgescu. Eles são autores best-sellers, escritores de ciência e jornalistas científicos desde 1994.Mais detalhes sobre sua escrita no X-Press Journalistenbüro (https://xpress-journalisten.com).Mais informações na Wikipedia:Sobre Marita: https://de.wikipedia.org/wiki/Marita_Vollborn Sobre Vlad: https://de.wikipedia.org/wiki/Vlad_Georgescu