Forscher haben ein neues Modell der Künstlichen Intelligenz entwickelt, das durch die Integration mehrerer biologischer Datentypen die Klassifikation von Krebs-Subtypen und die Vorhersage von Patientenüberlebenschancen verbessern soll. Das System, das auf tiefem Lernen basiert, wurde für 15 verschiedene Krebsarten getestet und zeigte in vielen Fällen bessere Ergebnisse als etablierte Methoden. Die Studie unterstreicht den wachsenden Einfluss von Multi-Omics-Analysen in der Onkologie, birgt jedoch auch Herausforderungen bei der Interpretation der Ergebnisse.
In der modernen Krebsforschung steht die personalisierte Medizin im Vordergrund. Krebs ist eine hochkomplexe Erkrankung, die sich nicht nur durch den Ursprungsort, sondern auch durch molekulare Merkmale unterscheidet. Die Identifikation von Subtypen – also Untergruppen innerhalb einer Krebsart – ist entscheidend, um Behandlungen gezielt anzupassen und Prognosen genauer zu stellen. Traditionell basierten solche Analysen auf einzelnen Datentypen, wie Genexpressionsdaten oder klinischen Befunden. Mit dem Fortschritt der Hochdurchsatz-Sequenzierungstechnologien gewinnen jedoch Multi-Omics-Ansätze an Bedeutung. Diese integrieren Daten aus verschiedenen biologischen Ebenen, darunter Genexpression (RNA-Sequenzierung), DNA-Methylierung und microRNA-Level. Solche umfassenden Datensätze ermöglichen ein ganzheitlicheres Verständnis der Krebsbiologie, da sie Wechselwirkungen zwischen Molekülen erfassen, die in isolierten Analysen verborgen bleiben.
Die Onkologie profitiert zunehmend von maschinellem Lernen und tiefem Lernen, Techniken, die aus der Künstlichen Intelligenz stammen. Tiefes Lernen, insbesondere Modelle wie Autoencoder und konvolutionelle neuronale Netze, kann nichtlineare Beziehungen in großen Datensätzen erkennen, ohne dass manuelle Anpassungen notwendig sind. Frühere Ansätze wie Principal Component Analysis (PCA) oder Non-negative Matrix Factorization (NMF) waren auf lineare Annahmen beschränkt und erforderten oft umfangreiche Vorverarbeitung. Neuere Modelle, darunter ProgCAE und DeepProg, haben bereits Fortschritte gemacht, indem sie Multi-Omics-Daten für Prognosevorhersagen nutzen. ProgCAE, ein prognostisches Modell auf Basis eines konvolutionellen Autoencoders, hat Subtypen in 12 Krebsarten mit signifikanten Überlebensunterschieden identifiziert und übertraf traditionelle statistische Methoden in den meisten Fällen. DeepProg, ein Ensemble aus tiefem Lernen und maschinellem Lernen, integriert Multi-Omics-Daten mit Überlebensinformationen und hat sich als hochpräzise erwiesen, etwa bei Leberkrebs. Diese Modelle demonstrieren, wie KI die Vorhersage von Krebsverläufen verbessern kann, indem sie Muster in komplexen Datensätzen aufdeckt.
Die neue Studie präsentiert das Modell CA-CAE, das einen konvolutionellen Autoencoder mit einem Kanal-Attention-Mechanismus kombiniert. Dieser Mechanismus gewichtet Merkmale dynamisch, um sich auf die relevantesten Signale für das Überleben zu konzentrieren, im Gegensatz zu früheren Modellen, die alle Merkmale gleich behandeln. Die Forscher nutzten Daten aus dem The Cancer Genome Atlas (TCGA), einem öffentlichen Repository, das Multi-Omics- und Überlebensdaten für Tausende Patienten bereitstellt. Speziell integrierten sie RNA-Sequenzierung, miRNA-Sequenzierung und DNA-Methylierung für 15 Krebsarten, darunter Lungenadenokarzinom (LUAD), Blasenkrebs (BLCA), Dickdarmkrebs (COAD) und weitere. Die Vorverarbeitung umfasste die Entfernung fehlender Werte, Dimensionsreduktion auf die variabelsten Merkmale und Normalisierung.
Das Modell durchläuft mehrere Schritte: Zunächst reduziert es die Dimensionalität der Daten durch den Autoencoder mit Attention, wählt dann überlebensassoziierte Merkmale mittels LASSO-Regression und univariater Cox-Proportional-Hazards-Modelle aus. Anschließend erfolgt eine Clusterung mit K-Means, wobei die optimale Clusteranzahl (zumeist zwei oder drei) durch Metriken wie Silhouette-Koeffizient und Davies-Bouldin-Index bestimmt wird. Die Ergebnisse zeigten signifikante Überlebensunterschiede zwischen den Subtypen in allen 15 Krebsarten, gemessen an Kaplan-Meier-Kurven und Log-Rank-Tests. Verglichen mit ProgCAE, DeepProg, PCA und NMF erzielte CA-CAE niedrigere P-Werte in neun Krebsarten und höhere Concordance-Indizes (C-Index) in zehn, was auf bessere Vorhersagegenauigkeit hinweist. Der C-Index misst, wie gut das Modell Überlebensrisiken ordnet; Werte über 0,6 gelten als robust.
Ablationsstudien, bei denen Komponenten wie der Attention-Mechanismus entfernt wurden, bestätigten dessen Beitrag: Ohne Attention sanken P-Werte und C-Index signifikant. Multi-Omics-Integration übertraf Einzel-Omics-Analysen, etwa bei LUAD, wo integrierte Daten kleinere P-Werte und höhere C-Indizes lieferten. Die identifizierten prognostischen Gene, wie SFTPA1 und GPX2 in LUAD, sind mit bekannten Krebsmarkern assoziiert und reichern sich in Pfaden wie Immunantwort und extrazellulärer Matrix an, analysiert durch GO- und KEGG-Enrichment. Subtypen korrelierten mit klinischen Merkmalen wie Tumorstadium und Metastasierung in Krebsarten wie BLCA und COAD. Weitere Validierungen zeigten Übereinstimmungen mit Ganzgenom-Duplikationen und NMF-basierten Subtypen. Externe Tests auf Proteogenomik-Daten aus dem Clinical Proteomic Tumor Analysis Consortium (CPTAC) für Glioblastom und LUAD untermauerten die Robustheit.
Trotz dieser Erfolge weist die Studie auf Herausforderungen hin. Multi-Omics-Integration stößt auf Probleme wie fehlende Daten, Heterogenität der Datentypen und die Notwendigkeit spezialisierter Bioinformatik-Kenntnisse. Tiefe Lernmodelle sind oft weniger interpretierbar als lineare Methoden, da ihre internen Darstellungen komplex sind. Die Vorwahl variabler Merkmale könnte zu Bias führen, und externe klinische Validierungen fehlen noch. In der Onkologie insgesamt erschweren hohe Kosten für Datenerhebung und die Integration von Bilddaten oder Metagenomik die Skalierbarkeit. Dennoch bieten solche Modelle Potenzial für Präzisionsmedizin, indem sie Subtypen aufdecken, die für personalisierte Therapien relevant sind.
Objektiv betrachtet übertrifft CA-CAE bestehende Ansätze in Genauigkeit und Robustheit, insbesondere durch den Attention-Mechanismus, der relevante Signale priorisiert. Es erweitert das Feld, indem es Multi-Omics für Pan-Krebs-Analysen nutzt und biologische Relevanz durch Enrichment und klinische Korrelationen nachweist. Schwächen liegen in der Interpretierbarkeit und Abhängigkeit von Vorverarbeitung, was zukünftige Arbeiten mit erklärbarer KI adressieren könnte. Die offene Verfügbarkeit des Codes und der Daten fördert Reproduzierbarkeit und weitere Forschung.
Die Studie wurde von der National Natural Science Foundation of China und anderen Fonds gefördert, ohne Einfluss der Förderer auf Design oder Publikation. Die Autoren deklarierten keine Interessenkonflikte.
Quellen:
- Zhang S, Lu Y, Li P, Wu J, Wang G, Yang W (2026) CA-CAE: A deep learning-based multi-omics model for pan-cancer subtype classification and prognosis prediction. PLoS Comput Biol 22(2): e1014015. doi:10.1371/journal.pcbi.1014015
- Liu Q et al. (2023) ProgCAE: a deep learning-based method that integrates multi-omics data to predict cancer subtypes. Briefings in Bioinformatics 24(4): bbad196.
- Poirion OB et al. (2021) DeepProg: an ensemble of deep-learning and machine-learning models for prognosis prediction using multi-omics data. Genome Medicine 13:112.
- Heo YJ et al. (2021) Integrative Multi-Omics Approaches in Cancer Research: From Biological Networks to Clinical Subtypes. Molecules and Cells 44(7):433-443.
- Chakraborty S et al. (2024) Multi-OMICS approaches in cancer biology: New era in cancer therapy. Biochimica et Biophysica Acta (BBA) – Reviews on Cancer 1879(5):188931.
- Raufaste-Cazavieille V et al. (2022) Multi-omics analysis: Paving the path toward achieving precision medicine in cancer treatment and immuno-oncology. Frontiers in Molecular Biosciences 9:962743.
- Zou Y et al. (2024) An overview of multiomics: a powerful tool applied in cancer molecular subtyping for cancer therapy. MedComm – Future Medicine 3(2):e59.
- Sartori F et al. (2025) A Comprehensive Review of Deep Learning Applications with Multi-Omics Data in Cancer Research. Frontiers in Artificial Intelligence 7:1402632.
- Braytee A et al. (2024) Identification of cancer risk groups through multi-omics integration using autoencoder and tensor analysis. Scientific Reports 14:7965.
- Zhu W et al. (2020) The Application of Deep Learning in Cancer Prognosis Prediction. Cancers 12(3):603.
- Chen R et al. (2020) Deep-learning approach to identifying cancer subtypes using high-dimensional genomic data. Bioinformatics 36(5):1476-1483.
- Tran KA et al. (2021) Deep learning in cancer diagnosis, prognosis and treatment selection. Genome Medicine 13:152.
- Gao F et al. (2019) DeepCC: a novel deep learning-based framework for cancer molecular subtype classification. Oncogenesis 8:44.
- Aharonu M et al. (2024) A Multi-Model Deep Learning Framework and Algorithms for Survival Rate Prediction of Lung Cancer Subtypes With Region of Interest Using Histopathology Imagery. IEEE Transactions on Medical Imaging 43(11):3921-3933.
- Tufail AB et al. (2021) Deep Learning in Cancer Diagnosis and Prognosis Prediction: A Minireview on Challenges, Recent Trends, and Future Directions. Mathematical Biosciences and Engineering 18(6):9025-9041.
- Gupta S et al. (2022) Deep learning for cancer classification – Microarray gene expression. Frontiers in Physiology 13:952709.
- Mohr AE et al. (2024) Navigating Challenges and Opportunities in Multi-Omics Integration for Personalized Healthcare. Healthcare 12(13):1312.
- Zito A (o.J.) Key Challenges in Multi-omics Data Integration. BigOmics Analytics Blog.
- Luo Y et al. (2025) Multi-omics synergy in oncology: Unraveling the complex interplay of radiomic, genoproteomic, and pathological data. Medicine Plus 2(1):100005.
- Acharya D et al. (2024) A comprehensive review of machine learning techniques for multi-omics data integration: challenges and applications in precision oncology. Briefings in Functional Genomics 23(5):549-561.
- Flores JE et al. (2023) Missing data in multi-omics integration: Recent advances through artificial intelligence. Frontiers in Artificial Intelligence 6:1098308.
- Catalano M et al. (2025) Navigating Cancer Complexity: Integrative Multi-Omics Methodologies for Clinical Insights. Cancers 17(2):456.
- Tarazona S et al. (2021) Undisclosed, unmet and neglected challenges in multi-omics studies. Nature Computational Science 1:395-402.
- Luo Y et al. (2024) Multiomics Research: Principles and Challenges in Integrated Analysis. BME Frontiers 2024:0059.
- Han E et al. (2025) A review on multi-omics integration for aiding study design of large scale TCGA cancer datasets. BMC Genomics 26:1925.
(Wortzahl: 1123)
