Dataset Information

Multi-Omics Data Fusion for Cancer Molecular Subtyping Using Sparse Canonical Correlation Analysis.

ABSTRACT: It is now clear that major malignancies are heterogeneous diseases associated with diverse molecular properties and clinical outcomes, posing a great challenge for more individualized therapy. In the last decade, cancer molecular subtyping studies were mostly based on transcriptomic profiles, ignoring heterogeneity at other (epi-)genetic levels of gene regulation. Integrating multiple types of (epi)genomic data generates a more comprehensive landscape of biological processes, providing an opportunity to better dissect cancer heterogeneity. Here, we propose sparse canonical correlation analysis for cancer classification (SCCA-CC), which projects each type of single-omics data onto a unified space for data fusion, followed by clustering and classification analysis. Without loss of generality, as case studies, we integrated two types of omics data, mRNA and miRNA profiles, for molecular classification of ovarian cancer (n = 462), and breast cancer (n = 451). The two types of omics data were projected onto a unified space using SCCA, followed by data fusion to identify cancer subtypes. The subtypes we identified recapitulated subtypes previously recognized by other groups (all P- values < 0.001), but display more significant clinical associations. Especially in ovarian cancer, the four subtypes we identified were significantly associated with overall survival, while the taxonomy previously established by TCGA did not (P- values: 0.039 vs. 0.12). The multi-omics classifiers we established can not only classify individual types of data but also demonstrated higher accuracies on the fused data. Compared with iCluster, SCCA-CC demonstrated its superiority by identifying subtypes of higher coherence, clinical relevance, and time efficiency. In conclusion, we developed an integrated bioinformatic framework SCCA-CC for cancer molecular subtyping. Using two case studies in breast and ovarian cancer, we demonstrated its effectiveness in identifying biologically meaningful and clinically relevant subtypes. SCCA-CC presented a unique advantage in its ability to classify both single-omics data and multi-omics data, which significantly extends the applicability to various data types, and making more efficient use of published omics resources.

SUBMITTER: Qi L

PROVIDER: S-EPMC8341864 | biostudies-literature | 2021

REPOSITORIES: biostudies-literature

ACCESS DATA

Publications

Multi-Omics Data Fusion for Cancer Molecular Subtyping Using Sparse Canonical Correlation Analysis.

Qi Lin L Wang Wei W Wu Tan T Zhu Lina L He Lingli L Wang Xin X

Frontiers in genetics 20210722

It is now clear that major malignancies are heterogeneous diseases associated with diverse molecular properties and clinical outcomes, posing a great challenge for more individualized therapy. In the last decade, cancer molecular subtyping studies were mostly based on transcriptomic profiles, ignoring heterogeneity at other (epi-)genetic levels of gene regulation. Integrating multiple types of (epi)genomic data generates a more comprehensive landscape of biological processes, providing an opport ...[more]

PMID: 34367231

Dataset Information

Multi-Omics Data Fusion for Cancer Molecular Subtyping Using Sparse Canonical Correlation Analysis.

Publications

Multi-Omics Data Fusion for Cancer Molecular Subtyping Using Sparse Canonical Correlation Analysis.

Similar Datasets

OmicsDI is part of the ELIXIR infrastructure

Tweets

Similar Datasets

Integrating multi-OMICS data through sparse canonical correlation analysis for the prediction of complex traits: a comparison study.
| S-EPMC7750936 | biostudies-literature

Multimodal data fusion using sparse canonical correlation analysis and cooperative learning: a COVID-19 cohort study.
| S-EPMC11076490 | biostudies-literature

Multimodal Biomedical Data Fusion Using Sparse Canonical Correlation Analysis and Cooperative Learning: A Cohort Study on COVID-19.
| S-EPMC10690316 | biostudies-literature

Group sparse canonical correlation analysis for genomic data integration.
| S-EPMC3751310 | biostudies-literature

Sparse semiparametric canonical correlation analysis for data of mixed types.
| S-EPMC8494134 | biostudies-literature

Simultaneous analysis of multiple data types in pharmacogenomic studies using weighted sparse canonical correlation analysis.
| S-EPMC3394856 | biostudies-literature

Multi-Task Sparse Canonical Correlation Analysis with Application to Multi-Modal Brain Imaging Genetics.
| S-EPMC7156329 | biostudies-literature

Extensions of sparse canonical correlation analysis with applications to genomic data.
| S-EPMC2861323 | biostudies-literature

Multi-block Analysis of Genomic Data Using Generalized Canonical Correlation Analysis.
| S-EPMC6440675 | biostudies-literature

inMTSCCA: An Integrated Multi-task Sparse Canonical Correlation Analysis for Multi-omic Brain Imaging Genetics.
| S-EPMC10634656 | biostudies-literature