看深度学习如何发高分生信文章

一、前言
癌症是一个定义松散的术语 , 它是指具有获得病理特性的细胞 , 这部分细胞丧失细胞周期调节、具有高的增殖率 , 以及丧失接触抑制导致周围组织侵袭 。 随着时间的推移 , 癌细胞破坏所在组织的正常功能 , 并可能转移到其他组织 。 癌基因有助于细胞转化 , 而抑癌基因则阻止异常细胞增殖 。
除癌基因和抑癌基因的突变外 , 在癌症类型的亚组中还发现了导致癌症发生和进展的癌症驱动突变 。 虽然这些遗传改变是多种多样的 , 但癌症中改变的基因通常集中在一些参与肿瘤发生的分子机制上 。 这些通路具有广泛的影响 , 涵盖细胞周期、炎症和细胞凋亡等 。 因此 , 它们在癌症中发挥作用的机制是高度多样化和分子异质的 , 但它们也是相互关联的 。
先前的研究试图利用这些预测的癌症共同特征来训练计算模型 , 以区分肿瘤与正常样本 , 或区分不同的肿瘤类型 。 通常 , 这些研究依赖于蛋白质编码基因表达数据与深度神经网络(或其他机器学习算法)相结合 , 将样本分为两个或多个类类别 。 这些研究表明 , 机器学习模型可以在一定的条件下 , 成功区分正常组织和肿瘤组织 。
看深度学习如何发高分生信文章
文章图片
二、数据和方法
三、结果
1、用蛋白质编码基因表达训练的前馈神经网络区分正常组织和癌组织
为了揭示通常定义癌症状态的转录组学特征 。 对来自GTEx和TCGA的11对正常组织及肿瘤配对样本进行差异基因表达分析 , 然后查看失调基因中的overlap , 结果表明仅有很少的蛋白质编码基因在六种或更多肿瘤类型中始终上调或下调[Fig.1a] 。
为了克服对常见癌症转录组特征幼稚研究的局限性 , 作者试图训练能够区分正常和癌症样本的可解释深度学习模型 。
首先 , 整合一个大型RNA-Seq数据集 , 包含19种正常组织类型和18种肿瘤类型的13,461个样本 , 并将数据分为反映癌症状态的两类:正常或肿瘤[Fig.1bc] 。 同时 , 使用12个较小的数据集来校正特定于数据集的偏差 , 这些数据集要么仅包含肿瘤样本 , 要么仅包含来自同一患者的肿瘤和配对的正常样本 。 作者还考虑了一个替代的方法——均值校正 , 例如常用的COMBAT方法 , 但这种方法严重限制了可用于模型训练的数据和基因集 。
然后 , 使用来自19,657个蛋白质编码基因均值校正的表达数据 , 来训练一个自动编码器进行降维;使用有监督的深度神经网络来预测癌症状态 。 在验证集上调整模型超参数(学习率、隐藏层、节点数、激活函数和丢失概率) , 并使用验证集上性能最佳的超参数来修复模型架构 。
最后 , 为了确保模型不会学习特定于数据集的偏差 , 使用一个额外的数据集评估该模型的效能 。 结果表明 , 蛋白质编码基因表达模型能够精确的预测样本来自正常组织还是肿瘤组织(Fig.1efg) 。
为了评估该模型对于其他癌症类型的效能(训练集未包含该癌症类型) , 从三个额外的数据集中组织了一个新的数据集(包含正常细胞和恶性血液细胞);在不进行批次校正的情况下 , 评估深度学习模型表现 。 令人惊讶的是 , 尽管训练集和测试集数据之间存在显著差异 , 但该模型仍旧能够成功地将正常和癌症样本与血液区分开来(Fig.1h) 。
另外 , 在相同的数据集中训练支持向量机和随机森林模型 , 作者发现 , 虽然在相同的独立数据集上进行测试 , 三个模型的效能相似 。 但当将支持向量机模型和随机森林模型用于血液数据集时 , 这两个模型完全失效(Fig.1h) 。 这表明 , 与常用的机器学习方法相比 , 深度神经网络模型更准确、更稳健 。