看深度学习如何发高分生信文章( 二 ) _健康小知识

文章图片
2、lncRNA表达或剪接位点使用曲线足以定义癌症状态
其他类型的转录组特征，包括lncRNA表达和RNA剪接，已被用作预后标志物或预测癌症中的药物应答。同时，少量位于lncRNA基因中的突变或破坏蛋白质编码基因中的剪接已被证明会驱动癌症发生。但是，目前尚不清楚lncRNA表达或RNA剪接的广泛变化是否是癌症发生的广泛特征。作者尝试使用这些转录组学特征来区分正常组织和肿瘤组织。
3、深度学习网络的解释揭示了表征癌症状态的新转录组学特征
鉴于深度学习模型的高性能，作者想知道在我们的每个模型中，哪些转录组学特征是最重要的，以及这些特征是否主要由已知与癌症遗传相关的基因组成。为此，作者使用增强的积分梯度（EIG）生成了称为肿瘤样本归因值的特征重要性评分。
Ref：Enhancedintegratedgradients:improvinginterpretabilityofdeeplearningmodelsusingsplicingcodesasacasestudy.GenomeBiol.2020
选择肿瘤类型中，具有较高归因值的蛋白质编码基因、lncRNA或剪接点，作为高归因值集合；同时选择归因值接近于零的的特征作为参考的Neutral集合(Fig.2a) 。在14种肿瘤中探究癌症类型特异的归因值时，作者发现归因值前100的特征，在几乎所有肿瘤样本中都具有高的归因值(Fig.2b) 。这表明，深度学习模型不是由样本量大的癌症类型中的异常表达或剪接点使用驱动，而是依赖于癌症的常见转录组学特征。
先前的差异分析表明，所有肿瘤类型中没有基因以相同的方式显著失调。与差异表达分析一致，作者发现给定基因的归因值的正负不一定反映癌症中基因表达的变化情况。也就是说，具有正归因值的基因不一定在大多数癌症中表达上调，或，具有高负归因值的基因不一定在大多数癌症中表达下调。因此，该模型的解释不是突出在许多癌症类型中相似变化的基因或剪接改变，而是暴露出癌症中始终偏离正常的转录组变异。

文章图片
4、表征癌症状态的转录组特征的遗传改变频率
接下来，作者想知道高归因基因中以前未报告的遗传改变是否可能推动模型强调的转录组变异。作者在TCGA样本中证实了高归因值基因几乎不携带驱动突变(drivermutations)(Fig.3a) 。但分析表明，具有高负归因值的基因的样本展现了更高的乘客突变频率，相比于Neutral集合来说(Fig.3b) 。同时，结构变异的频率虽然在高归因基因中高于其参考的Neutral集合，但在所有高归因基因组中都低于COSMIC基因(Fig.3c) 。同样，高归因基因受扩增或缺失事件影响的频率与Neutral集合或COSMIC基因没有显着差异(Fig.3de) 。
总体而言，深度学习模型确定的癌症转录组学特征并不经常受到遗传改变的影响，这表明从模型中获得的癌症表达和剪接模式不是由这些基因的遗传变异驱动的。
5、定义肿瘤状态的转录组学特征的高度进化和选择性限制
在通过表达或剪接连接使用建立了具有高归因值的基因列表，并发现这些基因中的大多数与COSMIC癌基因或抑癌基因不对应之后，作者试图探究深度学习模型中具有高归因值的转录组学特征，是否具有表明细胞中重要作用的特性。
作者发现，和Neutral集合相比，模型中具有高归因值的蛋白质编码基因， lncRNA基因和相对应的剪接连接的基因具有高度的进化保守性（Fig.4a）。同时，相对于参考的Neutral集合，具有高负归因的蛋白质编码基因以及正归因值负归因值的lncRNA显著的更长，但高归因值的剪接连接的基因显著的更短（Fig.4b）。具有高归因值的蛋白质编码基因和剪接连接基因对功能丧失突变展现了更高的选择性压力(Fig.4c) 。最后通过pyknons方法，发现高归因值的lncRNA基因携带比Neutral集合更高的pyknons密度(Fig.4d) 。