2019-07-06 paml软件安装 _经验分享

Hyphy，不亚于Paml的选择压力分析的优秀软件，使用指北近几年来，Hyphy的使用人数越来越来多，虽然不及paml，但这款软件的一些优秀特性使得它值得受到使用和关注。
首先相比paml，hyphy有以下几大优点：
接下来介绍的一系列东西，实际上是对Hyphy官方网站的一系列教程的总结，很多东西官网都写得很清楚，官网地址为 https://www.hyphy.org/。
如果你不想看长篇大论，直接跳到最后的总结部分，那里有最简练的总结
关于Hyphy的不同版本 ,hyphy的网页版即是datamonkey，并且还有GUI版本，这里介绍的主要是命令行版本，并且命令行版本也可以分为交互式运行和一行命令运行，这里不介绍交互式方法的使用。
关于hyphy的安装 ,只需要用conda就可以安装了
关于hyphy的输入文件，要求一颗newick格式（只能是此格式）系统发育树以及相对应的fasta序列比对文件（可以是FASTA, phylip, 等等），标注foreground branch，即前景支的方法和paml略微不同，即在newick文件中在分支名和支长（如果有的话）之间加上{Foreground}来标注，或者你可以去hyphy官网的phylotree来在线标注，地址为 http://phylotree.hyphy.org/。
关于多线程支持方面，2.4.0版本当中，软件中的命令 hyphy 和 HYPHYMPI 已经等同，都是调用多线程，在这个版本之前，hyphy 调用的是单核，而 HYPHYMPI 则对应的是多线程版本命令。
关于具体使用方法，hyphy的使用非常简单，以2.2.0版本为例，如果你要使用多线程命令，则如下有两种方法，分别对应位点模型slac以及指定了前景支的支位点模型absrel,它们都需要openmp支持
不同的模型，只需要改相应的模型名称就可以调用了(替换上面命令的slac或者absrel)，用法非常简单,如果不特别用branches指定Foreground，那么则会默认对整个系统发育应用模型。
关于输出结果及结果可视化，Hyphy运行的时候，默认打印到屏幕上的结果是以markdown格式输出的，这个结果还是很直观的，而保存到本地文件的结果是以json格式输出的，并不是很直观( 但json格式可以很方便的用python的json模块提取各种信息，例如pvalue和正选择位点，在多个任务批量操作的时候，非常的方便，这种保存的格式非常具有通用性，其实是件好事 )，默认是输出到和多序列比对文件相同的文件夹，可以用 --output 来改变输出位置，可以去官网 http://vision.hyphy.org/ 来可视化输出结果，具体的格式介绍，详见 https://www.hyphy.org/resources/json-fields.pdf。
关于Hyphy的各种模型，基本上都可以分为不指定foreground和指定foreground运行的两种方式，前者对应的是检测 pervasive (across the whole phylogeny) positive or purifying selection ，即整个系统发育中的普遍的正选择/纯化选择，而后者对应的是检测 episodic (at a subset of branches) positive or purifying selection ，即检测一部分branches的独立正选择/纯化选择。
①FEL 固定效应似然法(FEL, Fixed Effects Likelihood)
使用最大似然(ML)方法来推断每个位点上的非同义(dN)和同义(dS)替换率，用于给定的编码比对和相应的系统发育。该方法假设在整个系统发育过程中，每个位点的选择压力是恒定的。注意，FEL适合小到中型数据
②SLAC (Single-Likelihood Ancestor Counting)
对于给定的编码比对和相应的系统发育使用最大似然(ML)和计数方法的结合来推断每个位点上的非同义(dN)和同义(dS)替换率。像FEL一样，该方法假设在整个系统发育过程中，每个位点的选择压力是恒定的。SLAC和FEL精准度相似，但适合更大的数据，并且不适合高度分歧的序列
③?FUBAR(Fast, Unconstrained Bayesian AppRoximation)?
使用贝叶斯方法来推断给定编码比对和相应系统发育的每个位点上的非同义(dN)和同义(dS)替换率。该方法假设在整个系统发育过程中，每个位点的选择压力是恒定的。FUBAR适用于中到大数据集，预计在检测位点的普遍选择方面比FEL更有效。FUBAR是推断pervasive selection的首选方法。
MEME(Mixed Effects Model of Evolution)
MEME(混合效应进化模型)采用混合效应最大似然方法来检验个别位点是否受到episodic positive或多样化选择的影响的假设。换句话说，MEME的目的是检测在一定比例的分支下正选择下进化的位点。
对于每个位点，MEME推测两种ω值，以及在给定的分支下，以此ω进化的概率。为了推断ω，MEME会推断α(dS) 和两个不同的β(dN),β?和β+ 。在空模型和备择模型中，MEME强制β?≤α 。因此β+是空模型和备择模型不同的关键：在空模型中，β+被限制为≤α，但在备择模型中不受限制。最终，当β+>α时，位点被推断为正选择，并使用似然比检验显示显著。
FADE(FUBAR Aproach to Directional Evolution)
是一种基于FUBAR引入的贝叶斯框架(Bayesian framework)的方法，用来测试蛋白质比对中的位点是否受定向选择的影响。具体地说，FADE将系统地测试，对于比对中的每个位点，与背景分支相比，一组指定的前景分支是否显示对特定氨基酸的替代偏向。该偏差参数的高值表明该位点对特定氨基酸的取代作用大大超过预期。使用贝叶斯因子(BF)评估FADE的统计显著性，其中BF>=100提供了强有力的证据，表明该位点正在定向选择下进化。
重要的是，与HyPhy中的大多数方法不同，FADE不使用可逆的马尔可夫模型，因为它的目标是检测定向选择。因此，FADE分析需要一个有根的系统发育。在使用FADE进行分析之前，可以使用基于浏览器的交互工具“Phylotree.js”来帮助建立树的根。
aBSREL (adaptive Branch-Site Random Effects Likelihood)
是常见的“Branch-Site”类模型的改进版本。aBSREL既允许分支的先验指定（即指定foreground branches)来测试选择，也可以以探索性的方式测试每个谱系以进行选择( p-value将自动进行BH校正，为什么叫探索性的方法呢，因为你可以先不指定foreground，来看看哪个支的pvalue更低，然后来针对那一支进行进一步的选择压力分析）。请注意，探索性的方法将牺牲功效。?aBSREL是在各个分支检测正选择的首选方法?，需要注意一点的是，aBSREL是多次独立对指定的每一支进行检验的，也就是说，你指定了许多的branches，实质上和多次指定不同一个branch来多次运行，效果是一样的，而并非将这些branches视为一个整体去做检测
BUSTED(Branch-Site Unrestricted Statistical Test for Episodic Diversification)
通过测试一个基因是否在至少一个分支的至少一个位点上经历了正选择，BUSTED(分支位点无限制统计检验)提供了一个全基因(非位点特异性)正选择的测试。当运行BUSTED时，用户可以指定一组前景支来测试正选择(其余分支被指定为“背景”)，或者用户可以测试整个系统发生的正选择。在后一种情况下，整个树被有效地视为前景，正选择的检验考虑整个系统发育。这种方法对于相对较小的数据集(少于10个分类单元)特别有用，在这些数据集中，其他方法可能没有足够的功效来检测选择。这种方法不适用于确定有正选择的特定位点。
对于每个系统发育分区（前景和背景分支位点），BUSTED拟合了一个具有三个速率类的密码子模型，约束为ω1≤ω2≤1≤ω3 。与其他方法一样，BUSTED同时估计每个分区属于每个ω类的位点的比例。这种模型作为选择检验中的替代模型，被称为无约束模型。然后，BUSTED通过比较这个模型与前景分支上ω3=1（即不允许正选择）的空模型的拟合度来测试正选择。这个零模型也被称为约束模型。如果零假设被拒绝，那么就有证据表明，至少有一个位点在前景枝上至少有一部分时间经历了正选择。重要的是，一个显著的结果并不意味着该基因是在整个前景的正选择下进化的。
RELAX
RELAX是一种假设检验框架，它检测自然选择的强度是否沿着一组指定的测试分支被放松或加强。因此，RELAX不是明确检测正选择的合适方法。相反，RELAX在识别特定基因上自然选择严格程度的趋势和/或变化方面最有用。K>1表示选择强度加强，K<1表示选择压力放松。
RELAX需要一组指定的 "测试 "分支与第二组 "参考 "分支进行比较（注意，不必分配所有的分支，但测试集和参考集各需要一个分支）。RELAX首先对整个系统发育过程拟合一个具有三个ω类的密码子模型（空模型）。然后，RELAX通过引入作为选择强度参数的参数k（其中k≥0）作为推断ω值的指数：ωk来测试放松/强化选择。具体来说，RELAX固定推断的ω值（都是ωk<1,2,3>），并对测试分支推断出一个将比率修改为ωk<1,2,3>的k值（替代模型）。然后，RELAX进行似然比检验，比较替代模型和空模型。
用法来说，以我用的2.2.0版本为例子，（2.4.0直接用hyphy命令即可）
模型上来说：
如果你要检测类似paml中的M8位点模型，最好用FUBAR，如果是小数据，则用FEL，大数据并且分歧度不是很高用SLAC 。
如果你要检测某个前景支当中正选择位点，最好用MEME 。
如果你要检测单独的某个branch是否存在正选择，最好用aBSREL 。
如果你要检测一系列的branches的正选择，即检验你的这个基因，在指定的branches的任意一个位点是否在某段时间经历过正选择，则用BUSTED，BUSTED是不适合检测单独位点的正选择的。
如果你要检测选择压力的放松/加强，用RELAX 。
如果你要用蛋白序列来检测氨基酸位点正选择/定向选择，用FADE 。
最后再提一下，几乎所有模型(还有一些没常用的模型没有提到)都可以分为指定前景和不指定前景的模式运行，但不是都适合，就像官方说的那样，根据你的目的不同，会有最优选择，当然你也可以把某种模型都跑一遍，比如各种位点模型都走个流程，并且你也可以结合paml的模型，例如，对于检测Pervasive selection的位点模型，你可以结合paml的M8、M2a来分析。对于检测episodic selection的branch-site，你可以结合paml的branch-site modelA和BUSTED/aBSREL来比较分析。
以上的所有文字，都是笔者根据官方以及一些文献当中对于hyphy的使用总结、翻译，如有错误使用之处，还请各位多多指正。
pamlsmith中文叫什么牌子?... 你是说Poul Smith吗。。。要不就是某个山寨品牌。。。保罗·史密斯 (Paul Smith) 是来自英国的二线奢侈品牌，走的是英式幽默的绅士风格。当然和HERMES, LV, CHANEL等一线品牌不能比，不过我个人还是蛮喜欢它的设计，虽然它大部分的包都是中国造。。。。价格也比较亲民，走中低路线。
在精准医学时代为临床管理建立风险分层时考虑种族背景十分重要（IF14+）
发表期刊：Nat Commun
发表日期：2022 Mar 28
DOI:10.1038/s41467-022-29336-y
最近的研究表明，包括 AML 在内的儿童和成人癌症的基因组图谱存在显着差异。与成人相比，儿童 AML 在 MYC ITD 和 WT1 中往往表现出更高的突变频率，而在 DNMT3A 和 TP53 中的突变频率较低。同时有研究表明，不同的种族背景可能对疾病发展和进展的分子陵慎驱动因素产生深远影响。根据这一证据，值得注意的是，尽管综合基因组研究揭示了儿童 AML 的关键基因组异常，但这些观察结果主要基于西方人群患者的基因组分析，中国 AML 患者仍然缺乏基因组分析。
（1）骨髓样本取自 2001-2018 年在上海儿童医学中心 (SCMC) 血液肿瘤尺备敬科诊断为 AML 的 292 名患者。
（2）收集了10个具有匹配RNA seq和WGS数据的所有诊断样本
(1)转录组测序（RNA-seq）和分析、SNV与Indel分析
(2)驱动突变分析：PeCanPIE24和MutClan分析用于识别驱动突变；从St.Jude Cloud收集的983例儿童肿瘤中，共有6975733个已发表的体细胞突变用于构建突变簇背景，如果突变在PeCanPIE分析中被归类为gold或显著位于突变簇中，则该突变将被视为潜在的驱动因素
(3)RNA-seq检测驱动突变：10个具有匹配RNA seq和WGS数据的所有诊断样本；对RNA-seq数据进行SNV和INDEL分析；收集WGS检测到的SNV和INDEL作为基准。PeCanPIE应用于所有突变，本分析仅包括分类为金或银的突变。
(4)统计分析：相关性分析、生存分析、Cox回归分析
通过研究2001-2018年在上海儿童医学中心（SCMC）诊断和治疗的292名中国儿童AML患者，分析了基因组改变。中国人群的临床特征与西方人群的临床特征相当。然而，中国AML患者较年轻，中位年龄为5.3岁，而西方队列为10.6岁。患者接受AML-SCMC-2009-A和AML-SCMC-2009-B方案的预后无显著差异或在一段时间内接受治疗的患者之间无显著差异（图S1）。转录组测序（RNA-seq）应用于所有肿瘤样本，并分析序列突变和基因重排。
RNA-seq数据分析显示，292例患者中有200例（滚颤68.5%）发生224次重排，涉及97个基因（图1a）。与之前的报道一致，在中国AML患者中检测到的最常见融合包括RUNX1-RUNX1T1、KMT2A重排和NUP98重排。此外，在本研究队列的三名患者中发现了涉及XPO1基因的复发性帧内融合（图1b），包括XPO1-TNRC18融合和XPO1-MLLT10融合。值得注意的是，在另外两名最近在SCMC诊断的AML患者中也检测到XPO1-TNRC18融合。有趣的是，所有四个携带XPO1-TNRC18的病例都属于M7组，并且没有任何已知的AML驱动融合，支持这种融合是这些病例中AML的潜在驱动因素，并且在FAB组中定义了以前未分类的分子亚型。总体而言，XPO1-TNRC18病例占AML M7亚型的5.0%（队列中40例中有2例）。在目前的分析中，还发现了以前未观察到的其他基因重排，包括PTPRA-FUS、ZEB2-ATIC和MSI2-UBE3C 。
作者优化了变体调用和处理管道，以分析来自纯肿瘤RNA序列数据的潜在体细胞和癌症相关序列突变。首先为了评估这种方法的性能，将其应用于从之前发表的10例儿科ALL病例中收集的RNA-seq数据，还对每个病例的肿瘤和缓解样本的全基因组测序（WGS）数据进行了匹配。结果表明，对纯肿瘤RNA序列数据的分析成功地识别了WGS发现的85.7%的驱动突变（21例中的18例）。同时，RNA-seq分析检测到另外9种潜在的驱动突变，包括NRAS G13D和KRAS G13D等。在这9个突变中，有8个在之前的研究中使用基因组DNA被纳入捕获验证实验。在这8个突变中，有7个验证成功。值得注意的是，所有9个突变均为亚克隆，由于覆盖范围不足而在WGS分析中被遗漏。这些结果证明了从RNA-seq分析序列突变的能力，尤其是用于检测亚克隆变异。使用这种方法，作者接下来确定了总共975个影响305个基因的非同义序列突变。这些突变包括707个单核苷酸变异（SNV）和268个插入/缺失（indels），每个病例检测到的中位数为4个突变。通过应用组合策略进一步分析潜在的驱动突变，将PECANPI24的突变致病性分析与MutClan的突变聚类分析相结合，共鉴定出572个潜在的驱动因素变异，影响73个基因。此外，CICERO25检测到24个内部串联重复（ITD），影响FLT3和MYC 。总的来说，81.8%（n=239）的病例检测到了驱动序列突变，每个病例检测到三个驱动突变的中位数。
在之后的分析中只关注驱动突变。在这些驱动因素中，超过5%的患者有10个基因反复突变（图2a），包括FLT3、KIT、NRAS、KRAS、CEBPA、ASXL2、PTPN11、CSF3R、GATA2和JAK2 。值得注意的是，作者发现了儿童AML的驱动基因，包括LZTR1和SPOP，之前未发现与儿童AML相关联，以及ARID2 和 SH2B3 的功能缺失突变，据报道它们在其他儿科癌症（如 ALL）中具有致病性，但在 AML 中没有。尽管这些基因中的大多数基因的基因组突变先前已经在儿童AML中报道过，但与代表西方人群的TARGET AML研究相比，中国队列中的突变发生率有显著不同。在SCMC或TARGET队列中>4%的患者中，驱动基因内的21个基因或热点反复突变，其中10个（47.6%）显示出显著不同的突变频率（图2b、c）。其中4例在中国患者中显示出较高的突变频率，包括ASXL2、JAK2、CSF3R胞质结构域和KIT外显子17（KIT-E17) 。另一方面，中国患者的FLT3、FLT3 ITD、NRAS、WT1、NPM1和TET2突变频率较低。值得注意的是，中国和西方患者之间的不同突变频率主要由3-14岁的患者构成（图S4a）。此外，作者发现FLT3和NRAS突变在中国队列的年轻患者中更常见（图S4b）。
作者进一步整合了不同的变异类型以分析中国儿童AML的基因组图谱。除了上述融合和序列突变外，用RNA-seq分析发现CBL外显子8/9缺失。本研究队列中有12例（4.1%）发现了这种局部缺失，与TARGET队列相当。总的来说，在93个基因中发现的驱动突变被分为六条途径（图3a）。AML中最常见的突变途径是转录调节、表观遗传学和RAS信号传导。共有 50.7% 的患者检测到激活其他信号通路的突变，包括JAK-STAT等。值得注意的是，在中国患者中，RAS信号通路的突变频率显著降低，这与在RAS途径中观察到的单个基因的低突变频率一致。
接下来，作者研究了在中国AML患者中检测到的驱动基因突变的配对关系。共发现150对基因、突变热点或FAB组（排除融合伙伴或单个基因内不同结构域之间的配对后为143对）显著同时或完全突变（图3b）。通过这项分析，在建AML中立了的多个关联，包括CSF3R和KIT、ASXL2和KIT、DHX15和KIT、DNM2和JAK3等的共突变。对这些以前未曾描述过的关联的观察，只能部分解释为这些基因在中国 AML 患者中的突变频率较高，因为在不同人群中也发现了完全不同的突变关联。
生存分析显示驱动基因组畸变与患者预后相关（图4a）。CBFB-MYH11融合与预后良好相关，而NUP98-KDM5A/NSD1、FUS-ERG和CBFA2T2-GLIS2与预后不良相关。另一方面，作者注意到RUNX1-RUNX1T1融合和KMT2A重排患者的5年无事件生存率（EFS）相似。关于这些突变，发现CEBPA、NPM1和GATA2的突变与良好的预后相关，而RUNX1和FLT3、ITD的突变与较差的预后相关，这与之前在西方队列中的发现一致。携带上述驱动基因畸变的患者在中国和西方队列中的预后情况相似（图S6）。
除了这些先前建立的关联，还发现携带UBTF突变的患者与野生型相比预后更差（图S7a）。与单独携带FLT3变体的患者相比，携带FLT3变体并伴有UBTF突变、RUNX1突变或NUP98重排的患者的预后更差（图S7b-d）。另一方面，FLT3 ITD和NPM1突变的患者在当前的分析中显示出良好的结果（图S7e）。
研究中应用了单变量和多变量Cox回归分析。单变量Cox回归显示上述结果一致，而多变量Cox回归显示CBFA2T3-GLIS2、FUS-ERG、NUP98重排、FLT3 ITD和RUNX1突变与不良预后独立相关，而GATA2与良好预后独立相关。由于UBTF和CEBPA突变分别与FLT3 ITD和GATA2存在显著的共突变，因此不包括在多变量Cox回归模型中。此外，将上述五个与不良预后相关的基因组因素合并为高危基因型，以及CR1状态和GATA2，再次进行多变量Cox回归分析。结果显示，合并高危基因型是与不良预后显著相关的独立危险因素。
在本研究队列中，有78名患者至少有一项上述改变与良好或不良结果相关。接下来，作者检查了剩下的患者是否有任何其他与临床相关的改变，将重点放在那些缺乏任何畸变的患者身上，这些畸变与预后有着良好的关联。除上述78名患者外，还有24名患者因携带TP53或ASXL1突变、DEK-NUP214融合或确认的染色体异常而被进一步排除在外。发现，对于剩下的患者，第一周期诱导治疗后的治疗反应是与患者预后最显著相关的因素之一（图S8a）。在一个诱导周期（CR1）后未达到完全缓解的患者显示出不良结局，与携带与不良结局相关的基因组变异的患者相似（图S8b）。另一方面，虽然CR1患者的预后相对较好，但与携带与良好预后相关的变异的患者相比，这些患者的预后较差（图S8c），表明该CR1组中存在混合患者。
接下来，分析了129例CR1患者的每个融合亚型的基因组畸变与预后之间的关系，包括RUNX1-RUNX1T1，KMT2A重排，其他融合病例，融合阴性病例。发现CSF3R和KIT-E17的突变在RUNX1-RUNX1T1患者中与不良预后相关。CSF3R和KIT外显子17突变在RUNX1-RUNX1T1融合亚型中显著共同发生。事实上，与携带CSF3R和KIT外显子17突变的RUNX1-RUNX1T1融合亚型CR1患者相比，携带CSF3R和KIT外显子17突变的CR1患者的预后更差(图4b）。
接下来，作者根据本研究建立的临床相关性修改了欧洲白血病（ELN）遗传风险分类模型。提出的SCMC pAML模型（图5a）的特点是调整了几种基因畸变的风险分类。例如，FUS-ERG、CBFA2T3-GLIS2、NUP98-KDM5A和NUP98-NSD1被归为高风险组（HR），而KMT2A重排被归为中等风险组（IR）。重要的是，RUNX1-RUNX1T1融合的患者在之前的模型中与良好的预后相关，根据CR1状态和随后获得的突变（包括CSF3R和KIT-E17突变）进一步细分。与ELN模型相比，SCMC pAML模型识别出更多的HR患者和更少的低风险（LR）患者，以及相似数量的IR患者（图5b）。尽管两种模型分类的风险组在患者预后方面存在显著差异，但使用SCMC pAML分类的LR组和IR组显示出更有利的结果（图5c），5年EFS率分别为84.9%和74.5%，这些比率显著高采用ELN模型分层的LR组和IR组。另一方面，与ELNHR组相比，SCMC pAML HR组的预后更差，5年EFS发生率分别为18.2%和30.9%，无统计学差异。此外，在多变量cox模型中，将SCMC pAML模型分为HR组是一个独立的风险因素，SCMC pAML HR患者的不良事件风险显著增加。
研究展示了中国儿科AML驱动器改变的基因组景观，并发现了以前未描述的基因组畸变，包括 XPO1-TNRC18 融合。全面比较中国和西方AML队列，发现基因组改变特征明显。例如，中国AML患者在 KIT 和 CSF3R 中表现出突变，而RAS信号通路中的基因突变较少。同时提出了一种精细的预后风险分类模型，该模型更好地反映了中国AML患者的不良事件风险。本研究结果揭示了一个临床相关的突变谱，该谱在突变频率和突变共发生模式方面与西方队列不同。这些发现进一步阐明了儿童急性髓系白血病的复杂性，并强调了在精确医学时代为临床管理建立风险分层时考虑种族背景的重要性。
生信分析软件介绍ParaAT
网址：https://ngdc.cncb.ac.cn/tools/paraat
ParaAT(Parallel Alignment and back-Translation, is a parallel tool that parallelly constructs protein-coding DNA alignments for a large number of homologs. ParaAT is well suited for large-scale data analysis in the high-throughput era, providing good scalability and exhibiting high parallel efficiency for computationally demanding tasks.
The resulting alignments can be outputted into different formats, including fasta, axt (forKaKs_Calculator ), paml (for PAML), codon and clustal. Documentation and usage information can be foundhere .
一个批量比对软件
2019-07-06
Ka/Ks
【2019-07-06 paml软件安装】 在遗传念岁学中，Ka/Ks或者dN/dS表示的是异意替换（Ka）和同意替换（Ks）之间的比例。这个比例可以判断是否有选择压力作用于这个蛋白质编码基因。
不导致氨基酸改变的核苷酸变异我们称为同义突变，反之则称为非同义突变。培乎一般认为，同义突变不受自然选择，而非同义突变则受到自然选择作用配高悉。在进化分析中，了解同义突变和非同义突变发生的速率是很有意义的。常用的参数有以下几种：同义突变频率(Ks)、非同义突变频率(Ka)、非同义突变率与同义突变率的比值(Ka/Ks) 。如果Ka/Ks>1，则认为有正选择效应。如果Ka/Ks=1，则认为存在中性选择。如果Ka/Ks<1，则认为有纯化选择作用。
Ks = 同义突变SNP数/同义位点数
即同义突变率
Ka = 非同义突变SNP数/非同义位点数
即非同义突变率
同义突变SNP数= Σ同义SNP
非同义突变SNP数= Σ非同义SNP
同义位点数= Σ同义位点
非同义位点数= Σ非同义位点
uKa>>Ks或者Ka/Ks >> 1，基因受正选择(positive selection)
uKa＝Ks或者Ka/Ks ＝1，基因中性进化(neutral evolution)
uKa<<Ks或者Ka/Ks << 1，基因受纯化选择(purify selection)
检测序列的功能性（funcional or pseudo）
筛选正在快速进化的基因（rapid evolution）
Ks可以反映事件发生的时间（age）
分子进化领域常用软件
系统进化树构建软件列表：
Phylip
Clustalw
PAML－Codml
其他
选择压力ka/ks计算软件列表：
PAML－yn00
Kaks_calculator
K-estimator
其他
snp搜索软件列表：
polyphred
SNPdetector
BGI-Variation analysis
非同义替换率（氨基酸改变，dn）与同义替换率的（氨基酸不改变，ds）的比值（dn/ds）也经常被用于分化分析。dn/ds的比值为1表示所研究的基因在中性选择（neutral selection）下进化，小于0. 25意味着纯化选择（purifying selection）下进化，当比值大于1时则被认为进行正向选择（positive selection）下的进化(Hurst et al, 2002; Swanson et al 2003) 。
对于研究蛋白编码序列突变的一种简单而有效的分类方法是将替换分成同义
替换(Synonymous substitution) 和错义替换(Non-synonymous substitution) 。同义替换是指那些可以引
起所编码的氨基酸发生不改变的替换，一般认为这样的替换不会受到选择的压力或者受到的选择作用
比较小；非同义替换是指那些可以改变所编码的氨基酸的替换，这样的替换有时候会导致新的功能。
依据密码子的简并性(degeneracy)可以将核苷酸位点分成两类：同义替换位点(Synonymous site)和错
义替换位点(Non-synonymous site) 。同义替换率和错义替换率定义为：每代或者每年在每个可能的同
义（错义）位点上实际发生的同义（错义）替换数目（rS, rN）。然而由于对序列分化的时间不能确
定，因此同义替换率(Synonymous substitution, Ks 或 dS)和错义替换率(Non-synonymous substitutionrate, Ka 或dN)可以定义为：在两序列分化至今的 t 年里每个可能的同义（错义）位点上实际发生
的同义（错义）替换数目。因此有：Ka = 2rNt,Ks = 2rSt。通过比较错义替换率和同义替换率的相对
比值可以确定这个基因在进化中受到的选择压力。Ka, Ks 的之间的比值是已经为人们所接受和广泛
应用的表现进化动力的指标。
Similar to dn / ds ratios,
the rate of accumulation of non-synonymous polymorphism
(pN) scaled by the rate of synonymous polymorphism
(pS) provides a glimpse on the selective forces
driving the evolution of a protein-coding sequence.
Thus, genes with a high pN / pS (i.e. >1) ratio are likely
to be evolving under the influence of positive selection
paml中文翻译
没有这个字，只有paramecium这个字，意思是草履虫。
草履虫是一种身体很小，圆筒形的原生动物，它只有一个细胞构成，是单细胞动物，雌雄同体。最常见的是尾草履虫。体长只有180—280微米。它和变形虫的寿命最短，以小时来计算，寿命时间为一昼夜左右。因为它身体形状从平面角度看上去像一只倒放的草鞋底而叫做草履虫。
草履虫Paramecium是纤毛纲的代表种，也是原生动物的代表种。草履虫生活在淡水中，一般池沼，小河中都可采到。世界已知22种，常见有大草履虫（长180～300微米）、双小核草履虫（长80～170微米，伸缩泡2个，有两个小核，很小）、多小核草履虫（长180～310微米，有时有3个伸缩泡，小核泡型，有3～12个）、绿草履虫（体长80～150微米，细胞质内有绿藻共生，在见光处培养后通体呈绿色，小核1个，致密型）、大草履虫是最常见者。
草履虫一般呈长圆筒形，前端钝圆，后端宽而略尖，形状似倒置的草鞋，因此得名。草履虫全身长满纵行排列的纤毛，纤毛和鞭毛的结构基本相同。虫体的表面为表膜，由3层膜组成，起到缓冲和保护作用，里面的细胞质分化为内质与外质。每一根纤毛从位于表膜下的一个基体发出来，整个表膜下的基体由纵横连接的小纤维连接成网，起到协调纤毛活动的作用。
表膜下的外质中有一排小杆状的囊泡结构，与表膜垂直排列，叫做刺丝泡，开口于表膜上，当虫体遇到刺激时，刺丝泡射出其内容物，遇水形成细丝。如用5%亚甲基蓝、稀醋酸或墨水刺激时，可见放出刺丝。一般认为刺丝泡具有防卫和捕食的作用。
一种身体很小、圆筒形的原生动物。最常见的是尾草履虫，体长只有80～300微米。因为它身体形状从平面角度看上去像一只倒放的草鞋底而叫做草履虫。草履虫全身由一个细胞组成，身体表面包着一层膜，膜上密密地长着许多纤毛，靠纤毛的划动在水里运动。它身体的一侧有一条凹入的小沟，叫“口沟”，相当于草履虫的“嘴巴” 。口沟内的密长的纤毛摆动时，能把水里的细菌和有机碎屑作为食物摆进口沟，再进入草履虫体内，供其慢慢消化吸收。残渣由一个叫肛门点的小孔排出。草履虫靠身体的外膜吸收水里的氧气，排出二氧化碳。常见的草履虫具有两个细胞核：大核主要对营养代谢起重要作用，小核主要与生殖作用有关。
草履虫营吞噬营养，有较复杂的消化细胞器。由虫体近前端开始有一条口沟，斜着伸向身体中部，口沟末端的与表膜相连处形成胞口，下面连着漏斗形的胞咽。食物(如细菌、小的生物和腐烂的有机物等)通过口沟处纤毛摆动而进入胞口，在胞咽下端积聚成下泡，被细胞质包裹而胀大，形成食物泡，在固定的路径中流动，与溶酶体融合后进行消化。最后不能消化的残渣由身体后部的胞肛排出虫体外。
在内、外质之间有2个伸缩泡，一个在体前部，一个在体后部。每个伸缩泡向周围细胞质伸出放射排列的收集管，这些收集管端部与内质网的小管相通。在伸缩泡主泡和收集管上有由一束微管组成的收缩丝，内质网收集的水分以及代谢废物通过收缩丝的收缩而进入收集管，注入伸缩泡，从表膜小孔(排泄孔)排出虫体外。前后2个伸缩泡交替收缩，维持其体内水分平衡。可见，伸缩泡的功能是调节渗透压和排泄。
草履虫的生殖可分为无性生殖和有性生殖。无性生殖为横二分裂，小核先进行有丝分裂，大核再进行无丝分裂，然后细胞质一分为二，最后虫体从中部横断，成为2个新个体。有性生殖为接合生殖，2个草履虫口沟对口沟粘合在一起，粘合处细胞膜溶解，两个虫体的细胞质相通，小核离开大核，分裂2次形成4个核，其中3个解体，剩下的1个小核又分裂成大小不等的2个核，大核逐渐消失。然后两虫体互换其新小核，并与对方较大核融合，这一过程相当于受精作用。此后两虫体分开，接合核分裂3次成为8个核，4个变为大核，其余4核有3个解体，剩下1核分裂为2小核，再分裂为4小核，每个虫体也分裂2次，结果原接合的两亲本虫体各形成4个草履虫，新形成的8个草履虫都有一大核，一小核。
元音字母e在重读开音节里发长元音/i/的音，发音时，舌端靠近下齿，舌前部抬得很高，但不接触上颚，不发生任何摩擦，牙床接近合，唇形扁平，这个音出现在字首、字中和字尾的位置，如：
even 偶数的
meter 米
fever 发烧
zebra 斑马
he 他（主格）
we 我们（主格）
me 我（宾格）
be 是
希望我能帮助你解疑释惑。
关于PAML和paml软件安装的内容就分享到这儿！更多实用知识经验，尽在 www.hubeilong.com