MSCquartets是一个用于不完全谱系分类及其网络模拟的多物种凝聚模型下的物种树假设检验、物种树推理和物种网络推理的R软件包。
使用示例:
还有两种依据四分统计建树的方法,估计大家不会用,这里就不展示了。
相关理论我自己实际上只弄懂了些皮毛,公式超过一行就看不懂,个人理解可能有偏差。
先说几点使用时比较重要的注意事项吧:
省略过于复杂和我没弄明白的部分,简单讲一下背景和这个软件工作流程的几步都是干些啥的。
非冲突模型,俗称串联建树,忽视所用造成冲突的原因,遗传距离单纯由突变积累决定。
Multispecies Coalescent(MSC)模型,俗称并联建树,是不完全谱系分选(incomplete lineage sorting,ILS)的标准概率模型,模型认为在一段时间内基因可以在不同谱系间转换。
Network MSC(NMSC)模型是以上的推广,允许中群间存在有限数量的杂交事件或其他离散的水平基因转移事件,在网络上的一个杂交节点上,一个基因的谱系可以追溯到两个祖先节点(群体)中的任何一个,杂交参数标记为 γ。
NMSC是现在用于解释基因树冲突的常用模型。
似然比统计量常用于将假设检验,很多情况下是接近于卡方分布的,但在物种树构建中常发现在边界或奇点邻近会不连续跳跃到不同的分布上去(多个卡方分布混合或更复杂分布模型)
MSCquartets中构建了一个新的分布模型框架,概率分布对应为
t为内部枝长,枝长越短qcCF为(1/3,1/3,1/3)的期望更高,也就是支持多分支的概率更高。枝长趋近无限时,则等同于非冲突模式,期望分布在顶点上。
MSCquartets绘制的在三角形中的点图是一个观测的概率分布图,然后通过两步的假设检验来赋予某个范围内点代表的含义。当给定了物种数量(tip数)时,点的个数(就是排列组合的四分数量)就固定了。根据卡方分布的特性,增加基因树的数量能减少误差。
首先是统计四分的三个拓扑的数量来确定点的位置。
RQT这一步是将拓扑不确定的四分平均分配到三个方向上,举个例子:有90个基因树,其中30个支持主拓扑,另外60个是ploytomies,这样这个四分的qcCF就为(5/9,2/9,2/9)。
接着进行两步的假设检验。
第一步,零假设为qcCF由星状四分(4-taxon star-tree)得来的。star-tree的理论qcCF为(1/3,1/3,1/3),通过计算三个拓扑的似然比统计量来执行检验,使用具有两个自由度的卡方分布来计算p值。当 p<β 时拒绝星状树,β越大约不容易解释为星状。β>0时,当数据量趋于无穷大时,测试总是拒绝星状树的概率也趋近于1。在对基因树的分辨率和鲁棒性有信心的情况,β值不适合设置太高去拒绝星状树。这里的p值大致应该等同于astral里 t10 参数计算的统计p值,检测的阈值就算是按照卡方统计经验也应当设置在0.05,而不应当高至0.95。
第二步,零假设为qcCF由树状四分(resolved-tree)得来的。在NMSC模型下,拒绝零假设相当于接受四分为4-cycle。使用具一个自由度的卡方分布获取统计量的p值(resolved-tree的渐进分布,T1模式的话就是物种树的渐进分布)。软件作者认为“将α设置的相当小是合理的,这增大了杂交推断的门槛,α ≈ 3 × 10−6 或者更小对于避免拒绝所有MSC的零假设来说是必要的”,根据现有的引用文献中的数据来看,对于几百个基因树的体量1 × 10−6 确实是比较合理的设置。
NANUQ绘制网状图简单来说就是将上述流程推断得到的4-cycle表现成1-level网状图形。
TINNIK绘制的blob树图,个人理解就是把star和4-cycle坍塌成点,没深入去了解过。类群关系比较复杂的不建议使用这个功能去画辐射太阳。
使用方面应该不会出太多问题,原理方面有能力的话还是看看原始文献吧,我暂时无能为力。
参考:
Allman, E. S., Baños, H., & Rhodes, J. A. (2019). NANUQ: a method for inferring species networks from gene trees under the coalescent model. Algorithms for Molecular Biology, 14(1). https://doi.org/10.1186/s13015-019-0159-2
Allman, E. S., Baños, H., Mitchell, J. D., & Rhodes, J. A. (2022). The tree of blobs of a species network: identifiability under the coalescent. Journal of Mathematical Biology, 86(1). https://doi.org/10.1007/s00285-022-01838-9
Allman, E. S., Mitchell, J. D., Rhodes, J. A., & Thomson, R. (2022). Gene Tree Discord, Simplex Plots, and Statistical Tests under the Coalescent. Systematic Biology, 71(4), 929-942. https://doi.org/10.1093/sysbio/syab008
Elizabeth, S. A., Hector, B., Jonathan, D. M., & John, A. R. (2024). TINNiK: Inference of the Tree of Blobs of a Species Network Under the Coalescent. bioRxiv, 2024.2004.2020.. https://doi.org/10.1101/2024.04.20.
Mitchell, J. D., Allman, E. S., & Rhodes, J. A. (2019). Hypothesis testing near singularities and boundaries. Electronic Journal of Statistics, 13(1). https://doi.org/10.1214/19-ejs1576
Sayyari, E., & Mirarab, S. (2018). Testing for Polytomies in Phylogenetic Species Trees Using Quartet Frequencies. Genes (Basel), 9(3). https://doi.org/10.3390/genes
数据解读(正面示例)和实际数据表现参考:
Zhou, Q.-J., Dai, J.-H., Lin, C.-W., Ng, W.-L., Van Do, T., Wai, J. S., Michelangeli, F. A., Reginato, M., Zhou, R.-C., & Liu, Y. (2022). Out of chaos: Phylogenomics of Asian Sonerileae. Molecular Phylogenetics and Evolution, 175. https://doi.org/10.1016/j.ympev.2022.
Wei, Z. R., Jiao, D., Wehenkel, C. A., Wei, X. X., & Wang, X. Q. (2024). Phylotranscriptomic and ecological analyses reveal the evolution and morphological adaptation of Abies. Journal of Integrative Plant Biology. https://doi.org/10.1111/jipb.13760
到此这篇traceparts零件库(traceparts零件库怎么用)的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就!版权声明:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符,请将相关资料发送至xkadmin@xkablog.com进行投诉反馈,一经查实,立即处理!
转载请注明出处,原文链接:https://www.xkablog.com/rfx/59010.html