使用Treemix软件进行基因流分析简介
基因流的概念在群体遗传学上,基因流(也称基因迁移)是指从一个物种的一个种群向另一个种群引入新的遗传物质,从而改变群体“基因库”的组成。通过基因交流向群体中引入新的等位基因,是遗传变异一个非常重要的来源,影响群体遗传多样性,产生新的性状组合。
基因流是很多老师比较感兴趣的分析模块。它的输入数据是每个个体的SNP数据,可以是vcf文件,或者是由vcf文件转化得到的等位基因频率数据。这是重测序或简化基因组测序的主要结果。
我们有了软件,有了数据,跑一下软件就可以得到结果了。但是有的人可能会多想一步,就是为啥SNP数据中就蕴含了基因流动的证据呢?它是用什么思想来证明有基因流的存在呢?
小编也想搞清楚,然非数学科班出身的我,软件的原始文献is too difficult for me. 所以我只能解释个大概,请读者批评指正,共同进步。本文分两部分,解读结果(占30%)与展示分析流程(70%)。还是那句话,原理可能有点深奥,但是操作比较简单~
Treemix介绍与结果展示
Treemix软件使用全基因组的等位基因频率数据,推断多个群体的分化和混合的模式。该软件输入数据为多个群体的等位基因频率数据,可以生成这些群体的最大似然树,并且可以推测群体混合事件。软件的示例数据是全球几大洲人类种群的基因型频率数据,得到的结果如下所示:
http://i1.go2yd.com/image.php?url=0S7nnoLml6&zhiwu55.jpg
图 Treemix软件示例数据结果
A图,最大似然树。群体的颜色代表其地理位置,例如Han(汉族)分布于东亚。下方的比例尺展示了样品协方差矩阵中元素的10倍平均标准差。
B图,残差拟合热图。通过图A的最大似然树得到的残差拟合值。我们将每对群体(群体i和群体j)之间的残差协方差值除以所有样品对之间的平均标准差,使用这个标准化后的残差绘制该图。右侧为颜色标尺。白色以上的残差表示对应群体之间的关系比最大似然树上的关系更紧密,暗示这些群体之间有混杂事件。
从上图可以看出,非洲人与欧洲人最先开始分化,然后欧洲人与亚洲人开始分化,再然后是东亚人与美洲人分化。非洲的Yoruba人向欧洲的Mozabite人有基因流动。
Treemix基本原理
可以用三句话概括基本原理。
1)使用基因频率数据可以计算出每对群体之间的协方差,这是实际的协方差(Real value);
2)使用基因型频率数据可以构建最大似然树,利用两个种群在树上的关系,可以计算出协方差的估计值(Estimated value);
3)通过实际值与估计值之间的差的大小,判断两个种群之间是否发生基因流,即如果实际值小于估计值很多时,则说明我们构建出来的树夸大了种群之间的差异,则说明种群之间有基因交流,因为基因流会减少种群之间的差异。
Treemix流程解析
Treemix的说明书有6页,比较短,对用法的介绍简洁明了。所以为了更好地理解每一步的目的,在运行脚本前,建议通读说明书。
Treemix流程主要有三个输入文件和一个参数。
1)存储每个个体基因型的vcf文件;
2)每个个体隶属于哪个群体的分组文件;
3)分组的排序文件。
前两个文件是构建进化树所必须的。第三个文件规定了热图中的分组顺序。主要参数是指定预估可能有几次基因流事件。比如根据经验推测可能有两次基因流事件,则-m参数设置为2。
· 输入文件
1. vcf文件,存储每个个体基因型的vcf文件
http://i1.go2yd.com/image.php?url=0S7nnoCdyg&zhiwu55.jpg
2. 分组信息文件,每个个体隶属于哪个群体
每行三列,前两列为样品名,第三列是组名
http://i1.go2yd.com/image.php?url=0S7nnotDVo&zhiwu55.jpg
3. 分组顺序文件,一行为一个分组
NP
NP-T1G00
T1G00-NP
T1G01
T2G00
· 参数
1. 最大缺失率,默认0.8
2. 去除连锁不平衡的SNP,默认R=0.6
· 输出文件
1. 树图片
2. 热图
3. 以及其他文本文档。
Treemix结果解释
· 图形文件
1. 无基因流动的进化树与热图
http://i1.go2yd.com/image.php?url=0S7nnoseLU&zhiwu55.jpg
由热图可以看出,NP与NP-TIG00群体之间,NP-T1G00与T1G01之间的颜色对应的数值在0以上,所以推测有两次基因流动。
2. 有一次基因流动的进化树与热图
http://i1.go2yd.com/image.php?url=0S7nnoFsv0&zhiwu55.jpg
可见,进化树上添加一条从NP群体到NP-T1G00的箭头。在热图中,NP与NP-T1G00之间的颜色对应的数值与0更接近了,并且热图颜色标尺的最大值和最小值都比没有基因流动时的数值减小了。
3. 有两次基因流动的进化树与热图
http://i1.go2yd.com/image.php?url=0S7nnortcr&zhiwu55.jpg
热图上添加了两条箭头,分别从NP群体到NP-T1G00,T1G01群体到T1G00-NP。对应的热图标尺中,0SE为最上端的颜色,说明模型对实际群体之间的协方差拟合程度较好。
· 文本文件
1. Outstem.cov.gz: 从实际数据估计出的群体之间的协方差矩阵()
http://i1.go2yd.com/image.php?url=0S7nnoDQdT&zhiwu55.jpg
2. outstem.modelcov.gz:通过模型计算得到的协方差矩阵(W)
http://i1.go2yd.com/image.php?url=0S7nnoV4Pb&zhiwu55.jpg
3. outstem.treeout.gz :进化树结果,newick格式(((T1G01:0.00589363,T2G00:0.00205452):0.00366662,(NP:0.00591292,T1G00-NP:0):0.00266856):0,NP-T1G00:0);
4.out_stem.edges.gz:各支是否为基因流动的支,NOT_MIG表示非流动的支,MIG表示流动的支。
http://i1.go2yd.com/image.php?url=0S7nnoGghk&zhiwu55.jpg
本次解读就到这里,关于软件的其他功能和解释,欢迎与小编交流!
1. Pickrell JK, Pritchard JK. Inference of population splits and mixtures from genome-wide allele frequency data. PLoS Genet. 2012;8(11):e1002967. doi: 10.1371/journal.pgen.1002967. Epub 2012 Nov 15. PMID: 23166502; PMCID: PMC3499260.
2. http://speciationgenomics.github.io/Treemix/
3. http://bitbucket.org/nygcresearch/treemix/wiki/Home 楼下的不要小看我,我可不是吃素的。 不觉名利。。。。。 不错,顶一个! 我就是路过,拿积分走人!!
页:
[1]