SNPs

基于SNP进行主成分分析PCA

简介 主成分分析(PCA)是一种线性降维方法,通过线性变换简化数据集,提取关键信息对数据进行区分。群体重测序项目往往能得到百万乃至千万级别的SNP,基于SNP进行PCA的软件有很多,主流是下面三种:

使用SNPhylo基于SNP构建群体系统发育树

简介 系统发育树是一种推断各种生物之间进化关系的好方法,在进化研究中得到了广泛的应用,得益于测序技术的发展以及成本的不断下降,大量的物种以及群体被测序,产生了海量的基因型数据,在重测序项目中,基于SNP数据进行系统发育树的构建有利于更全面地囊括整个基因组层面的变异进行分析。 SNPhylo是基于SNP数据构建群体系统发育树的一个pipeline,可以接受主流的VCF文件以及HapMap文件,同时其内置了过滤功能,通过对低质量的SNP,连锁不平衡进行过滤,生成用于构建群体系统发育树的输入数据,SNPhylo会调用muscle进行对序列比对,DNAML构树,具体流程如下: