bioinformatics

基于SNP进行主成分分析PCA

简介 主成分分析(PCA)是一种线性降维方法,通过线性变换简化数据集,提取关键信息对数据进行区分。群体重测序项目往往能得到百万乃至千万级别的SNP,基于SNP进行PCA的软件有很多,主流是下面三种:

使用SNPhylo基于SNP构建群体系统发育树

简介 系统发育树是一种推断各种生物之间进化关系的好方法,在进化研究中得到了广泛的应用,得益于测序技术的发展以及成本的不断下降,大量的物种以及群体被测序,产生了海量的基因型数据,在重测序项目中,基于SNP数据进行系统发育树的构建有利于更全面地囊括整个基因组层面的变异进行分析。 SNPhylo是基于SNP数据构建群体系统发育树的一个pipeline,可以接受主流的VCF文件以及HapMap文件,同时其内置了过滤功能,通过对低质量的SNP,连锁不平衡进行过滤,生成用于构建群体系统发育树的输入数据,SNPhylo会调用muscle进行对序列比对,DNAML构树,具体流程如下:

CD-HIT:序列聚类去冗余

简介 CD-HIT通过序列聚类以降低序列冗余性,提高后续分析效率。其 文档写得非常详细,非常容易上手。

利用EMMAX进行GWAS分析

文件准备 利用EMMAX进行GWAS分析需要以下文件

全基因组加倍及串联重复基因

串联重复基因是植物基因组中一类具有功能的串联重复序列,在植物基因组进化和环境适应的过程中起着十分重要的作用。串联重复基因主要是由串联重复事件产生的。在植物基因组中,串联重复事件的发生频率比较高,为植物基因组带来了基因拷贝数的增加以及等位基因变异。串联重复事件伴随着拟南芥和芸薹属物种的整个进化过程,而且芸薹属物种的多倍化事件并没有影响串联重复事件的发生。

跨物种单拷贝直系同源基因

同源(Homology) 同源(Homology) 的概念是这样定义的: Homology:the existence of shared abcestry between a pair of strctures,or genes, in different species 如果两个或多个结构具有相同的祖先,也就是它们由一个共同祖先演化而来,则称它们同源(Homology) 在生物信息学中,同源主要指的是序列上的同源,即用来说明两个或多个蛋白质氨基酸序列或者DNA序列具有共同的祖先。同源的序列一般具有相似的功能,序列中同源的部分也称为保守的(conserved)

植物转录因子WRKY

WRKY结构特点 WRKY转录因子家族具有相同的结构特征,N端都有包含WRKYGQK七肽序列的WRKY结构域,C端则含有C2H2-或C2HC-锌指结构,二者是WRKY特异性与启动子中W-box序列(C/T)TGAC(T/C)结合必不可少的组件。根据这些特点,WRKY可以分为三个亚家族:第Ⅰ亚家族含有两个WRKY结构域和两个C2H2锌指结构,第Ⅱ亚家族含有一个WRKY结构域和一个C2H2锌指结构,第Ⅲ亚家族含有一个WRKY结构域和一个C2HC锌指结构。第Ⅱ亚家族又被分为Ⅱa,Ⅱb,Ⅱc,Ⅱd和Ⅱe五个小亚族。

油菜形成、进化及基因家族概况

起源 十字花科祖先于2400-4000万年前出现,然后拟南芥与芸薹属在1200-2000万年前分化,之后不久芸薹属经历了特有的基因组三倍化,而后又经历了大规模的基因丢失、基因获得和包括部分复制和部分丢失的染色体重排。芸薹属两个重要的二倍体基本种白菜油菜(AA,2n=20)与甘蓝(CC,2n=18)于460万年前分化。甘蓝型油菜是由白菜型油菜和甘蓝通过种间自然杂交后又经染色体加倍而形成的一个异源四倍体。因此甘蓝型油菜基因组中通常会含有2个或2个以上的重复基因序列。

油菜形成、进化及基因家族概况(三)

同源基因 同源基因包括直系同源基因(Orthologs)和旁系同源基因(Paralogs)。 直系同源基因 直系同源基因是指分布于两种或两种以上物种的基因组中,在进化上起源于一个祖先基因并垂直传递的同源基因,直系同源基因之间的功能高度保守,有些近乎相同。 旁系同源基因 旁系同源基因是指同一基因组(或同系物种的基因组)中,由于祖先基因的基因复制产生的同源基因。旁系同源基因尽管在结构上具有一定程度的相似性,但是他们的功能可能相似,也可能并不相似,甚至失去功能变成了假基因。

油菜形成、进化及基因家族概况(二)

基因家族 由一个共同的祖先基因经过重复(duplication)和突变(mutation)产生的、外显子中具有相似的序列的一组相关基因称为基因家族(gene family)。基因重复主要有三种形式:片段复制、串联重复和逆转录转座或其它转座事件等,基因重复后可以彼此形成基因簇(gene clusters),同一家族中的成员有时紧密排列在一起成为一个基因簇;更多时候他们却分散在同一染色体的不同部位,甚至位于不同染色体上,具有不同的表达调控模式。