bioinformatics

生物信息学学习笔记(八)

WRKY转录因子是高等植物中10个最大的转录因子家族之一,其N-末端含有高度保守的WRKYGQK氨基酸序列。WRKY蛋白的N-端均含有1个或两个由近60个氨基酸组成的WRKY结构域,C-端均含有1个锌指结构,二者是WRKY特异性与启动子中W-box序列(C/T)TGAC(T/C)结合必不可少的组件,其中WRKY结构域中含有一段高度保守的WRKYGQK七肽序列(或者为WRKYGEK、WRKYGKK)。

生物信息学学习笔记(七)

Polycomb group(PcG)蛋白是一组通过染色质修饰调控靶基因的抑制子,从生化和功能上可以分为两个主要的核心蛋白复合体PRC1(Polycomb repressive complex 1)和PRC2(Polycomb repressive complex 2)。PcG蛋白家族是一类在进化上极为保守的转录抑制因子。 Pericentrometric区域是接近端粒的DNA序列,它们含有大量的重复片段即其进行拷贝的常染色质起源位置(euchromatic ancestral loci)非常相似的大量DNA序列,是基因组结构中迅速改变的区域。

生物信息学学习笔记(六)

Tajima’s D值检验 Tajima’s D值检验的目的是鉴定目标DNA序列在进化过程中是否遵循中性进化模型。当Tajima’s D显著大于0时,可用于推断瓶颈效应和平衡选择,当Tajima’s D显著小于0时,可用于推断群体规模放大和定向选择。由于平衡选择和定向选择均属于正选择的范畴,因此只要D值显著背离0,就可能是自然选择的结果,当D值不显著背离0时,中性假说则不能被排除。 连锁不平衡程度高的染色体可能是由于在现代育种和栽培过程中那些与重要农艺性状相关的QTLs或基因被人工或自然选择保留下来,进而使得这些染色体受到强选择增强了其LD程度。另外LD的衰减距离也决定了关联分析所需要的标记密度和作图精度,LD衰减越快关联分析所需要的标记就越多,作图精度也越高。

生物信息学学习笔记(五)

全基因组水平的连锁不平衡(LD)和遗传结构分析 当r2=0.1时,A亚基因组的衰退距离为0.35-0.4Mb,而C亚基因组的衰退距离为3.5-4Mb,说明甘蓝型油菜A亚基因组发生了更多的重组,使得衰退距离显著小于C亚基因组。重组的发生会打破LD,将那些容易发生重组,LD相对较低的区域称为LD热点,反之称为LD冷点。通过全基因水平的LD热点和冷点研究发现,78.16%的LD热点分布在A亚基因组而72.59%的LD冷点分布在C亚基因组。另外LD热点区间的基因密度是冷点区间的2倍多,GC含量也多于冷点区间,但是冷点区间内含有更多的转座子,这和LD反映的结果一致,说明了甘蓝型油菜A亚基因组的遗传变异更加丰富。

生物信息学学习笔记(四)

最近看了华中农业大学张献龙老师发在Nature Genetics上的文章 Asymmetric subgenome selection and cis-regulatory divergence during cotton domestication以及第一作者王茂军博士的博士毕业论文,十分精彩,故学习之并做适当笔记。

生物信息学学习笔记(三)

CpG位点(CpG sites,CG位点):指DNA的某个区域,其上的碱基序列以胞嘧啶接着鸟嘌呤出现。CpG是“—C—磷酸—G—”的缩写,指磷酸二脂键连接了胞嘧啶和鸟嘌呤,其中C位于5’端而G位于3’端。在CpG位点中的胞嘧啶可以被甲基化为5-甲基胞嘧啶,基因内CpG位点的甲基化会改变基因的表达

生物信息学学习笔记(二)

Hi-C 拓扑相关结构域(TAD)是基因组上空间上分隔的一些DNA序列,TAD平均长度在1M左右,其中包含一个或数个基因以及基因的调控元件——增强子(enhancer)。增强子不仅控制基因的表达时间还控制基因在不同细胞中的选择性表达。TAD由边界原件(boundary elements,也称为绝缘子)相互隔离,因此TAD内部的基因活性独立于其它TAD

生物信息学学习笔记(一)

生物信息学学习笔记主要是我平常看文献以及一些资料时总结的一些东西,相对来说有点杂,所以我专门开辟出一个新的系列,以便后面可以持续更新。