生物信息学学习笔记(五)
全基因组水平的连锁不平衡(LD)和遗传结构分析
当r2=0.1时,A亚基因组的衰退距离为0.35-0.4Mb,而C亚基因组的衰退距离为3.5-4Mb,说明甘蓝型油菜A亚基因组发生了更多的重组,使得衰退距离显著小于C亚基因组。重组的发生会打破LD,将那些容易发生重组,LD相对较低的区域称为LD热点,反之称为LD冷点。通过全基因水平的LD热点和冷点研究发现,78.16%的LD热点分布在A亚基因组而72.59%的LD冷点分布在C亚基因组。另外LD热点区间的基因密度是冷点区间的2倍多,GC含量也多于冷点区间,但是冷点区间内含有更多的转座子,这和LD反映的结果一致,说明了甘蓝型油菜A亚基因组的遗传变异更加丰富。
关联分析的基础——连锁不平衡
生物在进化过程中,对于某一特定基因座,在自然和人工选择、重组与突变、遗传漂变、群体扩张和瓶颈效应等因素的影响下,某一“有利”变异(或等位基因)在正向选择的过程中被保留下来,与该基因座紧密连锁的两侧一定范围内的序列也会随着该“有利”等位基因的固定而被大量保留下来,从而使其遗传多样性大大降低,遗传学上将这种个别基因的正向选择致使其侧翼遗传多样性降低的现象称为选择牵连效应或者选择性消除。由于基因座间的选择牵连效应,使群体内个体在不同位点、基因间发生非随机性关联,即连锁不平衡,又称等位基因关联。它包括染色体内和染色体间的连锁不平衡,前者是关联分析的基础,具体指当位于同一染色体的两对等位基因同时存在的概率大于群体内因随机分布而同时出现的概率时,就称这两个位点处于LD状态。 连锁不平衡并不等同于遗传连锁,它们之间相辅相成,连锁不平衡是指在两个或者多个位点上的非随机关联性,这些位点既可能在同一条染色体上,也可以在不同染色体上,只要两个位点同时出现的概率大于群体随机组合的概率就说明这两个位点处于连锁不平衡状态,而遗传连锁主要考虑的是重组率,连锁的基因在染色体上的位点相距越远,他们之间发生交换的几率就越大,重组率就越高,连锁就越弱。当然两个位点处于完全连锁状态其等位基因间也存在较强的连锁不平衡。
LD的原理及度量
LD的统计是实际观测到的单倍型的频率与随机分离时期单倍型的频率之间的差异(D)。LD的度量一般是对D进行归一化后,用LD系数D’和r2进行检验,其中D'(AB)=D(AB)/(fA*fB),r2(AB)=D2(AB)/(fA*fa*fB*fb),这里D’和r2的变化范围都是从0到1。LD反映样本的重组史,敏感度更高,适合小样本的研究,而r2除了能反映样本的重组史还能反映突变史,所以r2更能客观地反映不同基因间的连锁不平衡关系
LD的影响因素
LD是由突变或重组造成的,在染色体某一SNP附近有新的突变发生时则LD出现。LD强度与2个SNP间的距离有关,距离越小则发生重组的机会越小,LD就越强。所以LD重度与重组率和突变率均呈反比;另外遗传漂变(群体较小,导致群体中基因频率随机波动的现象)和奠基者效应(是一种剧烈的漂变,指一个小群体从一个大群体中分离出来并逐渐发展壮大的现象)都会增强LD,基因突变可导致野生等位基因之间LD水平的降低,也可导致突变等位基因之间LD水平的提高。 LD的衰减指位点之间由连锁不平衡到连锁平衡的演变过程,能够很好的反映LD程度。自花授粉植物的重组率要普遍低于异花授粉植物,所以异花授粉植物的LD衰减距离就要大些,常染色质组成的着丝粒区域的LD的衰减速度快于由异染色质组成的各个染色体臂,基因富集的区域的LD衰减比较快。
- 植物中影响LD的因素
因素 | 对LD的影响 |
---|---|
授粉方式 | 自交植物有效重组数少于异交植物,LD衰减慢 |
染色体位置 | 异染色质区交换少于常染色质区,LD衰减慢 |
基因区 | 基因富集区,LD衰减快 |
瓶颈效应 | 有效群体数目减少,增加LD |
遗传漂变 | 增加LD |
奠基者效应 | 增加LD |
群体分化 | 增加LD |
群体大小 | 小群体,增加LD |
选择 | 增加受选择区段的LD |
突变 | 造成LD总体水平的降低,但新产生突变的染色体位置LD水平升高 |
基因转换 | 降低LD |
等位基因频率 | 最小等位基因频率增加,增加LD |