油菜形成、进化及基因家族概况
起源
十字花科祖先于2400-4000万年前出现,然后拟南芥与芸薹属在1200-2000万年前分化,之后不久芸薹属经历了特有的基因组三倍化,而后又经历了大规模的基因丢失、基因获得和包括部分复制和部分丢失的染色体重排。芸薹属两个重要的二倍体基本种白菜油菜(AA,2n=20)与甘蓝(CC,2n=18)于460万年前分化。甘蓝型油菜是由白菜型油菜和甘蓝通过种间自然杂交后又经染色体加倍而形成的一个异源四倍体。因此甘蓝型油菜基因组中通常会含有2个或2个以上的重复基因序列。
转录因子
在植物生长发育过程中,植物体需要对各种功能相关基因表达进行精确调控,从而对不同环境、组织和发育信号等作出相应的调节反应,其中转录因子在基因的表达调控中起着关键性作用。大部分真核生物中基因的表达很大程度上为转录水平的调控,这一调控是由多个不同蛋白质族群间的相互协调来达到,这些蛋白统称为转录因子,一般来说可以识别它们所调控的基因的启动子区域内特定的DNA序列的蛋白。通过蛋白之间的相互作用,转录因子调节RNA聚合酶Ⅱ的激活以及mRNA的合成。
转录因子结构
转录因子一般由4个功能区域组成:DNA结合域、转录调控区、寡聚化位点以及核定位信号。转录因子通过这些功能区域进入细胞核,与启动子中的顺式作用元件或其它转录因子的功能区域相互作用来调控基因转录表达。DNA结合域是指转录因子中能够识别并结合DNA顺式作用元件的一段氨基酸序列。同类型转录因子中DNA结合域的氨基酸序列是比较保守的,这决定了转录因子与顺式作用元件间识别与结合的特异性。转录调控区包括转录激活区以及转录抑制区,这一区域决定了同类转录因子间的差异,使之具有不同的功能。核定位信号控制转录因子进入细胞核的过程,该区域富含精氨酸和赖氨酸残基。寡聚化位点具有很保守的氨基酸序列,它是不同转录因子借以发生相互作用的功能域,形成同源或异源二聚体。 转录因子基因结构可以通过**Gene Structure Display Server 2.0(GSDS2.0)**进行分析。
串联复制
如果两个基因中间间隔有不多于5个基因且属于同一个基因家族,那么这两个基因称为串联复制。用MCScanX中的mcscanx
对拟南芥基因组和甘蓝型油菜基因组分别做共线性分析,若一个基因与另一个基因有共线性关系,其周围有两对以上基因都是共线性关系,则这两个基因为部分复制。另外利用MCScanX中的add ka and ks to collinearity
模块计算共线性关系基因对的Ks(同义替换)值,再利用T=Ks/2λ来推测部分复制发生的时间,对于十字花科而言,λ为1.5*10-8。
转录因子理化性质
在ExPASy中对拟南芥和推测出来的甘蓝型油菜基因家族成员的氨基酸序列进行分析,获得它们的理论等电点(pIs)以及蛋白质的相对分子量(Mw)。
多倍化
多倍化是物种进化的重要动力,多数高等植物在进化过程中都经历了不同水平的多倍化。十字花科物种都经历了三倍化。拟南芥与白菜分化自同一祖先物种。大约20-40M,拟南芥与白菜的共同祖先发生了一次基因组水平上的复制事件,称为α事件。芸薹属物种在此后又经历了一次基因组水平三倍化事件。在5-9M,甘蓝与白菜的共同祖先经历了一次基因组水平三倍化,白菜与甘蓝分化时间大约在4M。相较于拟南芥,甘蓝和白菜各发生了一次基因组复制。甘蓝型油菜大约在7500~12500年前由白菜和甘蓝天然杂交形成。物种的进化实质是基因的进化,多倍体事件是基因家族扩张的主要动力,在多倍化之后,基因数目呈倍数增长。
进化分析
基因家族聚类
同源的蛋白质可以分为直系同源与旁系同源,当同源是基因复制的结果,两份拷贝在一个物种的历史上是平行演化的,这样的基因被称为旁系同源基因。当同源是物种形成的结果,基因的历史反映了物种的历史,被称为直系同源;直系同源是不同物种内的同源序列,它们是来自于物种形成时的共同祖先基因,通常认为直系同源基因具有相似的生物学功能。
假基因
对不能转录或转录后生成无功能蛋白质的基因。假基因在及基因组中形成稳定的和无活性的拷贝,由活化的原始基因突变而来(复制突变或者加工型假基因)。这是因为存在着在某个阶段伤及基因表达的一种或多种缺陷(如启动子错误、有缺陷的剪接信号、框架中有终止信号等)之故。