生物信息学学习笔记(七)

mark

  • Polycomb group(PcG)蛋白是一组通过染色质修饰调控靶基因的抑制子,从生化和功能上可以分为两个主要的核心蛋白复合体PRC1(Polycomb repressive complex 1)和PRC2(Polycomb repressive complex 2)。PcG蛋白家族是一类在进化上极为保守的转录抑制因子。

  • Pericentrometric区域是接近端粒的DNA序列,它们含有大量的重复片段即其进行拷贝的常染色质起源位置(euchromatic ancestral loci)非常相似的大量DNA序列,是基因组结构中迅速改变的区域。

  • 曼哈顿图p值不是很大的位点从图上看要尽量压缩到下面,而p值显著的位点突出在上面才是一个好的曼哈顿图,不然数据质控有问题。QQ图只在尾巴上翘起,显示显著性位点,如果从开始就偏离了,数据质控就有问题了。

  • 基因组重测序中除了ACGT之外的其他字母含义:

    • R => AG
    • Y => CT
    • M => AC
    • K => GT
    • S => CG
    • W => AT
  • 关于GWAS数据过滤的问题(摘自微信公众号:解螺旋的矿工)

现在较难定义常规GWAS,现在的GWAS方向已经从基于芯片数据的关联分析往基因组重测序数据关联分析偏转。如果完全基于genotype进行关联分析,数据过滤通常包括:genotype missing rate < 90%,chi-square test of HWE > 1e-06,minor allele frequency > 0.01等,这个过程可以使用plink或者自己造轮子完成过滤。当然过滤的阈值与样本量及最终结果有关,一般需要个性化调试。功效更加大的做法是基于imputed genotype probability进行关联分析,此时需要在GWAS之前先做imputation,imputation过程会产生info score,过滤标准一般是info score > 0.4,chi-square test of HWE > 1e-06,minor allele frequency > 0.01等,当然有时也需要进行个性化调试。GWAS只要inflation控制的好(GC lambda接近1,控制的要素是covariates的设定来解决population stratification),不需要太关心过滤的问题,甚至可以不过滤直接画曼哈顿图看是否有关联信号。大多数情况过滤不是影响能否获得有生物学意义位点的关键因素。

  • QQ图可以用来估计我们GWAS所用的模型能够多大程度地显示群体结构和群体相关性。由于大部分的SNP与性状是不相关联的,因此大部分的点应该是落在对角线上,偏离对角线表明伪关联性,主要是由于群体结构以及群体之间的相关性导致的。我们期望得到的是对角线上方的偏离,这往往意味着这些SNP与我们所研究的性状是可能关联的。

  • 高水平的杂合率意味着低质量,在近交系snp中超过50%的杂合率说哦名数据是有问题的,不是很适合用来接下来的GWAS分析。

Researcher

I am a PhD student of Crop Genetics and Breeding at the Zhejiang University Crop Science Lab. My research interests covers a range of issues:Population Genetics Evolution and Ecotype Divergence Analysis of Oilseed Rape, Genome-wide Association Study (GWAS) of Agronomic Traits.

comments powered by Disqus