Posts

机器学习概念及算法类型

mark

机器学习

机器学习是什么?Arthur Samuel在1959年将机器学习定义为在特定编程的情况下,给予计算机学习能力的领域。他编写了一个西洋棋程序让计算机自己不断下棋进而进行学习,最后棋艺大涨,远远超过了Samuel自己的水平。 来自卡内基梅隆大学的Tom Mitchell在1998年将机器学习定义为:一个程序被认为能够从经验E中学习,解决了任务T,达到性能度量值P,当且仅当有了经验E后经过P评判,程序在处理T时的性能有所提升。E也就是计算机自己不断学习,学会了如何解决问题T,并且达到了一定的成功率P。

生物信息学学习笔记(六)

mark

Tajima’s D值检验

Tajima’s D值检验的目的是鉴定目标DNA序列在进化过程中是否遵循中性进化模型。当Tajima’s D显著大于0时,可用于推断瓶颈效应和平衡选择,当Tajima’s D显著小于0时,可用于推断群体规模放大和定向选择。由于平衡选择和定向选择均属于正选择的范畴,因此只要D值显著背离0,就可能是自然选择的结果,当D值不显著背离0时,中性假说则不能被排除。 连锁不平衡程度高的染色体可能是由于在现代育种和栽培过程中那些与重要农艺性状相关的QTLs或基因被人工或自然选择保留下来,进而使得这些染色体受到强选择增强了其LD程度。另外LD的衰减距离也决定了关联分析所需要的标记密度和作图精度,LD衰减越快关联分析所需要的标记就越多,作图精度也越高。

图形组合R包patchwork

mark

平常我们绘制图形的时候常常要将几幅图形组合在一起,有很多R包可以用于图形组合,经典的是gridExtra,还有egg。今天介绍一个新包 patchwork

生物信息学学习笔记(五)

mark

全基因组水平的连锁不平衡(LD)和遗传结构分析

当r2=0.1时,A亚基因组的衰退距离为0.35-0.4Mb,而C亚基因组的衰退距离为3.5-4Mb,说明甘蓝型油菜A亚基因组发生了更多的重组,使得衰退距离显著小于C亚基因组。重组的发生会打破LD,将那些容易发生重组,LD相对较低的区域称为LD热点,反之称为LD冷点。通过全基因水平的LD热点和冷点研究发现,78.16%的LD热点分布在A亚基因组而72.59%的LD冷点分布在C亚基因组。另外LD热点区间的基因密度是冷点区间的2倍多,GC含量也多于冷点区间,但是冷点区间内含有更多的转座子,这和LD反映的结果一致,说明了甘蓝型油菜A亚基因组的遗传变异更加丰富。

生物信息学学习笔记(四)

mark

最近看了华中农业大学张献龙老师发在Nature Genetics上的文章 Asymmetric subgenome selection and cis-regulatory divergence during cotton domestication以及第一作者王茂军博士的博士毕业论文,十分精彩,故学习之并做适当笔记。

生物信息学学习笔记(三)

mark

  • CpG位点(CpG sites,CG位点):指DNA的某个区域,其上的碱基序列以胞嘧啶接着鸟嘌呤出现。CpG是“—C—磷酸—G—”的缩写,指磷酸二脂键连接了胞嘧啶和鸟嘌呤,其中C位于5’端而G位于3’端。在CpG位点中的胞嘧啶可以被甲基化为5-甲基胞嘧啶,基因内CpG位点的甲基化会改变基因的表达

生物信息学学习笔记(二)

mark

Hi-C

  • 拓扑相关结构域(TAD)是基因组上空间上分隔的一些DNA序列,TAD平均长度在1M左右,其中包含一个或数个基因以及基因的调控元件——增强子(enhancer)。增强子不仅控制基因的表达时间还控制基因在不同细胞中的选择性表达。TAD由边界原件(boundary elements,也称为绝缘子)相互隔离,因此TAD内部的基因活性独立于其它TAD

生物信息学学习笔记(一)

mark

生物信息学学习笔记主要是我平常看文献以及一些资料时总结的一些东西,相对来说有点杂,所以我专门开辟出一个新的系列,以便后面可以持续更新。

Linux学习笔记(九)

mark

sed实例讲解

上篇 博客已经讲解了sed的基本命令及其使用方法,sed有两种方式进行调用:

sed [-n] [-e] 'command(s)' files
sed [-n] -f scriptfile files

Linux学习笔记(八)

mark

sed

sed是一种功能强大的流式文本编辑器,能够完美结合正则表达式使用。处理时sed将当前处理的行储存在临时缓冲区中,称为模式空间(pattern space),接着sed命令处理缓冲区的内容,处理完成后打印到屏幕,接着继续处理下一行,不断重复直到文件结束。