awk是一种编程语言,用于在unix下处理数据以及文本。数据可以来自stdin、一个或者多个文件或者其它命令的输出,同时支持自定义函数和正则表达式,更多是作为脚本来使用。
sort
sort
命令在linux中非常有用,它可以对文件进行排序并将排序结果标准输出。sort
即可以从特定的文件中也可以从STDIN中获取输入。
sort
语法规则如下:
sort (选项) (参数) 文件
grep
grep
全称是global search regular expression(RE) and print out the line,中文名即全面搜索正则表达式并把行打印出来。是一种强大的文本搜索工具,可以使用正则表达式搜索文本,并将匹配的行列打印出来。Unix的grep
家族包括grep
,egrep
,fgrep
以及zgrep
等,egrep
,fgrep
与grep
的差别很小,egrep
支持更多的re元字符, fgrep
就是fixed grep或fast grep,它们把所有的字母都看作单词,也就是说,正则表达式中的元字符表示其自身的字面意义,不再特殊grep
可以通过-G、-E、-_F_命令行选项来使用egrep
,fgrep
的功能,zgrep
可以用来处理ZIP格式文件。
“write code for humans, write data for computers”
鉴于以后要大量使用Linux
系统处理生物信息学数据,因此加强自身linux系统的学习,开辟一个新的分类专门记录我学习Linux
的学习笔记,一是为了我自己以后方便查看,二也是希望能帮助到其他学习Linux
系统的人,共勉!!!
集合可视化我们用得最多的是韦恩图,韦恩图在集合数少的时候是很好用的,但是当集合数多比如五个以上的时候那就会看花眼了,比如下面这副含有6个集合韦恩图,是发表在Nature上的文章里的,漂亮是漂亮,但是眼都快看花了。
本文内容基本是来源于 STHDA,这是一份十分详细的ggplot2使用指南,因此我将其翻译成中文,一是有助于我自己学习理解,另外其他R语言爱好者或者可视化爱好者可以用来学习。翻译过程肯定不能十全十美,各位读者有建议或改进的话,十分欢迎发Email(tyan@zju.edu.cn)给我。
tidyverse是一个数据科学的综合包,里面包含了数据分析一系列流程涉及的包,今天主要利用它绘制地图。这并不是它的强项,绘制地图leaflet才是利器,本文只是tidyverse的一个小练习。 目前该包支持有限的几个国家,比如美国,新西兰、意大利等,当然世界地图是支持的。
ggplot2有一个十分重要的功能就是分面,而今天要讲得R包ggpubr中也有一个函数facet()专门用来进行分面操作。