r4ds学习笔记之ggplot2

为了进一步加强以及整合自己data science的能力,最近打算在 我的博客开辟一个新类r4ds,专门用来记录学习Hadley Wickham大神的新作 R for Data Science的读书笔记。该书推荐我们入门data science可以从可视化开始,这也是该书目录布局的第一章。因此开始学习R语言可视化。

前提


本章主要聚焦于可视化包ggplot2,为了写这本书,大神专门整合了一系列神包成为一个包tidyverse,因此第一步就是要先安装该包并加载。

#install tidyverse
install.packages("tidyverse")
#load tidyverse
library(tidyverse)

ggplot2简介


利用数据集mpg来探究发动机大小跟好友耗油是否存在某种关系,先check一下该数据集。

head(mpg)

在各个变量中:

  • disp:车发动机大小
  • hwy:衡量耗油率的一个指标,更多信息可?mpg查看

要探究displ与hwy的关系,最快就是画个图了

ggplot(data=mpg)+ geom_point(mapping = aes(x=displ, y=hwy))

图中显示两者呈现负相关,disp越大,hwy越低。 ggplot2绘图规则主要如下:

ggplot(data=<DATA>)+
     <GEOM_FUNCTION>(mapping=aes(>MAPPINGS>))

**ggplot()会创建一个底板,然后可以通过geom_function()**不断地添加图形元素,进行丰富。

p <- ggplot(mpg)#create an empty graph
p+geom_point(aes(x=displ, y=hwy))#add a layer to the empty graph

美学映射Aesthetic Mappings


美学映射在ggplot2中是一个十分重要的概念,比如前文我们将displ、hwy分别映射给x、y轴,同时还可以用来控制图形元素大小、形状、颜色等属性。

ggplot(mpg)+ 
geom_point(aes(x=displ, y=hwy, color=class))#将class映射给颜色属性,这样不同class就表现不同颜色

可以看到,通过颜色映射ggplot2会自动创建一个legend,需要注意的是这里颜色颜色我们是利用class,这是一个离散性变量,如果我们将之映射给点的size,则会出现warning,至于原因,看warning。

ggplot(mpg)+ geom_point(aes(x=displ, y=hwy, size=class))

或者将class映射给alpha参数,这是一个控制点透明度的参数;shape是一个控制形状的参数

ggplot(mpg)+ geom_point(aes(x=displ, y=hwy, alpha=class))

ggplot(mpg)+ geom_point(aes(x=displ, y=hwy, shape=class))

发现当映射shape其中SUV是没有形状的,这是因为ggplot2只默认6种形状,这个问题后续解决。 需要注意的是映射参数必须在aes(),不然就无法映射。

ggplot(mpg)+ geom_point(aes(x=displ, y=hwy), color="blue")#all the points are blue

今天就讲到这,下次继续

SessionInfo


sessionInfo()
## R version 3.4.1 (2017-06-30)
## Platform: x86_64-w64-mingw32/x64 (64-bit)
## Running under: Windows 8.1 x64 (build 9600)
## 
## Matrix products: default
## 
## locale:
## [1] LC_COLLATE=Chinese (Simplified)_China.936 
## [2] LC_CTYPE=Chinese (Simplified)_China.936 
## [3] LC_MONETARY=Chinese (Simplified)_China.936
## [4] LC_NUMERIC=C ## [5] LC_TIME=Chinese (Simplified)_China.936 
## 
## attached base packages:
## [1] stats graphics grDevices utils datasets methods base 
## 
## other attached packages:
## [1] forcats_0.2.0 stringr_1.2.0 dplyr_0.7.1 
## [4] purrr_0.2.2.2 readr_1.1.1 tidyr_0.6.3 
## [7] tibble_1.3.3 ggplot2_2.2.1 tidyverse_1.1.1.9000
## 
## loaded via a namespace (and not attached):
## [1] Rcpp_0.12.11 cellranger_1.1.0 compiler_3.4.1 
## [4] plyr_1.8.4 bindr_0.1 tools_3.4.1 
## [7] digest_0.6.12 lubridate_1.6.0 jsonlite_1.5 
## [10] evaluate_0.10.1 nlme_3.1-131 gtable_0.2.0 
## [13] lattice_0.20-35 pkgconfig_2.0.1 rlang_0.1.1 
## [16] psych_1.7.5 rstudioapi_0.6 yaml_2.1.14 
## [19] parallel_3.4.1 haven_1.0.0 bindrcpp_0.2 
## [22] xml2_1.1.1 httr_1.2.1 knitr_1.16 
## [25] hms_0.3 rprojroot_1.2 grid_3.4.1 
## [28] glue_1.1.1 R6_2.2.2 readxl_1.0.0 
## [31] foreign_0.8-69 rmarkdown_1.6 modelr_0.1.0 
## [34] reshape2_1.4.2 magrittr_1.5 clisymbols_1.2.0 
## [37] boxes_0.0.0.9000 backports_1.1.0 scales_0.4.1 
## [40] htmltools_0.3.6 rvest_0.3.2 assertthat_0.2.0 
## [43] mnormt_1.5-5 colorspace_1.3-2 labeling_0.3 
## [46] stringi_1.1.5 lazyeval_0.2.0 munsell_0.4.3 
## [49] broom_0.4.2 crayon_1.3.2.9000
Researcher

I am a PhD student of Crop Genetics and Breeding at the Zhejiang University Crop Science Lab. My research interests covers a range of issues:Population Genetics Evolution and Ecotype Divergence Analysis of Oilseed Rape, Genome-wide Association Study (GWAS) of Agronomic Traits.

comments powered by Disqus