[R语言]资料分析读书心得01---ggplot2

R 语言是一款统计程式语言,不过大部分的人会不懂没学过统计要如何使用?但是在职场上常常都需要绘製图表,很多人还在使用excel作为画图的工具,在这里我想一边学习如何使用 R 做资料分析,一边透过po文的方式记录读书心得。在做资料分析的第一件事情就是去学该如何画图, R 可以透过简单的语法把资料绘製成你想要图表。

这篇文章是要使用 ggplot2 做资料视觉化,简单来说就是把一笔资料的内部资讯透过画图来呈现。ggplot2 是一个 R 的package,当你要使用package时,需使用library这个指令来载入。因为 ggplot2 包含在 tidyverse 这个package的内部,所以我们载入 tidyverse 即可。

library(tidyverse)

http://img2.58codes.com/2024/20124935pvOHDUV9ap.png

如果你没有 tidyverse 这个package,那就输入以下指令进行下载。

install.packages("tidyverse")

载入 tidyverse 后,内部也同时包含了很多资料。以下我们来看看mpg这笔资料,他是蒐集了38种车型的观察资料。

mpg

http://img2.58codes.com/2024/20124935sIEoLY6MRb.png

从上面我们可以看到 mpg 是234 x 11 的资料框型态,其中有234笔资料,以及11种变因。接着我们可以透过 ?mpg 去查看那些变因代表的意思,如下:

1.manufacturer:manufacturer name

2.model:model name

3.displ:engine displacement, in litres

4.year:year of manufacture

5.cyl:number of cylinders

6.trans:type of transmission

7.drv:the type of drive train, where f = front-wheel drive, r = rear wheel drive, 4 = 4wd

8.cty:city miles per gallon

9.hwy:highway miles per gallon

10.fl:fuel type

11.class:"type" of car

其中displ代表的意思是车子的引擎大小,hwy代表的意思是车子在高速公路上的燃油效率。在相同行驶距离的情况下,低燃油效率的车子需要消耗的燃料会比高燃油效率的车子还来的高。

那我们首先可以先来绘製一张 mpg 的图表,以displ当横轴,hwy当纵轴。

ggplot(data=mpg)+  geom_point(mapping=aes(x=displ,y=hwy))

http://img2.58codes.com/2024/20124935oWdAtdEjOU.png

从这个图表可以很容易看出displ跟hwy之间有负相关的关係,这从资料框中并不容易看到。也就是说,资料显示大引擎的车子使用的燃料比小车子还多。

我们来看看上面的程式码,其中 ggplot() 可以绘製一个灰底的图表,他的参数是data,接着 geom_point 这个函数是用来绘製散布图的,除了散布图以外, geom 还可以绘製各种不同的图表,而 aes() 中的x与y参数即代表什么变数要映射到x轴以及y轴, aes() 还有其他一些较为複杂的语法,我们之后会慢慢看到。

我们也可以透过一些简单的语法来查看资料。

nrow(mpg)ncol(mpg)glimpse(mpg)head(mpg)

http://img2.58codes.com/2024/20124935TIShvUjKJR.png
http://img2.58codes.com/2024/201249356KeZrZ3RHv.png

从 glimpse() 和 head() 这两个语法我们可以看到,他们都是可以"稍微"展示一下资料内部的形式。而nrow跟ncol是用来查看资料的行列个数的。

本次的介绍就到这里,下一次会介绍 aes() 的操作,以及其他图表的绘製方式,谢谢大家。


关于作者: 网站小编

码农网专注IT技术教程资源分享平台,学习资源下载网站,58码农网包含计算机技术、网站程序源码下载、编程技术论坛、互联网资源下载等产品服务,提供原创、优质、完整内容的专业码农交流分享平台。

热门文章