본문 바로가기

R

5단원 리뷰

5-1 데이터 파악하기

데이터를 파악할 사용하는 함수들

1.head() - 데이터 앞부분 확인하기

head(데이터 프레임 이름) #앞에서부터 6 출력

head(데이터 프레임 이름, n) #앞에서부터 n행까지 출력

2.tail() - 데이터 뒷부분 확인하기

tail(데이터 프레임 이름) #뒤에서부터 6 출력

tail(데이터 프레임 이름, n) #뒤에서부터 n 출력

3.View() - 뷰어 창에서 데이터 확인하기

4.dim() - 데이터가 , 열로 구성되었는지 알아보기

dim(데이터 프레임 이름) #, 출력

5.str() - 속성 파악하기

데이터에 들어있는 변수들의 속성을 보여준다.

6.summary() - 요약 통계량 산출하기

 

5-2 변수명 바꾸기

dplyr 패키지의 rename() 함수

ex)

df_raw<-data.frame(var1=c(1, 2, 1), var2=c(2, 3, 2))

df_raw

## var1   var2

##1       1 2

##2       2 3

##3       1 2

 

install.packages(“dplyr”)

library(dplyr)

 

df_new<-df_raw       >>>데이터 프레임 복사본 만들기 과정.

데이터 프레임 복사본 만들기 : 작업 오류가 발생하더라도 상태로 되돌리고, 데이터를 비교하면서 변형되는 과정을 검토해야 하기 때문에 데이터 원본은 보유하고 있어야한다!

df_new                             

## var1   var2

##1       1 2

##2       2 3

##3       1 2

 

df_new<-rename(df_new, v2-var2)

df_new

## var1       v2

##1       1 2

##2       2 3

##3       1 2

 

5-3 파생변수 만들기

변수를 조합하거나 함수를 적용해 변수를 만들어 분석할 수도 있다.

데이터 프레임명에 $ 붙여 새로 만들 변수명을 입력하고, <- 계산 공식을 할당하는 형태로 코드를 작성하면 된다.

계속해서 추가시킬 때도 변수 앞에 데이터 프레임명을 반복해서 입력해야 한다!

ex)df$var_sum <- df$var1 + df$var2

df

## var1    var2   var_sum

##1       1 2 6

##2       2 3 9

##3       1 2 9

 

조건문을 활용해 파생변수 만들기

1.기준값 정하기

2.합격 판정 변수 만들기

3.빈도표로 합격 판정 살펴보기

4.막대 그래프로 빈도 표현하기

ex)

1

summary(mpg$total) #요약 통계량 산출

hist(mpg$total)

2

ifelse(mpg$total>=20, “pass”, “fail”)

          ———————-   ———  ——

    조건 조건이 맞을 “pass” 조건에 맞지 않을 후자 부여 

3

table(mpg$test)

##

##  fail  pass

## 106   128

4

library(ggplot2)

qplot(mpg$test)

 

출처_쉽게 배우는 R 데이터 분석

'R' 카테고리의 다른 글

text mining 미완성  (0) 2019.05.30
R markdown 사용법!  (0) 2019.05.30
5단원 분석 도전! p.123  (0) 2019.04.14
4단원 리뷰  (0) 2019.04.08
3단원 리뷰  (0) 2019.04.08