5-1 데이터 파악하기
데이터를 파악할 때 사용하는 함수들
1.head() - 데이터 앞부분 확인하기
head(데이터 프레임 이름) #앞에서부터 6행 출력
head(데이터 프레임 이름, n) #앞에서부터 n행까지 출력
2.tail() - 데이터 뒷부분 확인하기
tail(데이터 프레임 이름) #뒤에서부터 6행 출력
tail(데이터 프레임 이름, n) #뒤에서부터 n행 출력
3.View() - 뷰어 창에서 데이터 확인하기
4.dim() - 데이터가 몇 행, 몇 열로 구성되었는지 알아보기
dim(데이터 프레임 이름) #행, 열 출력
5.str() - 속성 파악하기
데이터에 들어있는 변수들의 속성을 보여준다.
6.summary() - 요약 통계량 산출하기
5-2 변수명 바꾸기
dplyr 패키지의 rename() 함수
ex)
df_raw<-data.frame(var1=c(1, 2, 1), var2=c(2, 3, 2))
df_raw
## var1 var2
##1 1 2
##2 2 3
##3 1 2
install.packages(“dplyr”)
library(dplyr)
df_new<-df_raw >>>데이터 프레임 복사본 만들기 과정.
데이터 프레임 복사본 만들기 : 작업 중 오류가 발생하더라도 원 상태로 되돌리고, 데이터를 비교하면서 변형되는 과정을 검토해야 하기 때문에 데이터 원본은 꼭 보유하고 있어야한다!
df_new
## var1 var2
##1 1 2
##2 2 3
##3 1 2
df_new<-rename(df_new, v2-var2)
df_new
## var1 v2
##1 1 2
##2 2 3
##3 1 2
5-3 파생변수 만들기
변수를 조합하거나 함수를 적용해 새 변수를 만들어 분석할 수도 있다.
데이터 프레임명에 $를 붙여 새로 만들 변수명을 입력하고, <-로 계산 공식을 할당하는 형태로 코드를 작성하면 된다.
계속해서 추가시킬 때도 변수 앞에 데이터 프레임명을 꼭 반복해서 입력해야 한다!
ex)df$var_sum <- df$var1 + df$var2
df
## var1 var2 var_sum
##1 1 2 6
##2 2 3 9
##3 1 2 9
조건문을 활용해 파생변수 만들기
1.기준값 정하기
2.합격 판정 변수 만들기
3.빈도표로 합격 판정 수 살펴보기
4.막대 그래프로 빈도 표현하기
ex)
1
summary(mpg$total) #요약 통계량 산출
hist(mpg$total)
2
ifelse(mpg$total>=20, “pass”, “fail”)
———————- ——— ——
조건 조건이 맞을 때 “pass” 조건에 맞지 않을 때 후자 부여
3
table(mpg$test)
##
## fail pass
## 106 128
4
library(ggplot2)
qplot(mpg$test)
출처_쉽게 배우는 R 데이터 분석
'R' 카테고리의 다른 글
text mining 미완성 (0) | 2019.05.30 |
---|---|
R markdown 사용법! (0) | 2019.05.30 |
5단원 분석 도전! p.123 (0) | 2019.04.14 |
4단원 리뷰 (0) | 2019.04.08 |
3단원 리뷰 (0) | 2019.04.08 |