4-1 데이터 프레임 이해하기
‘열’은 속성이다.
‘행’은 한 사람의 정보다. - 한 명에 대한 데이터는 가로 한 줄에 나타난다.
Ex)
성별 |
연령 |
학점 |
연봉 |
남자 |
26 |
3.8 |
2,700만원 |
여자 |
42 |
4.2 |
4,000만원 |
남자 |
35 |
2.6 |
3,500만원 |
“데이터가 크다” = 행이 많다 or 열이 많다.
결론적으로는 열이 많은 것이 더 중요하다.
열 증가 > 변수를 조합할 수 있는 경우의 수 증가 > 여러 변수의 영향을 동시에 고려할 수 있는 복잡한 분석 방법을 활용해야 할 필요성이 생긴다.
행 증가 > 컴퓨터가 느려짐 > 고사양 장비 구축
데이터 프레임 만들기
1.변수 만들기
English<-c(90, 80 ,60, 70)
English #90 80 60 70
Math<-c(50, 60, 100, 20)
Math #50 60 100 20
2.데이터 프레임 만들기
data.frame() 이용.
#English, math로 데이터 프레임 생성해서 df_midterm에 할당
df_midterm<-data.frame(English, math)
df_midterm
## English math
## 90 50
## 80 60
## 60 100
## 70 20
3.이번에는 학생의 반에 대한 정보가 추가된 데이터 프레임을 만들어보자.
class<-c(1, 1, 2, 2)
df_midterm<-data.frame(English, math, class)
4.분석하기
평균을 분석해보자.
mean(df_midterm$English) #df_midterm의 english로 평균 산출
mean(df_midterm$math) #df_midterm의 math로 평균 산출
5.데이터 프레임 한 번에 만들기
df_midterm<-data.frame(English=c(90, 80, 60, 70),
math=c(50, 60, 100, 20),
class=c(1, 1, 2, 2))
df_midterm
## English math
## 90 50
## 80 60
## 60 100
## 70 20
#외부 데이터 이용하기
1.엑셀 파일
Library(readx1) #readx1 패키지 로드
df_exam<-read_excel(“excel_exam.xlsx”) #엑셀 파일 불러오기
2.CSV 파일
df_csv_exam<-read.csv(“csv_exam.csv”) #CSV 파일 불러오기
write_csv(df_midterm, file=“df_midterm.csv”) #CSV 파일로 저장하기
3.Rda 파일
load(“df_midterm.rda”) #Rda 파일 불러오기
save(df_midterm, file=“df_midterm.rda”) #Rda 파일로 저장하기
#출처_쉽게 배우는 R 데이터 분석
'R' 카테고리의 다른 글
text mining 미완성 (0) | 2019.05.30 |
---|---|
R markdown 사용법! (0) | 2019.05.30 |
5단원 분석 도전! p.123 (0) | 2019.04.14 |
5단원 리뷰 (0) | 2019.04.09 |
3단원 리뷰 (0) | 2019.04.08 |