본문 바로가기

R

(6)
text mining 미완성 --- title: "Textmining" output: word_document --- ```{r} #데이터 로드 twitter
R markdown 사용법! R markdown이란? 마크다운은 데이터 분석의 전 과정을 담은 보고서를 쉽게 만들 수 있는 패키지다. 이를 이용하면 html, word, pdf 등 다양한 포맷으로 저장할 수 있기 때문에 별도의 문서 작성 소프트웨어를 사용하지 않고도 훌륭한 데이터 분석 보고서를 만들어낼 수 있다. R markdown 이용하는 방법 1. markdown 은 패키지다. 그러므로 r_studio에서 rmarkdown 패키지를 script에서 아래와 같은 명령어를 쓴 뒤 설치해준다. install.packages("rmarkdown") 2.패키지가 다 설치되면 New file 창에서 이와 같이 R markdown 이라는 것을 찾아볼 수 있을것이다. 3.R markdown을 클릭해서 들어가면, 아래와 같이 뜬다. markdo..
5단원 분석 도전! p.123 ggplot2 패키지에는 미국 동북중부 437개 지역의 인구통계 정보를 담은 midwest라는 데이터가 들어 있습니다. midwest 데이터를 사용해 데이터 분석 문제를 해결해보세요. 문제 1. ggplot2의 midwest 데이터를 데이터 프레임 형태로 불러온 다음 데이터의 특징을 파악하세요. install.packages("ggplot2") library(ggplot2) df_raw
5단원 리뷰 5-1 데이터 파악하기 데이터를 파악할 때 사용하는 함수들 1.head() - 데이터 앞부분 확인하기 head(데이터 프레임 이름) #앞에서부터 6행 출력 head(데이터 프레임 이름, n) #앞에서부터 n행까지 출력 2.tail() - 데이터 뒷부분 확인하기 tail(데이터 프레임 이름) #뒤에서부터 6행 출력 tail(데이터 프레임 이름, n) #뒤에서부터 n행 출력 3.View() - 뷰어 창에서 데이터 확인하기 4.dim() - 데이터가 몇 행, 몇 열로 구성되었는지 알아보기 dim(데이터 프레임 이름) #행, 열 출력 5.str() - 속성 파악하기 데이터에 들어있는 변수들의 속성을 보여준다. 6.summary() - 요약 통계량 산출하기 5-2 변수명 바꾸기 dplyr 패키지의 rename()..
4단원 리뷰 4-1 데이터 프레임 이해하기 ‘열’은 속성이다. ‘행’은 한 사람의 정보다. - 한 명에 대한 데이터는 가로 한 줄에 나타난다. Ex) 성별 연령 학점 연봉 남자 26 3.8 2,700만원 여자 42 4.2 4,000만원 남자 35 2.6 3,500만원 “데이터가 크다” = 행이 많다 or 열이 많다. 결론적으로는 열이 많은 것이 더 중요하다. 열 증가 > 변수를 조합할 수 있는 경우의 수 증가 > 여러 변수의 영향을 동시에 고려할 수 있는 복잡한 분석 방법을 활용해야 할 필요성이 생긴다. 행 증가 > 컴퓨터가 느려짐 > 고사양 장비 구축 데이터 프레임 만들기 1.변수 만들기 English
3단원 리뷰 1, 2단원 개발 환경 구축에 관한 내용이므로 동영상으로 대신하겠다. https://youtu.be/2ItiOTiVFl4 3단원 변수 : 다양한 값을 지니고 있는 하나의 속성. 후에 데이터 분석의 대상이 된다. 데이터 : 변수들의 집단. 상수 : 하나의 값으로 고정되어 있는 속성. 변수 만드는 방법 : 화살표 기호