R 프로그래밍을 통한 기술통계 그리고 Boxplot()

메이커 2018-05-22 (화) 23:02 1년전 1232  

1. 기술통계 (Descriptive Statistics)는 보통 연구 논문에서 실험을 마치고 데이터를 도표로 정리하거나 통계량 (평균, 분산, 최대, 최소 등)으로 정리하는 과정을 의미합니다. "Descriptive statistics in paper"로 구글 이미지 검색해보면 다음과 같이 논문에서 어떤 식으로 도표로 기술통계를 보여주는지 확인할 수 있습니다.

 

f1dcc8331b1f497cc6e3d424a78baddf_1526997

 

R에서 데이터를 불러온 다음에, str()이라는 함수와 summary() 함수를 써서, 데이터에 대해서 확인해볼 수 있습니다. 

 

f1dcc8331b1f497cc6e3d424a78baddf_1526996
 

위에서 str() 함수를 사용하게 되면, 데이터프레임에 있는 변수들에 대한 요약을 확인할 수 있습니다. 11개의 변수값에 대해서 10개의 데이터를 가지고 있는 것을 확인할 수 있습니다 (너무 적은 데이터 ㅠㅠ)

 

그리고, summary() 함수를 사용하게 되면, 평균, 중앙값, 그리고 사분위 등에 대해서 확인할 수 있습니다. 

 

2. boxplot 

f1dcc8331b1f497cc6e3d424a78baddf_1526997


박스플롯 (boxplot)은 위의 그림에서 볼 수 있듯이 최대/최소값, 중앙값, 그리고 1st, 3rd 분위값을 보여줍니다. 특히, Outlier라고 하는 이상값을 보여주기도 하기에 데이터에 대한 전반적인 범위를 보여주는 그래프입니다. 


본 포스팅에 앞서 올린 두 개의 포스팅에서 사용하는 데이터를 통해 박스플롯을 사용하는 방법을 설명하겠습니다. 


기본적인 함수는 boxplot() 이고, 사용법에 대해서는 콘솔창에서 help("boxplot")으로 검색하게 되면, 마치 매틀랩(MATLAB)의 함수처럼 사용방법 및 예제까지 자세하게 나오는 것을 확인할 수 있습니다. 

f1dcc8331b1f497cc6e3d424a78baddf_1526997



콘솔창에서 다음과 같이 입력합니다. 박스플롯에 사용할 변수는 Fish_Completion, "Truck_Completion", "Robot_Completion", "Dino_Completion"이며, y축에는 Time (sec)라는 라벨을 사용하였습니다.


 > boxplot(CSVdata[c("Fish_Completion","Truck_Completion","Robot_Completion","Dino_Completion")],ylab="Time(sec)")

 

> title("Time for completion of each origami activity") 


f1dcc8331b1f497cc6e3d424a78baddf_1526997


위와 같은 그래프를 이미지로 저장하기 위해서는 plot 창의 상단에 있는 export를 사용하여 이미지로 저장할 수 있습니다. 


f1dcc8331b1f497cc6e3d424a78baddf_1526997



 

 

 

 


 

▶아래 플러스 친구 버튼을 통해 다양한 정보와 교제 자료 및 이벤트등의 소식을 받아보실 수 있습니다.




모바일 버전으로 보기