본문 바로가기
STUDY (공부)/STATISTICS (통계)

통계학에서의 평균과 중앙값

by phd.갖고싶은자 2021. 1. 8.

표본평균, 중앙값의 비교 표본평균은 가장 많이 쓰이는 중심위치의 측도이지만, 이상치에 민감하게 반응한다. 반면, 중앙값은 이상치에는 강하나 자료 전체를 이용하지 않는다. 따라서, 전체의 경향을 볼 때 극 단적인 관측값의 영향을 배제하고 싶으면 중앙값이 바람직하고, 전체 관측값을 모두 포함하 고 싶으면 평균을 사용하는 것이 바람직하다.

 

 

가중평균 - 자료에 경중의 차이가 있으며 필요에 따라 각 자료에 일정한 가중값을 곱하여 구함. ▶ : 최초 망년회에서 0.6ℓ의 맥주, 2차에서 0.4ℓ의 소주, 3차에서 0.1ℓ의 위스키를 마 셨다고 가정하자. 맥주의 알코올 도수가 4%, 소주가 13%, 위스키가 43%일 때, 평균 알코올 도수는 몇 %인가 ?

 

- 예제 : 어느 콩밭에서 60개의 콩깍지를 임의로 추출하여 각 깍지에서의 콩의 개수를 세어 얻 어진 자료를 이용하여 도수분포표를 만들었다.

콩의 개수 도수 상대도수 1 2 0.033 2 4 0.067 3 21 0.350 4 18 0.300 5 10 0.167 6 5 0.083 60 1.000 평균 = 중앙값

 

 

표본평균, 중앙값의 비교 표본평균은 가장 많이 쓰이는 중심위치의 측도이지만, 이상치에 민감하게 반응한다. 반 면, 중앙값은 이상치에는 강하나 자료 전체를 이용하지 않는다. 따라서, 전체의 경향을 볼 때 극단적인 관측값의 영향을 배제하고 싶으면 중앙값이 바람직하고, 전체 관측값을 모두 포 함하고 싶으면 평균을 사용하는 것이 바람직하다.

 

분포의 모양에 따른 각 중심위치의 측도. 중앙값 = 평균

 

평균과 중앙값의 위치를 가지고 분포의 모양을 판단하기도 한다. 퍼진 정도의 측도 자료값들이 흩어진 상태를 요약할 때, 중심위치의 측도만으로는 부족하고, 산포의 측도도 필요 하다.

 

산포 : 중심위치로부터 자료값들이 퍼진 정도 참고 ex) 두 펀드의 12 개월 동안의 월별수익률 자료분산과 표준편차 (variance and standard deviation) i) 편차(deviation) : 각 관측값과 평균의 차이   ,    으로 표현하며, 그 합은 항상 0이다. ii) 표본분산 (sample variance) :    자료의개수 편차의 제곱들의 자료의 단위와 일치함 iv) 특징퍼진 정도를 나타내는 가장 일반적인 측도이다. ② 표본평균과 같이 모든 자료를 사용하므로, 모든 자료를 반영하나, 이상치에 민감하다 분산이 크면 자료가 평균값을 중심으로 광범위하게 분포되어 있다는 뜻이고, 분산이 작으면 평균값을 중심으로 조밀하게 분포되어 있다는 것을 의미한다.

댓글