※ 표본평균, 중앙값의 비교 표본평균은 가장 많이 쓰이는 중심위치의 측도이지만, 이상치에 민감하게 반응한다. 반면, 중앙값은 이상치에는 강하나 자료 전체를 이용하지 않는다. 따라서, 전체의 경향을 볼 때 극 단적인 관측값의 영향을 배제하고 싶으면 중앙값이 바람직하고, 전체 관측값을 모두 포함하 고 싶으면 평균을 사용하는 것이 바람직하다.
● 가중평균 - 자료에 경중의 차이가 있으며 필요에 따라 각 자료에 일정한 가중값을 곱하여 구함. ▶ 예 : 최초 망년회에서 0.6ℓ의 맥주, 2차에서 0.4ℓ의 소주, 3차에서 0.1ℓ의 위스키를 마 셨다고 가정하자. 맥주의 알코올 도수가 4%, 소주가 13%, 위스키가 43%일 때, 평균 알코올 도수는 몇 %인가 ?
- 예제 : 어느 콩밭에서 60개의 콩깍지를 임의로 추출하여 각 깍지에서의 콩의 개수를 세어 얻 어진 자료를 이용하여 도수분포표를 만들었다.
콩의 개수 도수 상대도수 1 2 0.033 2 4 0.067 3 21 0.350 4 18 0.300 5 10 0.167 6 5 0.083 합 60 1.000 평균 = 중앙값
● 표본평균, 중앙값의 비교 표본평균은 가장 많이 쓰이는 중심위치의 측도이지만, 이상치에 민감하게 반응한다. 반 면, 중앙값은 이상치에는 강하나 자료 전체를 이용하지 않는다. 따라서, 전체의 경향을 볼 때 극단적인 관측값의 영향을 배제하고 싶으면 중앙값이 바람직하고, 전체 관측값을 모두 포 함하고 싶으면 평균을 사용하는 것이 바람직하다.
▶ 분포의 모양에 따른 각 중심위치의 측도. 중앙값 = 평균
※ 평균과 중앙값의 위치를 가지고 분포의 모양을 판단하기도 한다. 퍼진 정도의 측도 자료값들이 흩어진 상태를 요약할 때, 중심위치의 측도만으로는 부족하고, 산포의 측도도 필요 하다.
※ 산포 : 중심위치로부터 자료값들이 퍼진 정도 참고 ex) 두 펀드의 12 개월 동안의 월별수익률 자료 ● 분산과 표준편차 (variance and standard deviation) i) 편차(deviation) : 각 관측값과 평균의 차이 , 으로 표현하며, 그 합은 항상 0이다. ii) 표본분산 (sample variance) : 자료의개수 편차의 제곱들의 자료의 단위와 일치함 iv) 특징 ① 퍼진 정도를 나타내는 가장 일반적인 측도이다. ② 표본평균과 같이 모든 자료를 사용하므로, 모든 자료를 반영하나, 이상치에 민감하다 ③ 분산이 크면 자료가 평균값을 중심으로 광범위하게 분포되어 있다는 뜻이고, 분산이 작으면 평균값을 중심으로 조밀하게 분포되어 있다는 것을 의미한다.
'STUDY (공부) > STATISTICS (통계)' 카테고리의 다른 글
여론조사와 선거에서의 통계학 (0) | 2021.01.28 |
---|---|
백분위수, 사분위수, 상자그림 통계학 (0) | 2021.01.28 |
통계학의 수치를 통한 연속형 자료 (0) | 2021.01.07 |
통계학과 범주형 자료 (0) | 2021.01.07 |
통계학을 통한 자료의 요약 (0) | 2021.01.06 |
댓글