수치를 통한 연속형 자료의 요약
데이터의 기술(description)" 내용과 관련
표나 그림으로 자료값들의 흩어진 상태를 시각적으로 빠르고 쉽게 전달할 수 있지만, 작성자에 따라 다를 수 있으므로 일관성과 객관성이 부족한 면이 있다. 반면, 몇 개의 의미 있는 수치만으로 방대한 자료값들이 흩어진 상태를 대략적으로 파악할 수 있다.
중심위치의 측도 (measure of center) : 평균 (Mean), 중앙값 (Median) 산포(퍼진 정도)의 측도 (measure of dispersion) : 분산 (Variance) or 표준편차 (Standard deviation), 사분위수 범위 (Interquartile Range) ※ 표본자료이면서, 연속형 자료인 n 개의 관측값들 ⋯ 이 주어졌다고 하자. 4.2 중심위치의 측도
● 평균 (mean) : 자료값들의 무게중심으로서의 중심위치
▶ 정의 : 표본평균 (sample mean) : 총 자료의 개수 모든 관측값들의 합 ⋯ ▶ 특징 : ① 중심위치의 측도로 가장 많이 사용된다. ② 모든 관측값들이 반영된다. ③ 극단적으로 크거나 작은 값에 민감하다. ▶예 : A 아파트 한 동의 가구당 평균한달 수입을 조사하고자 할 때, 10가구를 조사한 결과 ⇒ 300, 500, 100, 450, 350, 500, 560, 600, 3400, 320 (단위 만원) ⇒ 평균 … (만원) ex) 한국성인 100명의 연봉의 평균
● 절사평균 - 이상치를 제외한 평균 - xp : 100p% 절사평균 - 표본을 순서대로 나열하여 양쪽에서 100p%씩 버린 후에, 가운데 100(1-2p)% 특성 값의 평균을 구한다. - 이상점의 영향을 적게 받는다. - x0.1 : 양 끝에서 10%씩 절사시키고, 나머지의 평균 ▶ 예 : A 아파트 한 동의 가구당 평균한달 수입을 조사하고자 할 때, 10가구를 조사한 결과 ⇒ 300, 500, 100, 450, 350, 500, 560, 600, 3400, 320 (단위 만원) ⇒ (만원)
● 중앙값(median) ▶ 특징 : - 전체 관측값을 크기 순서로 배열했을 때, 가운데 위치하는 값 - 극단적으로 크거나 작은 값에 영향을 받지 않는다. - 이상치에 영향을 받는 평균의 단점을 보완해 주는 중심위치의 측도이다 - 가운 데 위치한 관측값 이외의 관측값들의 크기는 중요치 않다. - 자료에 이상치가 포함되어 있을 때, 또는 한쪽으로 심하게 치우친 분포의 경우에는 중앙값이 평균보다 중심위치를 나타내는 수치로 더 적합하다.
▶ 구하는 방법: 자료를 작은 값부터 크기 순으로 배열했을 때, 중앙값은 i) 자료의 개수(n)가 홀수 -> 번째 값 ii) 자료의 개수(n)가 짝수 -> 번째 값과 번째 값의 평균 => 50% 이상의 관측값이 중앙값 이상이고, 50% 이상의 관측값이 중앙값 이하이다. 즉, 전체 -관측값을 반으로 나누는 경계값이 중앙값이다. ▶ 예 : A 아파트 한 동의 가구당 평균한달 수입을 조사하고자 할 때, 10가구를 조사한 결과 ⇒ 300, 500, 100, 450, 350, 500, 560, 600, 3400, 320 (단위 만원) ⇒ 중앙값 : 475(만원 )
'STUDY (공부) > STATISTICS (통계)' 카테고리의 다른 글
백분위수, 사분위수, 상자그림 통계학 (0) | 2021.01.28 |
---|---|
통계학에서의 평균과 중앙값 (0) | 2021.01.08 |
통계학과 범주형 자료 (0) | 2021.01.07 |
통계학을 통한 자료의 요약 (0) | 2021.01.06 |
통계학과 정규분포 (0) | 2021.01.06 |
댓글