본문 바로가기
STUDY (공부)/STATISTICS (통계)

통계학의 수치를 통한 연속형 자료

by phd.갖고싶은자 2021. 1. 7.

수치를 통한 연속형 자료의 요약

 

데이터의 기술(description)" 내용과 관련

 

 

 

표나 그림으로 자료값들의 흩어진 상태를 시각적으로 빠르고 쉽게 전달할 수 있지만, 작성자에 따라 다를 수 있으므로 일관성과 객관성이 부족한 면이 있다. 반면, 몇 개의 의미 있는 수치만으로 방대한 자료값들이 흩어진 상태를 대략적으로 파악할 수 있다.

 

중심위치의 측도 (measure of center) : 평균 (Mean), 중앙값 (Median) 산포(퍼진 정도)의 측도 (measure of dispersion) : 분산 (Variance) or 표준편차 (Standard deviation), 사분위수 범위 (Interquartile Range) ※ 표본자료이면서, 연속형 자료인 n 개의 관측값들     이 주어졌다고 하자. 4.2 중심위치의 측도

 

 

평균 (mean) : 자료값들의 무게중심으로서의 중심위치

정의 : 표본평균 (sample mean) :  총 자료의 개수 모든 관측값들의 합             ▶ 특징 : ① 중심위치의 측도로 가장 많이 사용된다. ② 모든 관측값들이 반영된다. ③ 극단적으로 크거나 작은 값에 민감하다. ▶ : A 아파트 한 동의 가구당 평균한달 수입을 조사하고자 할 때, 10가구를 조사한 결과 ⇒ 300, 500, 100, 450, 350, 500, 560, 600, 3400, 320 (단위 만원) ⇒ 평균    …  (만원)  ex) 한국성인 100명의 연봉의 평균

 

절사평균 - 이상치를 제외한 평균 - xp : 100p% 절사평균 - 표본을 순서대로 나열하여 양쪽에서 100p%씩 버린 후에, 가운데 100(1-2p)% 특성 값의 평균을 구한다. - 이상점의 영향을 적게 받는다. - x0.1 : 양 끝에서 10%씩 절사시키고, 나머지의 평균 : A 아파트 한 동의 가구당 평균한달 수입을 조사하고자 할 때, 10가구를 조사한 결과 ⇒ 300, 500, 100, 450, 350, 500, 560, 600, 3400, 320 (단위 만원) ⇒    (만원)

 

중앙값(median) ▶ 특징 : - 전체 관측값을 크기 순서로 배열했을 때, 가운데 위치하는 값 - 극단적으로 크거나 작은 값에 영향을 받지 않는다. - 이상치에 영향을 받는 평균의 단점을 보완해 주는 중심위치의 측도이다 - 가운 데 위치한 관측값 이외의 관측값들의 크기는 중요치 않다. - 자료에 이상치가 포함되어 있을 때, 또는 한쪽으로 심하게 치우친 분포의 경우에는 중앙값이 평균보다 중심위치를 나타내는 수치로 더 적합하다.

구하는 방법: 자료를 작은 값부터 크기 순으로 배열했을 때, 중앙값은 i) 자료의 개수(n)가 홀수 ->   번째 값 ii) 자료의 개수(n)가 짝수 ->   번째 값과    번째 값의 평균 => 50% 이상의 관측값이 중앙값 이상이고, 50% 이상의 관측값이 중앙값 이하이다. , 전체 -관측값을 반으로 나누는 경계값이 중앙값이다. ▶ : A 아파트 한 동의 가구당 평균한달 수입을 조사하고자 할 때, 10가구를 조사한 결과 ⇒ 300, 500, 100, 450, 350, 500, 560, 600, 3400, 320 (단위 만원) ⇒ 중앙값 : 475(만원 )

댓글