본문 바로가기
STUDY (공부)/STATISTICS (통계)

백분위수, 사분위수, 상자그림 통계학

by phd.갖고싶은자 2021. 1. 28.

● 제 100× p백분위수 (the 100× p-th Percentile) (0 (np) 번째 값과 (np+1) 번째 값의 산술평균이 제 100*p 백분위수이다. (ii) np 가 정수가 아니면 -> np 의 정수부분에서 1을 더한 값 을 m 이라 두자. (m은 np 보다 큰 최소의 정수가 된다.) m 번째 관측값이 제 100*p 백분위수이다.

예제) n=15. p=0.50 p=0.20 31 35 37 38 38 38 39 40 40 41 42 43 44 45 78

 

● 사분위수 (quartile) 와 사분위수범위 (Interquartile Range) 제 25 백분위수 를  으로 표기하고, 제 1 사분위수 (first quartile) 이라 한다. 제 50 백분위수  제 2 사분위수 (second quartile) (= 중앙값) 제 75 백분위수  제 3 사분위수 (third quartile)

▶ 사분위수범위 : IQR = 제 3 사분위수 - 제 1 사분위수 ① 중간 50%의 자료값들의 범위이다. ② 이상치에 영향을 받지 않는다.  ③ 이론적 전개의 어려움 때문에, 널리 쓰이지 않는다. ex) 소득의 양극화 지수 - 예 : A 아파트 한 동의 가구당 평균한달 수입을 조사하고자 할때, 10가구를 조사한 결과 ⇒ 300, 500, 100, 450, 350, 500, 560, 600, 3400, 320 (단위 만원) ⇒ 제1사분위수, 제3사분위수 ? 8번째 관측값이 제3사분위수

● 표준편차, 사분위수범위의 비교 표준편차 - 극단값에 영향을 많이 받는다. 사분위수범위 - 극단값에 영향을 적게 받는다. 4.4 상자그림 (Box Plot) - 전체 분포의 대칭성, 분포의 집중도, 범위 등을 한 눈에 알 수 있도록 그린 그림. - 히스토그램이나 줄기-잎 그림 등에서는 알 수없는 수치들(사분위수, 최소값, 최대값)을 제공함 - 예 : A 아파트 한 동의 가구당 평균한달 수입을 조사하고자 할때, 10가구를 조사한 결과 ⇒ 300, 500, 100, 450, 350, 500, 560, 600, 3400, 320 (단위 만원) ⇒ 제1사분위수, 제3사분위수 ?

 

● 상자그림 작성 방법 Step1.         을 구한다. Step2. 안울타리(Inner Fence), 바깥울타리(Outer Fence)를 정의  Step3. 인접값(adjacent value)을 찾아 상자의 양끝을 연결 안울타리 안쪽에 있는 값들 중에서 안울타리에서 가장 가까운값 Step4. 보통이상점(mild outlier) 안울타리와 바깥울타리 사이에 있는자료, “0”으로 표시 Step5. 극단이상점(extreme outlier) 바깥울타리 밖의 자료,“*”으로 표시

댓글