전체 글49 통계학과 범주형 자료 범주형 자료의 요약 범주형 자료에서는 각 범주가 나타나는 횟수를 요약함으로써 개요를 파악할 수 있다. (1) 도수분포표 (Frequency Table) 도수(frequency): 각 범주에 속하는 관측값의 개수 상대도수(relative frequency): 도수를 자료의 전체개수로 나눈 비율 도수분포표(frequency table): 범주와 그 범주에 대응하는 도수와 상대도수를 나열하여 표로 작성한 것 (예) 어느 콩밭에서 60개의 콩깍지를 임의로 추출하여 각 깍지에서의 콩의 개수를 세어 얻어진 자료를 이용하여 도수분포표를 만들었다. 4, 3, 4, 1, 5, 5, ……… 4 콩의 개수 도수 상대도수 1 2 0.033 2 4 0.067 3 21 0.350 4 18 0.300 5 10 0.167 6 5 0.. 2021. 1. 7. 통계학을 통한 자료의 요약 표와 그림을 통한 자료의 요약 자료가 주어질 때, 특히 자료가 방대하여 한 눈에 쉽게 알아볼 수 없을 때에는 자료에 내포된 내 용을 쉽고 빠르게 파악할 수 있도록 자료를 정리, 요약할 필요가 있다. 자료(data)의 형태 (or 변수의 형태) 자료의 형태에 따라 요약하는 방법이 달라지게 된다. (1) 수치자료(numerical data), 양적자료(quantitative data) : 수치로 관측되며, 관측값은 양(quantity)을 나타냄. i) 연속형 자료(continuous data): 관측 가능한 값이 연속인 자료 (키, 몸무게) ii) 이산형 자료(discrete data): 관측 가능한 값이 셀 수 있는 자료 (교통사고건수) (2) 범주형자료(categorical data), 질적자료(qual.. 2021. 1. 6. 통계학과 정규분포 정규분포 ● 정규분포(normal distribution) - 가우스분포 - C. Gauss(1777-1855) : 물리학 실험 시 수반되는 계측오차에 대한 확률분포로서, 가우스 분포(Gauss distribution)라 불리우는 연속확률분포를 제안 - 물리학 뿐만 아니라 다른 모든 학문 분야에서도 확률모형으로 또는 근사적 확률모형으로 적용되었으며 통계학의 초기 발전단계에서는 모든 자료의 기둥그래프가 이 분포의 곡선과 같은 형태여야만 옳고, 그렇지 않은 경우에는 자료의 수집 과정에 잘못이 있다고 믿었다. 이러한 이유로 이 분포에 “정규(normal)”라는 이름을 붙임. - 정규분포(normal distribution)는 통계적 추론의 중추적 역할을 하고 있다. ⇒ 정규분포를 통해 알 수 있는 것은 가장 .. 2021. 1. 6. 통계학으로 본 복권과 확률 복권과 확률 ● 불확실한 현대사회에서 의사결정을 하기 위해서는 위험을 감수 - 불확실한 상황은 복권 등 도박의 상황과 비슷 ● 로또복권 - 45개 숫자 가운데 6개의 숫자를 맞히는 복권 - 1등 확률 : 1/8,145,060 - 1등 상금액은 매우 크게, 나머지 등수의 상금액은 작게 구조화되어 있음 : 1등 당첨금은 5등 당첨금을 제외한 당첨금액의 60%임 - 판매액 중 당첨금의 비중은 전체의 50%, 복권기금 42%, 수수료 8%, 복권기금은 저소득층 주거안정 지원사업, 국가유공자 복지사업등 공익사업에 이용됨 - 당첨금이 판매액의 50%이므로 1,000원짜리 복권의 기대금액은 500원 - 기대금액 : 복권을 무수히 많이 샀을 때 평균적으로 얻을 수 있는 당첨금액 즉, 10억원 어치 복권을 끊임없이 샀다.. 2021. 1. 5. 통계학의 관점에서 본 O.J심슨 재판과 기대수명 O.J. 심슨 재판 ● O.J 심슨(Simpson) 재판 - 세기의 재판이었고 통계학이 재판에서도 이용된다는 점을 알 수 있는 재판 - O.J 심슨 사건은 20세기를 대표하는 사건으로 재판과정에서 인종문제, 언론문제 그리고 통계문제까지 나타났음 ● 이 재판에서 DNA 분석결과와 관련 확률이 주요하게 이용 - DNA의 일치성 : 정말 일치하는가? : 데이터의 조작은 없었는가?, 데이터의 훼손은 없었 는가?, 일치한다고 그가 O.J.심슨인가? - 검사측은 DNA 분석결과로 두 사람이 우연히 일치할 확률은 1만분의 1이므로 심슨이 99.99% 범인이라고 확신 - 심슨 변호인 측은 로스앤젤레스 인근의 인구 300만명 중 300명이 같은 DNA를 공유하고 심슨은 이중 한명이므로 심슨이 살인자일 확률은 1/300(.. 2021. 1. 5. 통계적 우연과 확률 우연과 확률 ● 우연 또는 운명 : 우리는 우연의 세계에 살고 있음 - 우연 : 통제할 수 없는 일, 예측 불가능한 일, 불확실한 일들 ● 확률 - 우연한 사건도 수많은 사건 중 하나로 보고 전체적으로 살펴보면 일정한 규칙이 있음 ⇒ 이러한 규칙은 확률로 표현 - 확률은 우연 세계에서 질서를 찾는 길을 안내 - 확률은 0과 1사이의 값으로 표현되는데 0에 가까우면 일어나기 어려운 일, 1에 가까우면 매일 발생하는 일을 의미 - 특별한 사건별로 일정한 확률을 가지게 되며 이를 수학적으로 확률분포로 표현 ● 확률의 고전적 정리(Laplace :1749-1827) N개의 원소로 구성된 표본공간 ⋯에서 각각의 근원사상이 일어날 가능성이 같 다는 가정 하에 m개의 원소로 구성된 사건 A의 .. 2021. 1. 4. 통계학으로 바라본 우리나라의 경제 우리나라 살림살이는 어떻게 변했나 ● 경제통계 - 우리 살림살이와 관련된 통계 - 경제를 이해하고 경제정책을 살펴보는데 매우 중요한 통계 - 예 : 1인당 국민소득, GDP, 물가 등 1) 국민소득 ● 국민소득통계 - 우리나라의 경제규모, 산업 및 소득수준을 파악 할 수 있음 - 우리나라 경제 규모는 13억 달러(1953년) → 1조 3,043달러 달러(2013년), 1953년에 비해 1003배 증가 ● 1인당 국민소득 - 1인당 국민소득(달러) = 우리나라 국민총소득(GNI:달러)/ 총인구수 - 국민의 평균적 생활수준을 나타냄 정보사회의통계활용 - 21 - - 1인당 국민소득은 원/달러 환율의 변동에 따라 크게 변동하고 있으므로 이에 유념하여 분석할 필요가 있음 - 1953년 67달러 → 1977년 1.. 2021. 1. 4. 통계학으로 예측한 우리나라의 미래 - 총인구 및 인구성장율 추이 0 10000000 20000000 30000000 40000000 50000000 60000000 1960 1970 1980 1990 2000 2010 2020 2030 2040 2050 (명) -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3 3.5 (%) 총인구 인구성장률 ● 인구예측은 다른 예측에 비해 비교적 정확한 것으로 평가 -【추계 기본식】 추계인구 = 기준인구+1년간 자연증가(출생-사망)+1년간 사회증가(입국- 출국) - “ 저출산-고령화” : 평균수명의 증가, 출산율의 감소에 따라 젊은 세대가 줄어들어 고령화가 빠르게 진행되고 있음 ● 인구구조의 변화 ◇ 1955년과 2005년 인구피라미드 비교 - 2005년 총조사 인구의 연령별 구조는 30, 40.. 2021. 1. 3. 이전 1 2 3 4 5 6 7 다음 반응형