본문 바로가기

통계학

(7)
3.31 기초통계량_중심경향도 기초통계량의 기본 통계량은 표본을 분석해서 얻은 결과 -> 기술통계량이라함. 기술의 대상은 표본이며, 표본이 모집단에 대한 대표성이 있음을 설명 통계량은 표본이 갖는 특성을 제시하므로 이를 바탕으로 모수를 추정하더라도 문제가 없음을 설명하는 기초자료가 된다. 기초통계량의 구분 표본을 설명할 때 표본의 중심을 이루는 값이 어느 정도 되는지 나타내며 표본의 중심을 이루는 값은 기준을 어떻게 설정하느냐에 따라 달라진다. 표본의 중심을 설명하므로 대표값이라고도 하며 중심경향화 값 혹은 측정치라고 부른다. 평균, 중간값, 최빈수, 사분위수로 확인할 수 있다. 표본이 구성하는 분포(표본이 퍼진 정도) -> 이를 산포도라 한다. 산포도는 표본의 범위, 분산, 표준편차, 변동계수 등으로 구성 표본이 정규분포를 구성하면..
4.1 확률과 의사결정 통계의 목적 표본으로부터 모수를 추정하기 위함 추정의 이유 모집단을 대상으로 하는 조사가 불가능 시간과 비용 등의 물리적 한계 확률론 아무리 정교하게 분석된 통계자료일지라도 100%맞을 수는 없기 때문에, 그 결과를 확률(probability)과 함계 표현 일정 조건 하에 동일한 실험을 지속적으로 N회 반복했을 때, 사건 A가 n번 발생할 확률은 확률이 가지는 조건 확률은 0 ~ 1의 값을 가진다. 모든 사건에 대한 확률의 합은 1이다. 통계적 확률 통계적 확률은 기본적인 확률의 개념과 같다. 다만 반복적인 실행을 n번 해서 사건 A가 일어난 횟수를 r이라고 했을 때, ndmf 충분히 크게 한다면 상대도수로 나타나는 $\frac{r}{n}$은 일정한 확률값 p로 근사하게 된다. 이때 p를 사건 A가 발생..
3.32 기초통계량_산포도_왜도_첨도 산포도 중심경향도만으로는 집단에 대한 성격과 분포를 파악하는데 부족하므로, 측정된 데이터가 어 떻게 분포하고 있는지에 대해 파악해야 하므로 데이터를 제대로 이해하기 위하여 표본이 가지는 분포의 정도를 나타내는 산포도(dispersion)를 확인해야한다. -> 통계학에서 산포의 정도를 나타내는 지표에는 분산, 표준편차, 범위, 사분위수, 백분위수등이 있음. 산포도의 특징 산포도는 대표값을 기준으로 자료들이 어떻게 분호하고 있는지를 나타내는 지표이므로 수치로 표현. 수치가 작을수록 대표값에 집중, 수치가 클수록 대표값으로부터 멀리 흩어짐 중심경향도인 대표값에 대한 수치는 쉽게 얻을 수 있으며 대표값으로 표본의 성격을 표현하지만, 대표값은 중심화경향만 표현. 산포도는 대표값으로 설명하지 못하는 부분을 측정된 ..
3.1 데이터의 수집 -변수와 데이터- 1. 변수 :어떠한 대응관계로 변화하는수,혹은 함수관계로 대응하며 주어진 범위 안에서 변화하는 수 -> 변수는 데이터로 구성되고, 데이터를 근거로 변수의 특성을 파악 2. 데이터 : 조사의 목적에 맞는 변수를 기반으로, 표본으로부터 수집된 자료 -> 보통 사회과학 분야에서 통계조사를 할 때는 표본의 특징이나 특성을 표현하기 위해 단일자료를 수집, 핵심적 연구나 조사를 목적으로 할 때는 다중 자료를 수집 -척도 데이터는 그 성격에 따라 크게 범주형 척도와 연속형 척도의 두 가지로 구분 인문/사회과학에서는 대부분 설문지를 통해 데이터를 수집할 때 활용 1. 범주형 척도 :범주형 척도(categorical scale)는 데이터들을 구분지어 나눌 수 있는 척도 -> 명목척도와 서열척도로 나뉜다..
2.3 표본분포와 중심극한정리 1. 표본분포 : 표본분포(sample distribution)는 표본에서 도출되는 통계량에 대한 확률분포 -> 표본분포는 모수를 추정하기 위한 표본 통계량의 확률분포 (여러 번 측정) ex) 5일간의 통학시간이 각각 37분, 25분, 49분, 33분, 56분이 소요되었다면, 평균 통학시간은? (37+25+49+33+56)/5=40 이다 모집단의 구성이 5개로 되어 있으므로 간단히 표본을 2개 추출하는 경우와 3개 추출하는 경우를 비교해보면.. 표본을 2개 혹은 3개 추출할 때, 각 경우의 수에 대한 평균을 구해보면.. 2. 표본평균의 오차 : 표본으로부터 모수를 추정했을 때, 모수와 통계량 간의 차이 ->표본의 개수가 늘어날수록 통계량이 모수와 가까워짐 3. 중심극한정리 : 중심극한정리(Central ..
2.2 표본의 분포 -표준화 단순한 현상은 정규분포만을 이용해도 결과를 알아내는 데 문제가 없지만 대부분의 연구에서는 복잡한 관계에 대한 분석 결과가 필요하므로, 여러 특성에 대한 분석 결과들을 서로 비교할 수 있도록 만드는 과정 ->표준화란 기준점을 동일하게 맞춰 조사자가 자료들을 쉽게 비교할 수 있도록 만드는 과정으로, 표준정규분포는 평균은 0, 표준편차는 1로 만든다. -표본편균의 확률분포 1. 정규분포 :표본분포 중 가장 단순하면서 많이 나타나는 형태의 분포 -> 어떤 사건이 일어난 빈도(frequency)를 계산하여 그래프로 나타내면 중심을 기준으로 좌우가 대칭되는 분포 2. z분포 : 표본의 개수가 충분할 때 표준화 과정을 거친 정규분포를 표준정규분포(standard normal distribution), 혹은 ..
2.1 모집단과 표본 추출 표본 추출 방법 두가지 1. 확률적 표본추출방법(probability sampling method) :표본추출의 방법은 동일한 확률 하에서 표본을 구성 2. 비확률적 표본추출방법(non-probability sampling method) :확률과는 상관없이 조사자가 자신의 의지로 표본을 뽑거나 조사 대상이 자발적으로 표번을 구성 -확률적 표본추출 방법 1 . 단순 무작위 표본추출 모집단에서 일정한 규칙에 따라 표본을 기계적으로 추출하는 방법 ex) 컴퓨터 추출 난수표 2. 체계적 표본추출 모집단에 번호를 부여하고 일정한 n개의 간격으로 표본을 추출하는 방법 ex)선거 당일 출구에서 투표를 하고 나오는 유권자의 숫자를세어 1,11,21,31,41,...번째(혹은 1,101,201,301...번째)의 유권자..