본문 바로가기

통계학

3.32 기초통계량_산포도_왜도_첨도

산포도

  • 중심경향도만으로는 집단에 대한 성격과 분포를 파악하는데 부족하므로, 측정된 데이터가 어 떻게 분포하고 있는지에 대해 파악해야 하므로 데이터를 제대로 이해하기 위하여 표본이 가지는 분포의 정도를 나타내는 산포도(dispersion)를 확인해야한다.
    -> 통계학에서 산포의 정도를 나타내는 지표에는 분산, 표준편차, 범위, 사분위수, 백분위수등이 있음.

산포도의 특징

  • 산포도는 대표값을 기준으로 자료들이 어떻게 분호하고 있는지를 나타내는 지표이므로 수치로 표현. 수치가 작을수록 대표값에 집중, 수치가 클수록 대표값으로부터 멀리 흩어짐
  • 중심경향도인 대표값에 대한 수치는 쉽게 얻을 수 있으며 대표값으로 표본의 성격을 표현하지만, 대표값은 중심화경향만 표현. 산포도는 대표값으로 설명하지 못하는 부분을 측정된 데이터로 표본이 어떻게 분포하고 있는지를 파악
    -> 데이터를 제대로 이해할 수 있도록 함
  • 관측값들이 평균으로부터 멀리 떨어져 나타날수록 분산은 커지며, 편차의 총합은 0.

척도에 따른 산포도의 의미

  • 명목척도: 최빈수만 존재하므로 기타 기술통계량인 산포도는 의미가 없다.
  • 서열척도: 산포도의 범위만 존재.
  • 등간척도, 비율척도: 범위, 사분편차(사분위수 간의 차이), 분산, 표준편차가 존재하므로
    산포도를 확인하여 표본의 특성을 파악할 수 있다.

모분산

  • 모평균과 모집단의 개별 측정치들 간의 차를 구해서 제곱하여 모두 더한 후, 그 값을 다시 모집단을 구성하는 개수로 나누어 계산
  • 표본의 분포 특성을 잘 드러내지 못하는 평균의 단점을 해소하기 위해서는 평균과 각 표본들이 얼마나 떨어져 있는지를 측정한 차이(편차)를 확인해야한다.

표본분산

  • 모집단을 기준으로 하지 않고, 표본을 선정해서 표본의 개수 (n-1)로 계산한 분산을 표본 분산(sample variance)이라 한다.

변동계수(변이계수)

  • 집단 1개의 산포만 확인하려고 한다면 분산과 표준편차만으로도 확인할 수 있다. 그런데, 인문/사회과학 분야에서는 집단 하나만 대상으로 하여 통계 조사를 진행할 수도 있지만, 서로 다른 두 집단을 비교하여 더욱 많은 의미를 찾아내기도 한다. 이때 활용되는 수치가 변동계수(coefficient of variation)다.

사분위수

  • 사분위수(quartile)는 오름차순에 따라 측정값을 작은 것부터 크기순으로 배열하고, 누적 백분율을 4등분한 각 점의 수치를 말한다.
  • 제1사분위수는 누적백분율 25%, 제2사분위수(중간값과 동일)는 50%, 제3분위수는 75%, 제4사분위수는 100%에 해당하는 값이다. 자료에 이상치가 존재하더라도 비교적 안정적인 산포의 측도를 나타내지만, 제1사분위수나 제3사분위수가 산포도의 측도를 나타내는 것은 아니다. 사분위수 범위는 제3사분위수와 제1사분위수의 차이이며, 중심 위치를 나타내지는 않는다.

비대칭도

왜도

  • 왜도는 피어슨의 비대칭도라고도 하며, 자료의 분포가 어느 정도로 비대칭적으로 분포되어 있는지를 타타내는 통계 지표다. 당연히 산포의 정도와 상관없고, 분포 봉우리의 치우침 정도를 나타낸다.양의 왜도(정적 왜도: positive skew)
  • 데이텅의 중심이 왼쪽으로 치우쳐 오른쪽으로 꼬리가 길게 늘어진 형태로 왜도는 0보다 크다. 평균이 가장 큰 값으로 관찰되고, 중위수가 평균보다 작고 최빈수가 가장 작게 나타난다. 즉. '평균 > 중위수 >최빈수' 형태의 분포로 큰 수치가 그래프에서 오른쪽에 위치한다.데이터의 중심이 오른쪽으로 치우쳐 왼쪽으로 꼬리가 길게 늘어진 형태(왼쪽으로 기울어진 분포)로 왜도는 0보다 작다. 최빈수가 가장 크고, 중위수가 최빈수 보다 작고 평균은 중위수보다 작다. 즉. '평균 < 중위수 < 최빈수' 형태의 분포이고, 작은 수치가 그래프에서 왼쪽에 나타난다.음의 왜도(부의 왜도: negative skew)
  • 데이터의 중심이 오른쪽으로 치우쳐 왼쪽으로 꼬리가 길게 늘어진 형태(왼쪽으로 기울어진 분포)로 왜도는 0보다 작다. 최빈수가 가장 크고, 중위수가 최빈수 보다 작고 평균은 중위수보다 작다. 즉. '평균 < 중위수 < 최빈수' 형태의 분포이고, 작은 수치가 그래프에서 왼쪽에 나타난다.

첨도

  • 표본분포가 좌우대칭일 때 단봉분포의 경우 어느 정도 뾰족하게 나타나는지에 대한 지표가 있으면 표본분포를 이해하는 데 도움이 된다. 첨도(kurtosis)는 분포곡선의 봉우리가 얼마나 뾰족한지를 나타내는 수치다.
  • 정규분포는 '첨도 = 3'이고 '왜도 = 0'으로 표현된다. 첨도가 3보다 크면 정규분포보다 뾰족하고, 작으면 완만한 모양을 나타낸다.

글,그림 출처 (https://www.youtube.com/playlist?list=PLsri7w6p16vtiu-mpViykeFQxzQqIV1gz)

'통계학' 카테고리의 다른 글

3.31 기초통계량_중심경향도  (0) 2023.02.05
4.1 확률과 의사결정  (1) 2023.02.05
3.1 데이터의 수집  (0) 2023.01.10
2.3 표본분포와 중심극한정리  (0) 2023.01.10
2.2 표본의 분포  (0) 2023.01.08