본문 바로가기

이론

기초 통계 ③ - 측정 및 척도, t분포, F분포, 카이스퀘어 분포

*기초 통계 개념에 대한 정확한 정의를 기억하기 위해 작성*
*본 글에 나오는 사진들은 전공서적들에서 찍은 도표 혹은 그림 부분임*
*n년전 한글파일로 작성한 기초통계 요약자료에서 중요 부분만 편집하여 정리함*+*전공서적 내용 정리 포함*


측정 : 사물이나 사건, 사람의 속성에 정해진 규칙에 따라 숫자를 부여하는 과정
=> 즉, 표본조사나 실험을 실시하는 과정에서 주어진 목적에 적합하도록 관측해 얻은 자료에 숫자를 부여하는 과정

명명척도 : 구분되는 질적 속성에 숫자를 부여 => 측정 대상이 어느 집단에 속하는 지 분류하기 위해 사용(성별 등)
서열척도 : 측정 대상들의 속성의 순위를 매겨 서열관계를 관측 => 1등, 2등 등 순위를 기록(선호도 등)
등간척도 : 측정 대상의 양적인 속성을 측정하나 점수들 간의 차이가 동일하다 => 온도 등
비율척도 : 등간척도의 속성에 절대영점이 존재, 사칙연산 가능 => 무게, 나이, 시간, 거리 등

명명척도, 서열척도 - 질적척도 / 등간척도, 비율척도 - 양적척도

온도가 비율척도가 안되는 이유 : 0도는 아무것도 없다는 의미의 0이 아니라 -1도와 1도 사이의 온도임을 의미한다
(즉, 0에 '아무것도 없다' 와 같은 의미 외에 다른 의미를 나타내면 비율척도라고 할 수 없다)

연속형 확률변수 : 가능한 값이 실수의 어느 특정구간 전체에 해당하는 확률변수
=> 대표적인 예 - 정규분포(관련 내용 : https://masami.tistory.com/9 )

가설검정 시 많이 활용되는 분포 : t-분포, x^2분포(카이스퀘어 분포), F분포

t-분포(t-distribution) : z분포와 비슷한 분포로, 평균0을 중심으로 좌우가 동일한 분포이나 z분포보다 더 퍼져있다

출처-사회과학통계의 기본 : R예제와 함께

- 자유도에 따라 t분포가 퍼진 정도가 달라진다(t 분포의 모수는 자유도이다)
- 기각역이 z분포의 기각역보다 바깥에 있다
- z분포보다 더 퍼진 이유는 모집단의 표준편차보다 정확하지 않은 표본의 표준편차를 사용하기 때문이다
- 자유도가 커질수록 t분포는 더 뾰족해지며 z분포의 형태에 가까워진다
- 두 집단의 평균이 동일한지 알고 싶을 때 t검정통계량과 t분포를 사용한다

F분포 : 두 개 이상의 집단간 평균을 비교하고 싶을 때 F검정과 F분포를 사용한다

출처-사회과학통계의 기본 : R예제와 함께

(보통, 두 개 이상의 집단간 비교의 경우 분산을 비교하게 되며, 두 집단간 분산 비교에도 F검정과 F분포가 사용된다)
- F분포의 모수는 두 개의 자유도로 첫번째 자유도, 두번째 자유도 로 구분한다
- 정적 편포된 분포로 0 이상의 영역에서 확률밀도함수 값이 정의되기에 0 미만의 값을 가질 수 없다
- 분포의 중심 및 퍼진 정도는 두 개의 자유도에 의해 달라지며, 자유도가 커질수록 정규분포에 가까워진다
- 분포의 평균은 두번째 자유도에 의해서 결정되며, 분포의 분산은 두 자유도의 영향을 받아 결정된다

X^2분포(카이스퀘어 분포) : 범주형 자료를 검정할 때 사용한다(두 집단 간의 동질성 검정-적합성 검정 등)

출처-사회과학통계의 기본 : R예제와 함께

- 정적으로 편포된 분포이며 0 이상에서만 확률밀도함수 값이 정의된다
- 모수는 자유도 하나 이다
- 중심과 퍼짐 정도가 하나의 자유도에 의해 달라진다
- 자유도가 증가할수록 분포의 중심이 오른쪽으로 이동하며 퍼짐의 정도도 증가한다