*기초 통계 개념에 대한 정확한 정의를 기억하기 위해 작성*
*본 글에 나오는 사진들은 전공서적들에서 찍은 도표 혹은 그림 부분임*
*n년전 한글파일로 작성한 기초통계 요약자료에서 중요 부분만 편집하여 정리함*
빈도분포 : 어떤 데이터 값들이 있는지, 얼마나 많은 데이터들이 각 값에 해당되는지, 각 데이터 값들이 어떻게 분포되어 있는지를 나타낸 것으로 흔히 자료라고 말하기도 한다. 자료를 확인할 때에는 집중경향성, 변산도, 자료 형태를 고려해야 한다
집중경향성 : 한 집단의 데이터 분포를 나타낼 때, 해당 분포에서 중앙이 어디있는지를 나타낸 것으로, 집중경향성을 나타내는 것들에는 평균, 최빈값, 중앙값이 있다. 집중경향성을 나타내는 것으로 가장 많이 사용되는 건 평균인데, 이는 수학적 취급이 용이하고 모든 데이터 값을 다 고려하여 계산된 것이기 때문에 우연으로 인한 이상값에 최빈값과 중앙값 보다는 영향을 덜 받는다. 즉, 최빈값과 중앙값에 비해서 안정된 값을 나타낸다
평균 : 정확히는 산술평균을 의미하며, 주어진 데이터들의 모든 값을 더한 후 이를 데이터 개수만큼 나눈 값이다
최빈값 : 주어진 한 집단의 데이터들 중에서 가장 많이 나온 값이다. 최빈치는 한 집단의 데이터에서 여러 개 나올 수 있기 때문에 데이터 집단(자료)을 대표하는 값으로 사용하는 데 적합하지 않다
중앙값 : 주어진 한 집단의 데이터 값들을 크기 순서대로 나열할 때 가장 중간에 위치한 값이다. 만약 데이터 개수가 짝수일 경우 한가운데에 있는 두 개의 값을 더한 후 2로 나눈 값이 된다
-평균, 최빈값, 중앙값 예시-
데이터 : 2, 5, 6, 6, 6, 6, 7, 8, 9, 10
데이터 값들의 총 합 : 65 / 데이터 개수 : 10
(산술)평균값 : 6.5
최빈값 : 6
중앙값 : 6
변산도 : 데이터 값들이 퍼진 정도를 나타내는 것으로 범위, 사분편차, 편차, 분산, 표준편차가 있다
범위 : 데이터 분포에서 가장 큰 값과 가장 작은 값의 차이이다
사분편차 : 중앙값을 중심으로 한 변산도로 제1사분위수와 제3사분위수간의 거리를 반으로 나눈 값이다
(사분위수 : 데이터 분포를 크기순으로 나열하여 4등분한 값으로, 제1사분위수는 누적된 데이터 수가 전체 데이터수의 25% 지점의 데이터값, 제2사분위수는 50% 지점의 데이터값=중앙값, 제3사분위수는 75%지점의 데이터값이다)
Q(사분편차) = (Q3(제3사분위수)-Q1(제1사분위수))/2
편차 : 하나의 자료값이 평균으로부터 떨어져 있는 거리 => 데이터 값-데이터 분포의 평균값
분산 : 편차 제곱 값들의 평균값. 즉, 편차값들을 전부 제곱한 후 다 더한 값을 데이터 개수만큼 나눈 값. 제곱을 한 값이기 때문에 측정 단위까지 제곱 형태로 나타난다.
표준편차 : 편차들의 평균. 분산에 제곱근을 취해서 제곱형태가 된 측정단위를 원래대로 돌려놓는다.
-> 원래의 데이터 값들이 넓게 퍼져있을수록 편차가 더 커지고, 그래서 분산의 크기도 증가하며, 표준편차도 커진다
분포의 형태는 데이터들이 한데 모인 자료의 특성에 따라 달라진다. 주로 알아둬야되는 형태는 부적편포, 정적편포, 정규분포가 있다
부적편포 : 데이터들이 오른쪽(높은 값들)에 몰려 있다. 부적편포에서는 평균<중앙값<최빈값 이 된다
정적편포 : 데이터들이 왼쪽(낮은 값들)에 몰려 있다. 정적편포에서는 평균>중앙값>최빈값 이 된다
정규분포 : 평균을 기준으로 좌우 대칭의 특징을 나타내는, 전체적인 그림은 종모양인 이론적 분포로 왜도와 첨도를 판단하는 기준이 된다. 분포에서 봉우리가 나타나는 부분은 가장 많은 데이터 값들이 해당 위치에 모여있다는 의미로 해당 위치가 최빈값을 의미하지만, 정규분포는 좌우 대칭이므로 평균, 최빈값, 중앙값 모두 다 봉우리 부분에 위치하여 같은 값을 나타낸다. 점근적이어서 그래프의 양쪽 끝이 수평축에 닿지 않는다

+왜도 : 자료의 치우침을 나타낸 개념으로 통계프로그램에서 계산된 왜도 값이 0에 가까우면 대칭적인 분포를, 0보다 크면 정적편포 형태를, 0보다 작으면 부적편포 형태를 나타낸다
+첨도 : 자료의 뾰족함 정도를 나타낸 개념으로(즉, 분포 봉우리의 뾰족한 정도) 값이 0에 가까우면 표준정규분포와 유사하게, 값이 0보다 크면 표준정규분포보다 더 뾰족하게, 값이 0보다 작으면 표준정규분포보다 덜 뾰족하게 나타난다
표준점수 : 표준편차를 측정의 단위로 사용하여 해당분포의 평균을 기준으로 점수의 위치를 표현한 것으로 데이터 수집을 통해 얻은 데이터들의 상대적 위치를 알려준다. 표준점수는 서로 다른 평균과 표준편차를 갖는 데이터들의 상대적 위치를 비교하기 위해 사용한다. 즉, 한 학생이 중간고사에서 영어를 더 잘 본건지, 수학을 더 잘 본건지 확인하고 싶을 때 표준점수를 이용하여 이를 비교할 수 있다
대표적인 예로 Z점수와 T점수가 있으며, 표준점수를 사용하는 대표적인 예로는 IQ검사가 있다
Z점수 : 편차를 표준편차로 나눈 값으로 Z점수의 분포가 정규분포라는 가정 하에 원래의 데이터들의 평균을 0으로, 표준편차를 1로 변환한 점수이다
Z = (데이터 값 - 데이터들의 평균치)/표준편차
T점수는 평균이 0이고 표준편차가 1인 Z점수의 특성상 음수와 소수점을 고려해야 하는 점을 해결하기 위한 표준점수로 평균이 50이고 표준편차가 10이다
T = 50+10Z
'이론' 카테고리의 다른 글
기초 통계 ④ - 추정 및 가설검정 (0) | 2022.01.18 |
---|---|
기초 통계 ③ - 측정 및 척도, t분포, F분포, 카이스퀘어 분포 (0) | 2022.01.18 |
기초 통계 ② - 이변량, 산포도, 공분산, 상관계수, 등분산성, 이분산성, 결정계수 (0) | 2021.12.31 |
조절된 매개효과 ② - 모형의 회귀식 (0) | 2021.12.13 |
조절된 매개효과 ① - 정의, 모형 형태 (0) | 2021.12.09 |