기초 통계 ④ - 추정 및 가설검정
*기초 통계 개념에 대한 정확한 정의를 기억하기 위해 작성*
*본 글에 나오는 사진들은 전공서적들에서 찍은 도표 혹은 그림 부분임*
*n년전 한글파일로 작성한 기초통계 요약자료에서 중요 부분만 편집하여 정리함*+*전공서적 내용 정리 포함*
추정 : 표본으로부터 미지의 모수를 추측하는 것 - 점추정, 구간추정으로 구분된다
점추정 : 하나의 값으로 모수를 추정하는 것, 모수가 특정한 값일 것이라고 추정하는 것
- 점추정치의 대표적인 예로는 평균, 중앙값, 최빈값 등이 있다(https://masami.tistory.com/9)
- 모수를 하나의 특정한 값으로 나타내어 정밀하다
- 점추정치의 정확성에 대해서는 확신할 수 없다
- 점추정량의 조건 : 불편성, 효율성, 일치성, 충족성
=> 모든 가능한 표본에서 얻은 추정치들의 기댓값은 모집단의 모수와 차이가 없고, 추정치들의 분산이 작을수록 좋으며, 표본의 크기가 아주 커지면 추정치들이 모수와 거의 같아지고, 추정치들은 모수에 대하여 모든 정보를 제공한다
- 표본평균 : 모집단의 평균을 추정하기 위한 추정치, 표본분산 : 모집단의 분산을 추정하기 위한 추정치
=> 즉, 표본평균은 표본을 상대로 낸 평균값이며, 표본분산은 표본을 상대로 낸 분산값이다
구간추정 : 하나의 특정한 값이 아니라 어느 구간 사이에 모수가 있을 것이라고 추정하는 것
- 점추정치에 비해 정밀성이 낮다(즉, 하나의 특정 값으로 딱 찍어주는 게 아니다)
- 더 많은 정보가 제공되기에 점추정치보다 더 확신할 수 있다
=>여기서 확신은 모수 구간 추정치가 실제로 모수를 포함하고 있을 거라는 확신을 의미한다
- 신뢰구간의 너비는 z기각값과 표준오차가 결정하며, 표준오차가 작아질수록 추정치는 더욱 정확해진다
- 항상 추정치의 분포에 대한 전제가 필요하며, 구해진 구간 안에 모수가 있을 가능성의 크기가 주어져야 한다
=> 즉, 어떤 분포를 사용한 검정이며 '신뢰구간'의 확률(95% 신뢰구간) 등이 주어져야 한다
95% 신뢰구간의 의미 : 모집단에서 무한대의 표본을 추출하고 무한대의 95% 신뢰구간을 추정했을 때, 이 중 95%의 신뢰구간이 모집단의 평균을 포함하고 있을 것이라는 의미이다
*신뢰구간의 너비는 z기각값과 표준오차가 결정하는데, 여기서 z기각값은 신뢰구간 '%'와 관련이 있다
가설검정 : 모집단에 대한 어떤 가설을 설정한 뒤에 표본관찰을 통해 그 가설의 채택여부를 결정하는 분석방법
- 귀무가설(영가설) : 연구자가 증명하고 싶은 가설의 반대 가설
(주로 '비교하는 값과 차이가 없다, 동일하다' 를 기본개념으로 하는 가설)
- 대립가설 : 연구자가 증명하고 싶었던 가설
(주로, 뚜렷한 증거가 있을 때 주장하는 가설)
*무언가를 주장하고 싶을 때 그 반대의 가설을 설정하고 반대의 가설에 대한 반례를 찾는 것이 더 쉽기 때문에 위와 같이 가설을 설정한다
유의수준 : 영가설이 옳다는 가정하에 검정통계량이 얼마나 극단적이어야 그것을 극단적이라 결론짓고 영가설을 기각여부를 판단하는 정도(주로 유의수준 5%-0.05를 기준으로 하고 양방검정으로 하여 2.5%, 2.5% 할당하여 설정함)
기각역 : 귀무가설이 옳다는 전제 하에 유의수준 기준으로 극단적인 확률에 속해서 가설을 기각하는 영역
제1종오류 : 영가설이 참인 상황에서 이를 기각하는 경우
제2종오류 : 영가설이 거짓일 때 영가설 기각에 실패할 확률
검정력 : 영가설이 거짓일 때 영가설을 기각하는 확률
- 유의수준에 따라서 값에 차이가 나며, 유의수준이 커질수록 검정력이 커진다
- 양방검정보다 일방검정일 때 검정력이 더 커진다
- 표본크기가 커질수록 검정력이 커진다
p-value : 영가설이 옳다는 가정하에 검정통계량이 이론적으로 따르는 표집분포상에서 표본에 기반한 검정통계량보다 더 극단적일 확률
*p-value가 유의수준 값보다 더 크거나 혹은 더 작을때(유의수준 지점보다 더 극단에 위치할 때) 영가설을 기각한다