이론

회귀분석 ② - 다중회귀분석, 위계적회귀분석

마사미 2022. 1. 20. 23:26

*회귀분석에 대한 정확한 정의를 기억하기 위해 작성 - 특히 기본 가정*
*본 글에 나오는 사진들은 전공서적들에서 찍은 도표 혹은 그림 부분임*
*n년전 한글파일로 작성한 기초통계 요약자료에서 중요 부분만 편집하여 정리함*+*전공서적 내용 정리 포함*


다중회귀분석 : 여러 개의 독립변수를 회귀모형에 포함하여 종속변수에 가장 큰 영향을 미치는 독립변수가 어떠한 것인지, 종속변수를 설명할 수 있는 가장 적합한 모형이 무엇인지를 밝히는 통계적 방법

- 단순회귀분석의 특성에 더해, 독립변수 간 상관이 낮아야 한다

=> 다중공선성 : 독립변수 간 상관이 높은 경우 다중공선성이 있다고 판단한다

*다중공선성이 높다 = 오차가 정확히 추정되지 않는다+회귀계수 추정치가 불안정+관계방향의 오류

 

다중공선성 정도를 나타내는 지표 - 분산팽창지수(VIF), 공차

- 공차 : 하나의 독립변수가 다른 독립변수들로 예측될 수 없는 정도

- 분산팽창지수(VIF) : 공차의 역수

=> 분산팽창지수는 낮고 공차는 높아야 다중공선성이 적다는 의미 ==> 분산팽창지수 기준 10 넘으면 심각

 

모형의 유의성 검정 및 회귀계수 유의성 검정

-> 단순회귀분과 똑같이 모형 유의성은 F검정, 회귀계수 유의성은 t검정 이용- https://masami.tistory.com/13

 

모형의 설명력 -> 결정계수 혹은 수정된 결정계수를 사용

*다중회귀분석은 독립변수의 수가 많아져도 독립변수의 유의성과 상관없이 값이 커지기 때문에 수정된 결정계수를 확인하는 것이 좋다

+수정된 결정계수는 유의하지 않은 독립변수가 포함되면 그 값이 줄어든다

 

최적의 회귀모형을 구하기 위한 변수 선택법 - 입력법, 전진선택법, 후진제거법, 단계선택법

- 입력법 : 연구자가 선택한 독립변수들을 동시에 모두 포함

- 전진선택법 : 종속변수와 가장 상관이 높은 변수부터 독립변수로 선정하여 통계적으로 유의한 것까지 순차적으로 포함

=> 어떤 독립변수를 먼저 선택하느냐에 따라 결정계수 값이 과대 추정될 수 있으며, 한번 넣으면 변수를 뺄 수 없다

- 후진제거법 : 모든 독립변수 포함 후 가장 설명력이 낮은 변수부터 제거, 포함기준 보다 낮은 게 없을때까지 지속

=> 통계적으로 유의하지 않은 변수만 제거, 제거하면 다시 못넣음

- 단계선택법 : 독립변수의 추가와 제거를 적절히 조합, 전진선택법+후진제거법의 특성이 섞인 방법

 

위계적 회귀분석 : 독립변수의 투입 순서가 연구자에 의해서 결정되는 방법

- 독립변수의 투입순서는 연구자의 경험적, 이론적, 논리적 근거에 의해서 결정되어야 함

- 타당한 근거가 없을 경우 단계적 회귀분석을 실시해야 함

 

다중회귀분석 예시(출처 - SPSS, 엑셀 2013으로 풀어 쓴 통계해례)

연구문제 : 기술다양성, 직무정체성, 직무중요성, 자율성, 피드백은 모두 직무성과에 통계적으로 유의한 영향을 주는가?

결정계수 : 0.202

수정된 결정계수 : 0.184

Durbin-Watson : 1.867

*Durbin Watson 값이 2에 근접하면 독립변수 간 상호 독립해야 한다는 가정을 만족한다고 판단한다

F값 : 11.342

p값 : <0.001

=> 회귀모형은 통계적으로 유의하다

다중공선성 지표인 VIF :  1과 가까움 => 다중공선성 낮음

회귀계수의 유의성 : 기술다양성, 자율성 만 유의하고 나머지는 유의하지 않음

 

최종 회귀식 : 예측된 직무성과 = 1.419 + 0.263(기술다양성(s-variety)) + 0.119(직무정체성(identity)) + 0.104(직무중요성(significance)) + 0.244(자율성(autonomy)) -0.041(피드백(feedback))

 

전진선택법

F검정의 p값 기준을 0.05 미만으로 하여, 최종적으로 포함된 독립변수는 기술다양성과 자율성이다

 

후진제거법

전체를 모두 넣고 기준치 초과의 F검정 p값을 보이는 경우 순차적으로 제거하였다

 

단계선택법

포함되어야 하는 변수의 기준, 제거되어야 하는 변수의 기준 둘 다 설정하여 기준에 맞는 변수만 포함하였다