이론

회귀분석 ① - 회귀분석의 기본 가정, 단순회귀분석

마사미 2022. 1. 20. 21:42

*회귀분석에 대한 정확한 정의를 기억하기 위해 작성 - 특히 기본 가정*
*본 글에 나오는 사진들은 전공서적들에서 찍은 도표 혹은 그림 부분임*
*n년전 한글파일로 작성한 기초통계 요약자료에서 중요 부분만 편집하여 정리함*+*전공서적 내용 정리 포함*


회귀분석 : 한 변수로부터 다른 변수를 예측하기 위해 예측방정식을 구하는 통계방법
- 독립변수와 종속변수 사이를 나타내는 선형식을 산출
- 변수들 사이의 인과관계를 나타내어 예측 및 추론하는 분석
- 독립변수의 개수가 1개 : 단순회귀분석, 독립변수의 개수가 2개 이상 : 다중회귀분석

단순회귀분석의 기본적인 회귀모형 식(단순회귀분석은 선형회귀분석이다)

Y = m+aX+e
(m=절편, a=회귀계수, 기울기, e=오차)

회귀선 : 산포도에 나타난 점들(즉, 데이터들)을 대표하는 직선, 산포도를 관통하는 가장 적절한 선
오차 : 산포도의 각 점(데이터들)에서 회귀선에 수직으로 향하는 거리, 데이터들의 개수만큼 존재

출처 - 사회과학통계의 기본 : R 예제와 함께

*회귀분석은 데이터를 대표하는 최적의 선을 찾는 것

선형회귀분석의 기본 가정
1) 선형성 : 독립변수와 종속변수의 관계가 선형이다. 즉, 독립변수와 종속변수 간 상관이 있어야 한다
2) 등분산성 : 오차의 분산이 일정함. 즉, 하나의 X값에서 나타나는 Y값들의 퍼진 정도가 다른 X값에서도 동일해야 한다.
3) 독립성 : 독립변수와 오차는 서로 관련이 없어야 한다
4) 비상관성 : 오차간에는 서로 상관이 없다
5) 정규성 : 오차의 분포는 정규분포를 따른다

최적의 회귀선을 구하는 방법 - 최소제곱법
=> 오차들을 최소화하는 회귀선을 구하는 것
- 오차는 양수와 음수가 공존하기 때문에 오차의 합을 최소화하지 않고 오차의 제곱의 합을 최소화한다
- 이 과정에서 절편추정치와 회귀계수 추정치를 구하는 식을 얻을 수 있다

출처 - 2021 ADsP 데이터분석 준전문가

쉽게 말해서, 회귀계수상관계수*Y의 표준편차/X의 표준편차 식을 이용하여 산출할 수 있다
a=r*Sy/Sx

절편종속변수의 평균 - 회귀계수*독립변수의 평균 으로 산출할 수 있다
m=Ym(Y의 평균)-aXm(X의 평균)

하나의 독립변수 값 X위에 나타나는 편차들
총 편차 : 종속변수의 값(데이터의 값) - 종속변수의 평균
설명된 편차 : 회귀선 위의 종속변수 값 - 종속변수의 평균
설명되지 않은 편차 : 종속변수의 값(데이터의 값) - 회귀선 위의 종속변수 값

출처 - 2021 ADsP 데이터분석 준전문가

*설명된 편차는 '회귀선에 의해' 설명된 편차를 의미한다

결정계수 : 종속변수의 분산 중 독립변수에 의해 설명되는 비율, 종속변수의 분산 준 회귀선에 의해 설명되는 비율
- R^2(R squared) 기호를 사용하며 0과 1사이의 값을 나타낸다(0과 1 포함)
- 총편차 제곱 합에서 설명된 편차 제곱합의 비율로, 전체의 데이터에서 회귀식이 설명된 부분을 비율로 나타낸 것
(SSR/SST -> SSR : 설명된 편차의 제곱 합, SST : 총 편차 제곱합)
- 다시 말해서, 결정계수는 1-SSE/SST (SSE : 설명되지 않은 편차의 제곱합)
- 단순회귀분석에서 결정계수는 상관계수의 제곱과 동일하다

단순회귀분석 예시 - 영어시험점수가 높을수록 국어시험점수도 높은가?

영어점수 국어점수
90 75
80 90
70 65
50 65
70 75
90 80
75 70
85 90
100 95
독립변수 - 영어점수, 종속변수 - 국어점수
 
 
SPSS를 통한 분석 결과

상관계수(R) : 0.746
결정계수(R제곱) : 0.556
수정된 결정계수(수정된 R 제곱) : 0.493
*수정된 결정계수 : 다중회귀분석에서는 독립변수의 유의성과 관계없이 그 수만 많아져도 결정계수 값이 커지기 때문에 이를 보완하기 위해서 수정된 결정계수를 활용한다.

모형의 유의성 검정 결과 -> 회귀분석의 유의성은 F 검정을 이용함
F : 8.768
p값 : 0.021
-> 유의수준 0.05 기준으로 봤을 때 본 회귀분석은 유의하다고 판단할 수 있다
(사실, 모형의 유의성만 판단하고 싶으면 모형요약 표의 F 변화량 p값(제일 오른쪽) 값만 확인하면 된다)


회귀계수의 검정 결과 -> t 검정을 이용함
t : 2.961
p값 : 0.021
-> 유의수준 0.05 기준으로 봤을 때 회귀계수는 유의하다고 판단할 수 있다
(상수) 값의 B : 회귀식의 절편
영어점수의 B : 회귀계수 값

따라서, 추정된 회귀식 : Y=33.722+0.565X

*회귀계수가 유의하지 않으면 회귀계수=0 이라는 영가설이 채택된 것이므로 회귀식이 무의미해진다