*기초 통계 개념에 대한 정확한 정의를 기억하기 위해 작성*
*본 글에 나오는 사진들은 전공서적들에서 찍은 도표 혹은 그림 부분임*
*n년전 한글파일로 작성한 기초통계 요약자료에서 중요 부분만 편집하여 정리함*
*대부분의 값은 통계 프로그램들이 계산하므로 공식은 가급적 제외하여 정리함*
이변량은 두 가지 변수를 동시에 연구할 때의 데이터 값들이라고 한다. 이변량은 한 변수가 변할 때 다른 변수가 어떻게 변하는지를 나타낸다. 즉, 두 변수들이 서로 상관이 있는지, 혹은 같이 변하는지 등을 알아보기 위해서 사용된다.
이런 이변량 분포를 보여주는 데 가장 유용한 방법은 산포도를 통해서 나타내는 것이다. 산포도는 두 변수가 동시에 변하는 모양을 그래프로 나타낸 것으로 두 변수 사이의 관련 유무를 알려준다. 두 변수들간의 관계가 강하면 강할수록 산포도의 점들은 가상적인 직선을 따라 모이게 된다. 산포도의 예시 그림은 다음과 같다.

산포도의 점들이 그래프 a처럼 아무렇게나 찍혀있는 경우 관련성이 없다고 말할 수 있다. 어느 정도 타원의 형태를 보인다면 이는 관련성이 있는 경우에 해당되며, 산포도의 점들이 정확히 한 직선을 이루는 경우 이는 관련성이 완벽하다고 할 수 있다. 그러나 실제로는 산포도의 모든 점들이 직선을 이루는 경우는 없다.
산포도는 두 변수간의 관련성이 어떤 방향으로 진행되는지도 보여준다. X값이 증가할수록 Y값이 증가하는 경우에는 정적 방향, X값이 증가할수록 Y값이 감소하는 경우에는 부적 방향이라고 할 수 있다. 즉, 그래프 c의 경우에는 정적 방향, 그래프 d의 경우에는 부적 방향이다. 관련성의 방향은 관련성이 얼마나 깊은지를 나타내는 관련성의 강도와는 무관하다.
공분산은 이변량 변수들간의 관련성을 나타내는 지수로 두 변수 동시에 일어나는 변화를 나타내는 상관의 통계량이다. 이변량 분포에서는 두 변수들간의 선형성의 정도와 방향을 공분산이라는 하나의 수치로 확인할 수 있다. 공분산의 계산 공식은 다음과 같다.

+X의 편차점수와 Y의 편차점수의 곱(교차곱)의 전체 합을 전체 사례수로 나눈 것이다
두 변수들 사이에 정적인 관계가 있으면, X의 평균 이상의 점수들은 Y의 평균 이상의 점수들과 관련되어 있고, 반대로 X의 평균 이하의 점수들은 Y의 평균 이하의 점수들과 관련이 있다. 네 개의 사분면에서 각각의 편차 점수가 동일한 부호일 경우에는 교차곱이 양의 부호를 가지고, 서로 다른 부호일 때 음의 부호를 가진다. 즉, 제 1사분면과 제 3사분면에 있는 모든 자료점들의 교차곱은 양의 값이고, 제 2사분면과 제 4사분면에 있는 모든 자료점들의 교차곱은 음의 값을 가진다. 산포도의 제 1사분면과 제 3사분면에 점들이 많으면 공분산은 양의 부호를 갖고, 제 2사분면과 제 4사분면에 점들이 많으면 음의 부호를 갖는다.

공분산은 관련성을 측정하는 측정치로 사용하기에는 부적절하다. 공분산은 관련된 변수들의 기본 척도나 측정 단위에 의해 결정되는데, 이는 측정단위를 조정할 수 없고 그대로 반영이 된다는 것을 의미한다. X가 커질수록 Y가 커지는 관계에 있는건 그대로이긴 하지만, 공분산은 곱해진 수 만큼 그 배수로 커지게 되며 단위도 제곱이 된다. 따라서, 공분산은 원래의 자료와 측정단위가 달라지기에 이를 표준화 할 필요성이 생겼다.
상관계수는 두 변수간의 관계를 설명하기 위해 두 변수가 동시에 변하는 정도를 표시한 측정치로 공분산을 표준화 한 것이다. 상관계수를 통해서 우리는 두 변수간의 관계의 방향과 그 크기를 알 수 있다. 상관계수는 보통 r 로 표기한다.
상관계수 r은 변수들의 단위와 상관없이 –1~+1 사이의 값을 나타낸다. 상관계수가 양의 부호를 가질 경우 정적 상관방향을, 음의 부호를 가질 경우 부적 상관방향을 나타낸다. 상관계수의 크기는 상관의 정도를 나타내며, 상관계수의 절댓값의 크기가 클수록 상관의 정도가 강하다는 것을 의미한다. 상관계수 r은 X의 상대적 위치에 따른 Y의 상대적 위치가 일치하는 정도를 반영하기 때문에 원래의 자료값을 표준점수로 바꾸거나 특정한 변수에 상수를 더하거나 뺴거나 곱하거나 나누는 자료의 선형변환이 있더라도 이에 영향을 전혀 받지 않는다. 원래의 자료값에 수리적 연산을 실시하면 그 값이 커지는 공분산과는 다르다.
상관관계를 해석할 때 주의할 점은 상관관계는 두 변수간의 관련성만 제시할 뿐, 인과관계를 나타내는 것이 아니라는 점이다.
상관계수에 영향을 미치는 요인은 공분산과 비슷하다. 상관계수는 공분산과 마찬가지로 선형적 관련성이 있어야 한다. 그렇다고 선형적 관련성이 없다는 것이 관련성이 없다는 의미는 아니다. 상관계수는 또한 등분산성을 가져야 한다.
등분산성이란 두 변수들을 대표하는 직선을 그어 독립변수의 어떤 지점에서도 종속변수의 흩어진 정도가 같음을 의미한다. 즉, 독립변수 X의 값이 어떤 값이어도 그 값의 위치에 존재하는 종속변수 Y의 값들의 퍼진 정도는 같다는 것이다. 이와 반대로, X변수가 변할 때 Y변수의 퍼진 정도가 변하는 경우는 이분산성이라고 할 수 있으며 이 경우에는 Y변수의 퍼진 정도에 따라 상관계수가 과대 추정되거나 과소추정되는 경우가 발생한다.

산포도에서 다른 점들과 따로 떨어져 있는 자료점, 즉, 독립변수와 종속변수가 갖는 경향성에서 매우 동떨어진 값을 outlier라고 하며, 이는 상관계수의 크기에 영향을 미친다. 두 변수의 상관 방향과 유사한 위치에 있을 경우 상관이 증가하며, 두 변수의 상관의 방향과 다른 방향에 위치한 경우 상관이 감소한다. outlier를 제외하면 상관이 유의하지 않는 경우에도 outlier가 존재해서 상관을 유의하게 만들수도 있다. outlier가 최대한 없을수록 상관계수를 알맞게 계산할 수 있다. 그렇다고, 높은 상관을 나타내기 위해서 자료를 임의로 삭제하면 자료 왜곡이 발생하는 것이기에 outlier 삭제를 함부로 하면 안된다. outlier가 연구의 특성상 존재하지 않을 신뢰롭지 못한 자료라면 제거한 후 상관계수를 계산하는 것이 적절하지만, 연구의 특성상 충분히 존재할 수 있는 경우에는 이를 제거해서는 안된다.
각 변수들의 범위에 제한이 있는 경우에는 실제보다 상관이 낮게 추정될 수 있다. 예를 들어, 정적 상관을 나타내는 두 변수가 절단되어 일부분의 상관분석을 실시할 경우, 원래의 자료에서 나타나는 상관계수보다 낮은 상관계수 값을 산출한다는 것이다.

두 변수의 관련성의 강도에 대한 판단을 하는 측정치에는 상관계수를 제곱한 값인 결정계수가 존재한다. 결정계수는 두 변수가 공유하는 공통 분산의 비율로 두 변수가 얼마만큼 관련되어 있는지를 나타낸다. 즉, 한 변수의 총 변화량을 다른 변수가 얼마만큼 설명하고 있는지를 나타낸다.
상관계수로 가장 많이 사용하는 피어슨 적률 상관계수는 선형 관계에 대한 측정치이기 때문에 곡선형의 산포도에서는 해당 상관계수를 사용할 수 없다.
피어슨 계수 이외로 가장 많이 사용하는 상관계수에는 Spearman 등위 상관계수가 있다. 스피어만 상관계수는 상관을 구하고자 하는 두 변수 중에서 하나 혹은 두 변수 모두 서열척도인 경우이다.
점이연상관계수, 혹은 양류상관계수는 한 변수가 명명척도에 의해서 이분화된 질적 변수이며 다른 변수는 연속적인 양적 변수일 때 두 변수의 상관을 구하기 위해서 사용하는 상관계수이다.
+X가 증가할수록 Y가 증가한다는 관계 속에서 X는 영향을 주는 변수, Y는 영향을 받는 변수가 된다
따라서, X => 독립변수(영향을 주는 변수, 설명변수), Y => 종속변수(영향을 받는 변수, 반응변수)
'이론' 카테고리의 다른 글
기초 통계 ④ - 추정 및 가설검정 (0) | 2022.01.18 |
---|---|
기초 통계 ③ - 측정 및 척도, t분포, F분포, 카이스퀘어 분포 (0) | 2022.01.18 |
기초 통계 ① - 평균, 분산, 표준편차, 집중경향성, 정규분포, 표준점수 (0) | 2021.12.27 |
조절된 매개효과 ② - 모형의 회귀식 (0) | 2021.12.13 |
조절된 매개효과 ① - 정의, 모형 형태 (0) | 2021.12.09 |