DevSSOM

통계 기초 - 상관관계 본문

공부/통계

통계 기초 - 상관관계

데브쏨 2021. 8. 15. 00:06
반응형

상관관계

: 한 변수와 다른 변수가 함께 변하는 함수관계

 

  • 양의 상관관계 : 두 변수가 같은 방향으로 움직인다.
    - x가 증가할 때, y가 증가한다 = x가 감소할 때, y가 감소한다
    - y가 증가할 때, x가 증가한다 = y가 감소할 때, x가 감소한다

  • 음의 상관관계 : 두 변수가 다른 방향으로 움직인다.
    - x가 증가할 때, y가 감소한다 = x가 감소할 때, y가 증가한다
    - y가 증가할 때, x가 감소한다 = y가 감소할 때, x가 증가한다

  • 보통 여기까지만 배우는데, 사실, 이게 다가 아니다!
  • 상관관계를 나타내는 상관계수는 두 가지를 의미 : 힘 & 방향

 

상관계수

  • 상관계수는 -1부터 0을 거쳐 +1까지만 존재

  • 상관계수의 + / - 는 방향을 의미 (우상향하냐, 우하향하냐)
  • 상관계수가 -1일 때 = 완벽한 음의 상관관계
    상관계수가 0일 때  = 아무런 관계도 없다는 뜻
    상관계수가 +1일 때 = 완벽한 양의 상관관계

  • 상관계수의 크기는 힘을 의미 (힘이 세냐, 약하냐 = 얼마나 모여있냐 / 흩어져있냐)
  • 상관계수가 절대값 1에 가까울 수록 힘이 세다.
    힘이 세다는 것은 x와 y를 scatter plot으로 그렸을 때, 데이터들이 서로 가깝게 모여 있다는 의미.
    따라서, 데이터들이 퍼져 있으면 상관계수가 약해서 0에 가까워짐.

  • 보통 상관계수의 각도가 높을 수록 상관관계가 더 센거라고 오해하는데, 전혀 상관없음! 상관관계는 점들이 얼마나 모여있는지를 의미하는 것이지 점이 이루는 선의 각도와는 전혀 무관함 (아래의 두번째 그래프들). 단, 2번째줄에서 4번째 그래프처럼 아예 수평선이 되면, 상관관계는 0. x가 증가하던 말던 y는 일정한 값을 나타내기 때문에, x와 y는 상관이 없음. 

 

  • 만약, 아래와 같은 애들은 \(y=x^2\) 이라고 하는 함수를 가지고서 시뮬레이션해서 만들어진 점들인데, 이 점들이 좌측으로 몰렸는지, 우측으로 몰렸는지에 따라 상관계수는 순서대로 이렇게 변화함. \(r_{xy} = -0.82, r_{xy} = -0.09, r_{xy} = 0.36 \). 근데, 중요한 것은 우리가 말하는 상관관계는 Linear Relationship, 즉 직선관계만을 측정할 수 있음. 아래 그래프들처럼 선이 직선이 아닌 곡선이면 상관관계나 상관계수로서 측정이 불가능함. 이런 데이터를 가지고서는 상관관계를 말하는 건 아무 의미 없음. 

 

  • 가장 중요한 것은 "상관관계는 인과관계가 아니다"라는 점.
  • 인과관계 : 원인과 결과의 관계를 가지는 변수의 관계성을 의미.
    예를 들어, 저녁을 먹어서 배부르다 (저녁식사 : 원인, 배부른 것 : 결과), 수입이 있기 때문에 지출이 있다 (수입 : 원인, 지출 : 결과), 고객은 만족하기 때문에 재방문하려고 한다 (고객만족 : 원인, 재방문 의도 : 결과)

 

728x90
반응형
댓글