DevSSOM

통계 기초 - 평균, 분산, 표준편차 본문

공부/통계

통계 기초 - 평균, 분산, 표준편차

데브쏨 2021. 8. 10. 20:07
반응형

대표값

: 자료의 대표적인 특징

 평균, 중간값, 최빈값, 분산, 표준편차, 구간, 최소값, 최대값 등등

 

평균(mean)

$$ 평균 = \frac{자료 전체의 합(sum)} {자료의 개수(n)} $$

  • 자료의 중심값! 이라는 뜻.
  • 평균은 수학적 연산이 가능하고 쉽지만, 모든 자료로부터 영향을 받는다.
    이 말은, 다른 뜻으로 이상한 값의 영향을 심각하게 받는다(아웃라이어에 취약하다).
  • 평균이 있어야 분산이나 표준편차 같은 계산을 시작할 수 있어서 통계에서 가장 대표적인 값이다.
  • 우리가 가진 자료가 {1 2 3 4 5} 이렇게 되어 있다면,
    평균 = (1 + 2 + 3 + 4 + 5) / 5 = 3

 

분산(variance) & 표준편차(standard deviation)

$$ 분산 = {\sum_{i=1}^n (x_i - \bar{x})^2 \over n-1} = \frac{제곱합} {자유도} = 제곱합의 평균 $$

  • 분산이란 내가 가진 자료가 평균값을 중심으로 퍼져 있는 평균적인 거리를 의미.
  • 위의 식에서 $x_i$ 는 모든 자료의 개별적인 값이고, $ \bar{x} $ 는 평균값을 말함. 즉, 모든 자료의 값에서 평균을 뺀 후에 그걸 제곱하고 모두 더해서 (자료 개수 - 1)로 나눈 것.
  • 우리가 가진 자료가 {1 2 3 4 5} 이렇게 되어있다면, 평균은 3이고
    $$ 분산 = \frac{(1-3)^2+(2-3)^2+(3-3)^2+(4-3)^2+(5-3)^2} {4} = 2.5 $$

 

  • 수식의 분자부분은 각 값에서 평균을 뺀 것임. 그냥 빼다보면 +랑 -가 섞여 나와서 값이 이상해지니까 모든 값에 제곱을 해서 강제로 모든 값을 +로 만들어줌. -> 평균값으로부터 데이터가 얼마만큼 떨어져 있는지를 전부 합친 것.
  • 수식의 분모부분. 평균적으로 데이터가 얼마만큼 떨어져 있는지를 구하기 위해, 분자를 나눠줌. 평균을 구할 때처럼. 근데 왜 n-1 로 나눌까? 분자부분에서 이미 평균값을 다 빼줬기 때문에, 평균값 1번 만큼을 제외하고 n-1개로 나눠준다고 생각하면 됨.  
  • 분자부분은 제곱합이라고 표현하고, 분모부분은 자유도라고 표현함. 
  • 문제는 이 값이 제곱으로 만들어졌으니, 루트를 씌워 다시 보정하면

$$ 표준편차 = \sqrt{분산(Variance)} $$

  • 의미상으로는 분산과 표준편차가 같은 의미. 

 

 

 

728x90
반응형
댓글