목록공부/통계 (5)
DevSSOM
상관관계 : 한 변수와 다른 변수가 함께 변하는 함수관계 양의 상관관계 : 두 변수가 같은 방향으로 움직인다. - x가 증가할 때, y가 증가한다 = x가 감소할 때, y가 감소한다 - y가 증가할 때, x가 증가한다 = y가 감소할 때, x가 감소한다 음의 상관관계 : 두 변수가 다른 방향으로 움직인다. - x가 증가할 때, y가 감소한다 = x가 감소할 때, y가 증가한다 - y가 증가할 때, x가 감소한다 = y가 감소할 때, x가 증가한다 보통 여기까지만 배우는데, 사실, 이게 다가 아니다! 상관관계를 나타내는 상관계수는 두 가지를 의미 : 힘 & 방향 상관계수 상관계수는 -1부터 0을 거쳐 +1까지만 존재 상관계수의 + / - 는 방향을 의미 (우상향하냐, 우하향하냐) 상관계수가 -1일 때 = ..
변수(Variable) 변수란 값이 변하는 숫자. 변수의 반대말은 상수. 변하지 않고 항상 그대로 있는 숫자라는 뜻이니까. 예시 1 : 회사에서 고객을 상대로 상품에 대한 만족도를 조사했을 때, 변수명은 '고객만족도'이고, 조사한 이 변수의 값은 고객마다 다르기 때문에 값이 변하니까 '변수'임. 예시 2 : '교육정도'라는 변수는 하위에 4가지 수준의 속성을 가지고 있음. 중졸/고졸/대졸/대졸이상. 물론 여기서 속성은 연구자의 의지에 따라 조금씩 바뀔 수는 있음. 이렇게 4가지의 속성을 그대로 가지고 분석하기는 어려움. 통계프로그램은 숫자만을 인식하고, 분석의 기초는 수학적인 것이기 때문에 각 속성에 값을 부여함. 부여된 값들 사이에는 어떠한 관계가 있을 수도 있고, 없을 수도 있음. 변수의 종류 대부분..
$$ H_0: D_{A-B} = 0$$ $$ H_1: D_{A-B} \ne 0 \quad 또는 \quad H_a: D_{A-B} \ne 0 $$ \(H_0\) : 귀무가설 \(H_0\)는 영어로 Null Hypothesis 의 약자. Null이란 비어있다, 아무것도 없다는 뜻. 우리말로 귀무가설. 즉, 無로 돌아가는 가설이라는 의미. 아무 영향도 없고, 아무 일도 없다 라는 것을 가정하는 가설 -> 이 가설이 맞다면 아무 일도 없을 거다! 귀무가설은 언제나 = 0 로 기억. \(H_1\) 또는 \(H_a\) : 대립가설 \(H_1\) 또는 \(H_a\) 는 영어로 Alternative Hypothesis의 약자. 우리말로 대립가설. 즉, 첫번째의 귀무가설을 대체하는 대립하는 가설이라는 말. 위의 두 개를..
p값 (p밸류) p-value : probability value -> 확률값. "어떤 사건이 우연히 발생할 확률이 얼마일까?"에서 어떤 사건이 우연히 발생할 확률이 바로 p값. 왜 p값은 항상 0.05보다 작아야 할까? 혹은 작기를 바랄까? p값은 확률값이기 때문에 p값이 가질 수 있는 값은 0부터 1까지. 0.05를 %로 바꾸면 5%의 확률. p값이 0.05보다 작다는 것은 어떤 사건이 우연히 발생할 확률이 5%보다 작다는 의미. 즉, 이 사건이 우연히 일어났을 가능성이 거의 없다고 보는 것. 분명히 뭔가 이유(인과관계)가 있다고 추정하는 것. 여기서 기준이 되는 5%는 쉽게 말해, "이정도면 우연은 아닐꺼야" 라는 수준의 정도. p값이 0.05보다 작다는 것 = 어떤 사건이 우연히 발생할 가능성이 ..
대표값 : 자료의 대표적인 특징 평균, 중간값, 최빈값, 분산, 표준편차, 구간, 최소값, 최대값 등등 평균(mean) $$ 평균 = \frac{자료 전체의 합(sum)} {자료의 개수(n)} $$ 자료의 중심값! 이라는 뜻. 평균은 수학적 연산이 가능하고 쉽지만, 모든 자료로부터 영향을 받는다. 이 말은, 다른 뜻으로 이상한 값의 영향을 심각하게 받는다(아웃라이어에 취약하다). 평균이 있어야 분산이나 표준편차 같은 계산을 시작할 수 있어서 통계에서 가장 대표적인 값이다. 우리가 가진 자료가 {1 2 3 4 5} 이렇게 되어 있다면, 평균 = (1 + 2 + 3 + 4 + 5) / 5 = 3 분산(variance) & 표준편차(standard deviation) $$ 분산 = {\sum_{i=1}^n (..