DevSSOM

데이터 과학과 머신러닝 이해하기 본문

Data Science

데이터 과학과 머신러닝 이해하기

데브쏨 2021. 7. 27. 15:56
반응형

데이터 과학의 정의

컴퓨터를 활용해서 데이터를 분석하고 현실의 문제를 해결하는 작업.

 

 

데이터 과학의 목표?

  • Decision Making : 의사결정. 단순히 직감과 감에 의존하던 전통적 의사결정 방식이 아니라, 데이터 기반 의사결정 방식으로 더 나은 의사결정을 하기위해 데이터 과학을 활용.
  • Monetization : 수익화. 비즈니스가 더 나은 의사결정으로 챙길 수 있는 것은 결국 돈이니까.

 

 

 

머신러닝과 다른 접근방법의 차이

0. 빅데이터 분석 vs 통계 분석 vs 머신러닝

 

데이터를 사용하고 분석해서 현실의 문제를 해결하는 과정은 빅데이터, 통계, 머신러닝 3개 영역이 모두 같음. 하지만, 각각의 접근 방식에 따라서 목표로 하는 게 다르고, 만들어내고자 하는 결과물은 달라짐. 

 

1. 빅데이터 분석

그로스해킹이나 마케팅에서 익숙한 빅데이터 분석은, 데이터에서 상관관계(Correlation)를 찾아내는 분석 방법. 어떤 큰 데이터를 통해서 현상을 발견해내고, '이럴 경우엔, 이럴 것이다' 라고 상관관계를 찾아내서 현상을 설명하고, 의사결정을 내리는 데에 활용하게 되는 것. 속담에 '까마귀 날자 배 떨어진다'라는 말이 있는데, 그러다보니 어떤 인과관계를 찾는다기 보다도 '이러면, 이럴 것이다' 라는 경향에 의해서 의사결정을 하는 식임.

 

2. 통계 분석

통계 분석의 목표는 실제 우리의 세계를 이해하고 해석하는 데에 중점을 두고 있음(Explanation & Interpreting real World). 큰 세계를 이해하기 위해 모형을 만들고, 모형을 통해서 현상을 이해하고 해석하다보니, 모형에서 나오는 통계치라던가 수치들, 가정들이 중요하게 되었고, 이 모형이 정말 유의미한지 불확실한지에 관심이 많음. 통계 분석은 적은 데이터를 가지고 해왔기 때문에 가정들이 중요하게 됨. 

사용하는 기술이나 기법들이 머신 러닝과 유사한 게 많긴 하지만, 통계의 목적 자체가 이해와 해석에 있기 때문에, 결과를 가지고 이야기 하는 것이라던지 방법론 같은 것들에서 상당한 차이가 있음.

 

3. 머신러닝

머신러닝의 핵심목표는 크게 두 가지. 예측과 패턴을 분석하는 것 (Prediction & Pattern Analysis). 기계가 뭔가 학습을 하고 모델을 만들 때, 내가 알고 싶은 패턴을 잘 만드는지가 중요. 통계와는 다르게, 기본적으로 많은 데이터를 통해서 학습을 하고, 모델의 정확도나 성능적인 측면이 중요하다는 데에 차이점이 있음. 그리고 이런 것들을 기계가 스스로 학습할 수 있도록 하는 데에 목표가 있음.

 

 

 

머신러닝?

컴퓨터가 데이터로부터 스스로 학습 할 수 있도록 프로그래밍하는 과학적인 활동. 여기서 과학적인 활동이란, 현실의 문제를 해결하기 위해 가설을 세우고, 가설을 검증해나가는 작업을 말함. 머신러닝의 Learning, 즉 학습이라는 건, 기계에게 어떤 일(Task)을 경험하게 함으로써(Experience), 성능(Perfomance)을 높이는 일.

 

머신러닝의 발전 배경에는 1) 데이터가 많아졌다는 점과 데이터를 처리하고 분석할 수 있는 2) 컴퓨터의 성능이 좋아졌다는 점, 그리고 이것들을 다룰 수 있는 3) 알고리즘이 개선이 되었다는 점이 있음. 

 

 

머신러닝을 어떨 때 사용할까?

머신러닝이 결국, 컴퓨터한테 규칙이나 패턴을 만들어달라고 하는 것. 그러다보니 머신러닝이 모든 문제에 만능키처럼 사용될 수 있을 거라고 생각하는데, 머신러닝을 실제 도입하기 위해서는 다음의 3가지 조건을 만족하는지 따져보는 것이 좋다고 함. 

 

Problems

  1. for hand-tuning or long lists of rules
  2. for not working and traditional approach
  3. for adapting to new data

1. 사람이 직접 리소스를 써서 규칙이나 정책을 만들어내는 일

2. 전통적인 방식들로 접근하는 일이나 잘 작동하지 않는 일

3. 서비스나 실제 제품, 문제나 환경들은 시간이 지남에 따라 조건과 데이터가 계속해서 변화하게 되고, 그러다보니 기존의 방법은 먹히지 않아서, 계속해서 자동으로 새로운 규칙을 찾아나가야 하는 일. 

 

위의 3가지 경우라면 머신러닝을 도입하는 게 좋다고 하는데.... 이거 인간이 하는 일이면 웬만해선 다 되는 거 아님???? 띠용

 

 

 

 

 

 

728x90
반응형
댓글