목록Data Science (3)
DevSSOM
자료의 형태가 중요한 이유? 머신러닝은 데이터라는 디지털 자료를 바탕으로 수행하는 분석 방식이기 때문에, 가장 먼저 해야될 게 '데이터가 어떻게 구성되어 있는지 확인'하는 것. 따라서, 자료의 형태를 파악하는 것은 필수. 자료 형태 구분 자료는 크게 수치형 자료와 범주형 자료로 나뉘고, 수치형 자료는 연속형 자료, 이산형 자료, 범주형 자료는 순위형 자료, 명목형 자료로 각각 나뉨. 1) 수지형 자료 수치형 자료는 양적 자료(Quantitative data)라고도 불림. 말 그대로 수치로 측정이 가능한 자료임. ex) 키, 몸무게, 시험 점수, 나이 등 2) 범주형 자료 범주형 자료는 질적 자료(Qualitative data)라고도 불림. 수치로 측정이 불가능한 자료를 의미. ex) 성별, 지역, 혈액형 등
머신러닝 명시적으로 프로그래밍을 하지 않고도 컴퓨터가 학습할 수 있는 능력을 갖게 하는 것. 데이터가 주어졌을 때, 명시적 프로그래밍은 사람이 직접 데이터의 케이스를 나누고, 각각의 케이스에 맞는 행동을 하게 하는 것. 이에 반해, 머신러닝은 사람이 분류를 하지 않고, 기계가 스스로 학습을 해서 케이스를 나누고 예측을 해서 행동함. 빅데이터 같이 큰 데이터가 들어오게 되면서 효율의 차이가 많이 나게 됨. 머신러닝 기법 구분 지도학습 vs 비지도학습 예측해야 할 결과에 대한 정답 데이터가 주어지면 지도학습, 없으면 비지도학습. 강화학습 학습에 필요한 데이터가 없어도, 기계가 스스로 데이터를 만들어내서 학습할 수 있으면 강화학습. ex) 최신 알파고는 강화학습으로 혼자 바둑두고 혼자 싸워서 스스로 발전함.
데이터 과학의 정의 컴퓨터를 활용해서 데이터를 분석하고 현실의 문제를 해결하는 작업. 데이터 과학의 목표? Decision Making : 의사결정. 단순히 직감과 감에 의존하던 전통적 의사결정 방식이 아니라, 데이터 기반 의사결정 방식으로 더 나은 의사결정을 하기위해 데이터 과학을 활용. Monetization : 수익화. 비즈니스가 더 나은 의사결정으로 챙길 수 있는 것은 결국 돈이니까. 머신러닝과 다른 접근방법의 차이 0. 빅데이터 분석 vs 통계 분석 vs 머신러닝 데이터를 사용하고 분석해서 현실의 문제를 해결하는 과정은 빅데이터, 통계, 머신러닝 3개 영역이 모두 같음. 하지만, 각각의 접근 방식에 따라서 목표로 하는 게 다르고, 만들어내고자 하는 결과물은 달라짐. 1. 빅데이터 분석 그로스해킹..