데이터 분석가가 반드시 알아야할 모든 것 6

서포트벡터머신, 연관규칙과 협업 필터링

13-5. 서포트벡터머신 (분류 모델)서포트벡터머신(SVM) :- 판별분석처럼 범주를 나눠주는 결정경계선을 찾아 관측치의 범주를 예측하는 모델- 이진 분류에만 사용 가능하지만 비선형 데이터에서 높은 정확도를 보이며 과적합되는 경향도 적은 모델  서포트 벡터  : 결정경계선의 위치와 각도를 정해줄 수 있는 기준이 되는 관측치- SVM에서는 서포트 벡터만으로 결정경계선을 정하게 되며 결정경계선과 서포트 벡터와의 거리가 마진이 됨.- SVM에서는 거리를 기준으로 모델을 만들기 때문에 반드시 데이터 정규화나 표준화를 해주어야 함.독립변수가 k개 일 때, 최적의 결정경계선을 찾기 위해서는 최소 k - 1개의 서포트 벡터가 필요.WX + b = 0W: 가중치 벡터를 의미하며 독립변수 수에 따라 {w1, w2, … ..

모델 평가

14-1. 학습 셋, 검증 셋, 테스트 셋과 과적합 해결 학습 셋과 테스트 셋을 나누고, 학습 셋의 일부의 검증 셋(7:3)으로 분리 Degree 1 : 모델이 너무 단순해서 Y값을 제대로 예측하지 못함, 학습이 너무 덜 된 경우 과소적합(underfitting) Degree 15 : 학습 셋에 과도하게 적합(fit)하도록 학습된 과적합 상태(overfitting) -> 학습이 너무 많이 이루어지거나, 변수가 너무 복잡해서 발생, train 데이터와 test 데이터가 중복될 경우 발생 Degree 5 : 최적의 모델 True function과 가장 유사한 모델 검증셋 : 학습 셋 데이터를 통해 모델을 만들 때 과도하게 학습되지 않도록 조정해주는 역할을 함 -> 검증 셋 데이터는 학습 셋 데이터의 모델 학..

데이터 분석하기2

13-3. 의사결정나무와 랜덤포레스트(예측/분류 모델) 의사결정나무(decision tree) 분석 기법 : 나뭇가지들이 뻗어 있는 형태로 데이터들이 분리되어 가며 최적의 예측 조건을 만드는 것 ( 가지가 나눠지는 부분은 독립변수의 조건, 마지막 잎사귀들은 최종의 종속변숫값) 분류나무(Classification tree) : 명목형 종속변수를 분류할 수 있음, 양적 척도와 질적 척도의 독립변수 다 사용 가능 회귀나무(Regression tree) : 연속형의 수를 예측할 수 있음, 양적 척도와 질적 척도의 독립변수 다 사용 가능 뿌리 노드(Root Node) : 분류가 시작되는 전체 데이터 노드(1) 부모 노드(Parent Node) : 분리되기 전의 노드(1은 2,3의 부모 노드) 자식 노드(Child..

데이터 분석하기

12-1. 분석 모델 개요 데이터 분석 방법론 : 통계학에 기반한 통계 모델과 인공지능에서 파생된 기계학습으로 나뉨(그 둘간의 경계는 모호하며 상당부분 겹치기도 함) → 기계학습 모델 : 대용량 데이터를 활용해 예측의 정확도를 중요시 → 통계 모델 : 모형과 해석을 중요시하고 오차와 불확정성을 강조 1. 우선 종속변수의 유무 , 지도학습과 비지도학습 2. 독립변수와 종속변수의 속성에 따른 구분, 질적 척도인지 양적 척도인지에 따라 사용할 수 있는 분석 방법론이 다르지만 두가지 방법론이 완전히 구분되는 것은 아님 지도학습 : 입력에 대한 정답이 존재하여 출력된 결괏값과 정답 사이의 오차가 줄어들도록 모델을 학습/수정. 결괏값이 질적 척도이면 회..

데이터 전처리와 파생변수 생성

11-1. 결측값 처리 결측값 : 분석 환경에 따라 '.' , 'NA', 'NaN' 등으로 표시 완전 무작위 결측(MCAR) : 순수하게 결측값이 무작위로 발생한 경우 -> 결측값을 포함한 데이터를 제거해도 편향(bias)가 거의 발생되지 않음 무작위 결측(MAR) : 다른 변수의 특성에 의해 해당 변수의 결측치가 체계적으로 발생한 경우 전국 체인 매출 정보 중, 특정 체인점의 POS기기에 오류가 나서 해당 체인점에 해당하는 매출 정보에 결측값이 많이 나타난 경우 비무작위 결측(NMAR) : 결측값들이 해당 변수 자체의 특성을 갖고 있는 경우 고객정보 데이터에서 '고객 소득' 변수에서 결측값들 대부분이 소득을 공개하기 꺼려해서 결측이 발생한 경우 결측된 값은 그 값이 실제로 무엇인지 확인할 수 없기 때문..

데이터 탐색과 시각화

10-1. 탐색적 데이터 분석 탐색적 데이터 분석(EDA) : 가공하지 않은 데이터를 그대로 탐색/분석하는 기법 - EDA를 하는 주요 목적 데이터의 형태와 척도가 분석에 알맞게 되어 있는지 확인 데이터의 평균, 분산, 분포, 패턴 등을 확인해 데이터의 특성 파악 데이터의 결측값, 이상치 파악 및 보완 변수 간의 관계성 파악 분석 목적과 방향성 점검 및 보정 - 엑셀을 활용한 EDA 각 데이터 샘플을 1,000개씩 뽑아 엑셀에서 눈으로 쭉 살피는 것으로도 여러 정보를 얻을 수 있음. 범주형 데이터의 비율이나 연속형 데이터의 범위 등 파악 가능 피벗 테이블을 활용해 필요한 데이터를 추출해 확인 가능 -> 친화적인 프로그램을 이용해 본격적인 데이터 분석에 앞서 데이터에 대한 이해도를 높이는 작업 - 탐색적 ..