본문 바로가기

machine learning2

교차 검증(cross validation) 교차 검증이 필요한 이유 고정된 test set을 가지고 모델의 성능을 확인하고 파라미터를 수정하고, 이 과정을 반복하면 결국 내가 만든 모델은 test set에만 맞춰져 있는 모델이 된다. 이 경우에는 test set에 과적합(overfitting)되어 다른 실제 데이터를 가지고 예측을 수행하면 엉망인 결과가 나와버리게 된다. 고정된 train set과 test set으로 평가를 하고, 반복적으로 모델을 튜닝하다보면 test set에만 과적합되어버리는 결과가 생기기 때문에 이를 해결하고자 하는 것이 바로 교차 검증(cross validation)이다. 우리는 미래의 데이터를 가지고도 높은 점수가 나올 수 있게 일반화된 모델을 만들어야 한다. 2020. 9. 10.
Decision Tree Ensemble(의사결정트리 앙상블), voting, Grid Search 앙상블(ensemble)이란? 여러 머신러닝 모델을 연결(조화)시켜 더 강력한 모델을 만드는 기법. (회귀나 분류에 모두사용가능) 가장 많이 쓰이는 Random Forest, GradientBoosting은 Tree기반 모델이다. -RandomForest(배깅bagging) 희소한데이터X , 트리개수가 많아질수록 느림 서로 다른 방향으로 과대적합된 트리를 많이 만들고 평균을 내어 일반화 시키는 모델. 다양한 트리 만드는 방법 두 가지 트리를 만들 때 사용하는 데이터 포인트 샘플을 무작위로 선택한다. 노드 구성시 기준이 되는 특성을 무작위로 선택하게 한다. n_estimators : 생성트리개수 n개의 데이터 부트스트랩 샘플 구성 : n개의 데이터포인트중 무작위로 n횟수만큼 반복추출 max_features.. 2020. 8. 25.