반응형
모형의 적합성을 평가하는 방법
- MSE는 낮을수록 좋다.
- 복잡한 모형일수록 과적합 일어남. 학습데이터는 잘 맞음.
데이터 분할
- 과적합을 방지하기 위해 전체 데이터를 학습, 검증, 테스트 데이터로 나눔. 보통 5:3:2
> 학습 데이터 : 모형 f를 추정하는데 필요
> 검증 데이터 : 추정한 모형 f가 적합한지 검증함
> 테스트 데이터 : 최종적으로 선택한 모형의 성능을 평가
K-Fold 교차검증(K-Fold Cross Validation)
- 모형의 적합성을 보다 객관적으로 평가하기 위한 방법
- 데이터를 k(주로 5 또는 10)개 부분으로 나눈 뒤, 그 중 하나를 검증 집합, 나머지를 학습 집합으로 분류
- 위 과정을 k번 반복하고 k개의 성능 지표를 평균하여 모형의 적합성을 평가
LOOCV(Leave-One-Out Cross Validation)
- 데이터가 적을 때 사용
- N개의 모델을 만드는데, 각 모델은 하나의 데이터만 제외하면서 모델을 만들고 제외한 데이터로 성능 지표 계산.
- 도출된 N개의 성능 지표를 평균 내어 최종 성능 지표를 도출
데이터 분석 과정
- raw데이터 -> 전처리 된 데이터 -> 실험설계 -> 모델링
전처리
- raw데이터를 모델링 할 수 있도록 데이터를 병합 및 파생 변수 생성
- 예) 게임 유저 이탈 예측 문제
- 어떤 변수(파생변수)가 게임 이탈에 영향을 끼칠까?를 생각
- 노력 대비 성과가 부족할 때
- 투자 대비 성과가 부족할 때
반응형
'머신러닝 > 기초' 카테고리의 다른 글
기업이 데이터 분석하는 과정 (0) | 2023.06.28 |
---|---|
머신러닝의 종류 (0) | 2021.12.19 |
지도학습과 비지도학습 (0) | 2021.12.19 |
머신러닝의 개념 (0) | 2021.12.19 |