머신러닝/기초

모형의 적합성 평가 및 실험설계

HeyTeddy 2022. 3. 20. 03:47
반응형

모형의 적합성을 평가하는 방법

- MSE는 낮을수록 좋다.

- 복잡한 모형일수록 과적합 일어남. 학습데이터는 잘 맞음.

 

데이터 분할

- 과적합을 방지하기 위해 전체 데이터를 학습, 검증, 테스트 데이터로 나눔. 보통 5:3:2

> 학습 데이터 : 모형 f를 추정하는데 필요

> 검증 데이터 : 추정한 모형 f가 적합한지 검증함

> 테스트 데이터 : 최종적으로 선택한 모형의 성능을 평가

 

K-Fold 교차검증(K-Fold Cross Validation)

- 모형의 적합성을 보다 객관적으로 평가하기 위한 방법

- 데이터를 k(주로 5 또는 10)개 부분으로 나눈 뒤, 그 중 하나를 검증 집합,  나머지를 학습 집합으로 분류

- 위 과정을 k번 반복하고 k개의 성능 지표를 평균하여 모형의 적합성을 평가

 

LOOCV(Leave-One-Out Cross Validation)

- 데이터가 적을 때 사용

- N개의 모델을 만드는데, 각 모델은 하나의 데이터만 제외하면서 모델을 만들고 제외한 데이터로 성능 지표 계산.

- 도출된 N개의 성능 지표를 평균 내어 최종 성능 지표를 도출

 

데이터 분석 과정

- raw데이터 -> 전처리 된 데이터 -> 실험설계 -> 모델링

 

전처리

- raw데이터를 모델링 할 수 있도록 데이터를 병합 및 파생 변수 생성

- 예) 게임 유저 이탈 예측 문제

- 어떤 변수(파생변수)가 게임 이탈에 영향을 끼칠까?를 생각

- 노력 대비 성과가 부족할 때 

- 투자 대비 성과가 부족할 때

 

   

반응형

'머신러닝 > 기초' 카테고리의 다른 글

기업이 데이터 분석하는 과정  (0) 2023.06.28
머신러닝의 종류  (0) 2021.12.19
지도학습과 비지도학습  (0) 2021.12.19
머신러닝의 개념  (0) 2021.12.19