모형의 적합성 평가 및 실험설계

머신러닝/기초

모형의 적합성 평가 및 실험설계

HeyTeddy 2022. 3. 20. 03:47

모형의 적합성을 평가하는 방법

- MSE는 낮을수록 좋다.

- 복잡한 모형일수록 과적합 일어남. 학습데이터는 잘 맞음.

데이터 분할

- 과적합을 방지하기 위해 전체 데이터를 학습, 검증, 테스트 데이터로 나눔. 보통 5:3:2

> 학습 데이터 : 모형 f를 추정하는데 필요

> 검증 데이터 : 추정한 모형 f가 적합한지 검증함

> 테스트 데이터 : 최종적으로 선택한 모형의 성능을 평가

K-Fold 교차검증(K-Fold Cross Validation)

- 모형의 적합성을 보다 객관적으로 평가하기 위한 방법

- 데이터를 k(주로 5 또는 10)개 부분으로 나눈 뒤, 그 중 하나를 검증 집합, 나머지를 학습 집합으로 분류

- 위 과정을 k번 반복하고 k개의 성능 지표를 평균하여 모형의 적합성을 평가

LOOCV(Leave-One-Out Cross Validation)

- 데이터가 적을 때 사용

- N개의 모델을 만드는데, 각 모델은 하나의 데이터만 제외하면서 모델을 만들고 제외한 데이터로 성능 지표 계산.

- 도출된 N개의 성능 지표를 평균 내어 최종 성능 지표를 도출

데이터 분석 과정

- raw데이터 -> 전처리 된 데이터 -> 실험설계 -> 모델링

전처리

- raw데이터를 모델링 할 수 있도록 데이터를 병합 및 파생 변수 생성

- 예) 게임 유저 이탈 예측 문제

- 어떤 변수(파생변수)가 게임 이탈에 영향을 끼칠까?를 생각

- 노력 대비 성과가 부족할 때

- 투자 대비 성과가 부족할 때

'머신러닝 > 기초' 카테고리의 다른 글

기업이 데이터 분석하는 과정 (0)	2023.06.28
머신러닝의 종류 (0)	2021.12.19
지도학습과 비지도학습 (0)	2021.12.19
머신러닝의 개념 (0)	2021.12.19

현재글모형의 적합성 평가 및 실험설계

AI / ML / DL 무한 반복 공부합니다.

AI, BOJ, 알고리즘, LangChain, 백준, 빅데이터, OpenAI, bm25, 파이썬, FAISS, Prompt Engineering, 프롬프트 엔지니어링, 머신러닝, 백준알고리즘, ChatGPT, Rag, LLM, Huggingface, Python, nlp,

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Teddy Data Blog