머신러닝/기초 5

기업이 데이터 분석하는 과정

현업에서 머신러닝 모델, 딥러닝(이미지 등) 요청이 들어옵니다. 요구 조건들을 들으면서 문제 인식을 기업이 진행합니다. 요구 조건과 문제가 기업이 처리할 수 있는 능력이 되면 PoC(Proof Of Concept, 개념 증명) 진행합니다.  PoC를 위해 알고리즘의 파라미터를 수정하거나, 알고리즘을 바꿔서 속도를 개선하는 방법이 있습니다. 높은 정확도를 가진 알고리즘과 파라미터를 설정하는데 충분한 시간이 소요됩니다. 이제 만들어진 모델을 바탕으로 현장에 프로그램 설치를 통하여 검증 과정을 진행합니다. 현장 개발 환경과 기업에서 모델을 만들 때 개발 환경이 다른경우도 존재합니다. 이런 경우 개발환경을 맞춰서 다시 진행해야합니다. 프로그램을 다시 설치하고 일정 시간동안 검증 과정을 진행합니다. 여기서 문제점..

머신러닝/기초 2023.06.28

모형의 적합성 평가 및 실험설계

모형의 적합성을 평가하는 방법- MSE는 낮을수록 좋다.- 복잡한 모형일수록 과적합 일어남. 학습데이터는 잘 맞음. 데이터 분할- 과적합을 방지하기 위해 전체 데이터를 학습, 검증, 테스트 데이터로 나눔. 보통 5:3:2> 학습 데이터 : 모형 f를 추정하는데 필요> 검증 데이터 : 추정한 모형 f가 적합한지 검증함> 테스트 데이터 : 최종적으로 선택한 모형의 성능을 평가 K-Fold 교차검증(K-Fold Cross Validation)- 모형의 적합성을 보다 객관적으로 평가하기 위한 방법- 데이터를 k(주로 5 또는 10)개 부분으로 나눈 뒤, 그 중 하나를 검증 집합,  나머지를 학습 집합으로 분류- 위 과정을 k번 반복하고 k개의 성능 지표를 평균하여 모형의 적합성을 평가 LOOCV(Leave-On..

머신러닝/기초 2022.03.20

머신러닝의 종류

선형 회귀분석(Linear Regression)- 독립변수와 종속변수가 선형적인 관계가 있다라는 가정하에 분석- 직선을 통해 종속변수를 예측하기 때문에 독립변수의 중요도와 영향력을 파악하기 쉬움의사결정나무(Decision Tree)- 독립 변수의 조건에 따라 종속변수를 분리 (비가 내린다 -> 축구를 하지 않는다)- 이해하기 쉬우나 overfitting이 잘 일어남- 오버피팅(overfitting): 과적합, 훈련데이터에 너무 잘 맞아서 훈련데이터를 통한 정확도는 높으나, 테스트데이터에서 정확도가 낮게 나오는 현상 KNN(K-Nearest-Neighbor)- 새로 들어온 데이터의 주변 k개의 데이터의 class로 분류하는 기법- k는 사람이 지정, 사람이 지정해 줘야하는 것 -> 하이퍼파라미터 Neura..

머신러닝/기초 2021.12.19

지도학습과 비지도학습

지도 학습(supervised learning)Y = f(X)에 대하여 입력 변수 (X)와 출력 변수 (Y)의 관계에 대하여 모델링하는것(Y에 대하여 예측 또는 분류하는 문제)- 회귀 (regression): 입력 변수 X에 대해서 연속형(실수) 출력 변수 Y를 예측- 분류 (classificaion): 입력 변수 X에 대해서 이산형(성별, 여부) 출력 변수 Y(class)를 예측- 예: 주식가격 예측, 공정 불량 여부 탐지비지도 학습(unsupervised learning)- 출력 변수(Y)가 존재하지 않고, 입력 변수(X)간의 관계에 대해 모델링 하는 것- 군집 분석 - 유사한 데이터끼리 그룹화- PCA - 독립변수들의 차원을 축소화- 예: 고객 segmentation강화학습(reinforcement..

머신러닝/기초 2021.12.19

머신러닝의 개념

머신러닝의 개념무엇(X)으로 무엇(Y)을 예측하고 싶다행렬로 이루어 짐.- 성별, 킬, 몸무게, 체지방, BMI지수, 폐활량으로 흡엽여부를 예측한다. 고등학교 때 배운 함수를 생각하자.Y = f(X)여기서 f는 모델, X는 입력변수(독립변수, feature), Y는 출력변수(종속변수)- 입력변수와 출력변수간 관계를 만드는 함수f를 만드는 것- 데이터의 특징을 찾아내는 함수 f를 만드는 것 머신러닝으로 할 수 있는 것들- X : 고객들의 개인 정보 및 금융 관련 정보, Y : 대출 연체 여부 -> 대출 연체자 예측 탐지 모델, 대출 연체 관련 주요 feature 추출- X : 게임 유저들의 게임 내 활동 정보, Y : 게임 이탈 여부 / 어뷰징 여부 -> 이상 탐지 모델, 게임 회사에서 사용하는 머신러닝 ..

머신러닝/기초 2021.12.19