직무

데이터 분석 프로젝트에서 Data Scientist, Data Engineer

HeyTeddy 2023. 6. 28. 16:46
반응형

Data Scientist(데이터 사이언티스트) : 수학, 통계, 분석

Data Engineer(데이터 엔지니어) : 프로그래밍, 분산, 파이프라인

 

기술 스택이 완전 다르다.

분석 후 배포를 하기 때문에 데이터 사이언티스트도 코딩도 어느정도 할 수 있어야 한다.

반대로 엔지니어 입장에서도 데이터 사이언티스트의 분야를 어느정도 알고 있어야 한다.

 

데이터 엔지니어와 데이터 사이언티스트가 알아야 할 카테고리

  1. 사업 이해 (Business Understanding)
  2. 데이터 이해 (Data Understanding)
  3. 데이터 수집 (Data Importing)
  4. 데이터 정제 & 조작 (Data Cleaning & Manipulation)
  5. 통계 모델링 & 기계 학습 (Statistical Modeling & Machine Learning)
  6. 보고 & 시각화 (Reporting & Visualization)

프로젝트에서 R&R 중요

R&R은 Role and Responsibilities, '역할과 책임'을 뜻

 

Big Data

과거에는 모든 데이터를 수집하였지만, 근래 들어서 분석에 필요한 데이터만 수집하는 경향으로 바뀌었다.

알고리즘으로 모델의 성능을 개선하는데는 한계가 발생하였다. 그래서 데이터를 통하여 모델을 개선하는 추세로 바뀌었다. 인공지능(AI)는 Code(알고리즘) + Data(자료)로 구성되어 있다고 보면 된다. 과거에는 모델과 알고리즘을 중심으로 이루어졌다면 근래는 데이터 중심으로 이루어졌다고 보면 된다.

 

실제로 데이터 정리만으로 성공 여부가 크게 높아진다고 한다. 따라서 현업에서 데이터 준비가 중요한 역할로 자리잡게 되었다. 

 

성공 OR 실패

실패라는 말이 애석하지만, '시도를 해보았고 결과를 도출했지만, 좋은 결과를 얻지 못했다.'라는 의미로 받아들이는게 나은 것 같습니다. Git을 통해 공개하고 수정 반복을 통해 성공하는 밑거름이 될 수 있다.

반응형