PROJECT/텍스트 마이닝을 활용하여 문자 대화내용 분석

토픽 모델링 정의

HeyTeddy 2023. 3. 28. 18:26
반응형

토픽 모델링이란?

  1. 문서에서 토픽을 찾는 과정
  2. 문서를 구성하는 단어 조합으로부터 k개의 단어 묶음을 찾는 과정
  3. 베이지안 확률 모델
  4. 토픽 모델링의 결과로 각 단어가 각 토픽에 속할 확률이 나옴

토픽 모델링의 역사

  1. LSI
  2. pLSA
  3. LDA
  4. ATM, DTM, CTM, RTM

 

LDA의 모델 가정

  • 각 문서엔 여러 개의 토픽이 포함될 수 있음 (한 문서에 여러 토픽이 존재 가능)
  • 각 토픽에는 여러 개의 단어가 포함될 수 있음
  • 문서에 존재하는 모든 단어는 반드시 어떤 토픽에 포함될 수 있음
  • 사람이 글을 쓰는 과정을 생성 모델로 정의

 

LDA의 모델 과정

  1. 문서들에 사용할 토픽을 고름 (K개의 토픽)
  2. 토픽 중 하나의 토픽을 고름
  3. 그 토픽에 포함된 단어 중에 하나를 고름
  4. 단어를 문서에 추가 (글을 쓴다)
  5. 2번 과정부터 반복

 

LDA 02

  • K개의 토픽에 대한 다항분포를 추정하기 위해 디리클레 분포를 사용하는 것에서 유래
  • 단어가 K개의 토픽에 속하는 확률분포를 알 수 없으므로 베이지안 확률 모델을 사용하여 분포를 추정

비슷한 예제

  1. A와 B가 가위바위보를 함
  2. B는 가위를 100번, 바위를 60번, 보를 40번을 냈음
  3. 알게된 정보를 통해 다음에 나올 수를 예측
  4. 이 때 시행이 단어를 토픽에서 임의로 뽑는 것과 같고, 그 단어가 어떤 토픽에 할당되는 과정을 계속 반복하여 확률 분포가 수렴하면 종료

 

LDA 예시

  • K=4, 4개의 토픽으로 토픽 모델링
  • 확률값이 높은 상위 15개의 단어 출력
  • 결과로 토빅 별로 확률값이 높은 단어들의 목록을 얻는 것이 목적
반응형