반응형
토픽 모델링이란?
- 문서에서 토픽을 찾는 과정
- 문서를 구성하는 단어 조합으로부터 k개의 단어 묶음을 찾는 과정
- 베이지안 확률 모델
- 토픽 모델링의 결과로 각 단어가 각 토픽에 속할 확률이 나옴
토픽 모델링의 역사
- LSI
- pLSA
- LDA
- ATM, DTM, CTM, RTM
LDA의 모델 가정
- 각 문서엔 여러 개의 토픽이 포함될 수 있음 (한 문서에 여러 토픽이 존재 가능)
- 각 토픽에는 여러 개의 단어가 포함될 수 있음
- 문서에 존재하는 모든 단어는 반드시 어떤 토픽에 포함될 수 있음
- 사람이 글을 쓰는 과정을 생성 모델로 정의
LDA의 모델 과정
- 문서들에 사용할 토픽을 고름 (K개의 토픽)
- 토픽 중 하나의 토픽을 고름
- 그 토픽에 포함된 단어 중에 하나를 고름
- 단어를 문서에 추가 (글을 쓴다)
- 2번 과정부터 반복
LDA 02
- K개의 토픽에 대한 다항분포를 추정하기 위해 디리클레 분포를 사용하는 것에서 유래
- 단어가 K개의 토픽에 속하는 확률분포를 알 수 없으므로 베이지안 확률 모델을 사용하여 분포를 추정
비슷한 예제
- A와 B가 가위바위보를 함
- B는 가위를 100번, 바위를 60번, 보를 40번을 냈음
- 알게된 정보를 통해 다음에 나올 수를 예측
- 이 때 시행이 단어를 토픽에서 임의로 뽑는 것과 같고, 그 단어가 어떤 토픽에 할당되는 과정을 계속 반복하여 확률 분포가 수렴하면 종료
LDA 예시
- K=4, 4개의 토픽으로 토픽 모델링
- 확률값이 높은 상위 15개의 단어 출력
- 결과로 토빅 별로 확률값이 높은 단어들의 목록을 얻는 것이 목적
반응형
'PROJECT > 텍스트 마이닝을 활용하여 문자 대화내용 분석' 카테고리의 다른 글
Naver sentiment movie corpus(NSMC)를 활용 감정분석 (4) | 2023.04.18 |
---|---|
Gensim을 활용하여 토픽모델링 분석하기 (0) | 2023.04.05 |
형태소 추출기 만들기 (2) | 2023.03.28 |
konlpy 형태소 분석기 성능비교 (0) | 2023.03.27 |
기사 텍스트 정제 - konlpy 설치 (WINDOWS) (0) | 2023.03.24 |