PROJECT/텍스트 마이닝을 활용하여 문자 대화내용 분석

텍스트 마이닝 - 텍스트 가공

HeyTeddy 2023. 3. 15. 23:11
반응형

텍스트 인코딩(Text Encoding) 텍스트를 벡터로 표현하기

paint / picture / day / young

1. Vector Space 2. Word Embedding

 

벡터 공간 모델(Vector Space Model)

- 문서를 벡터로 표현으로 나타내는 방법(여러가지 머신러닝 기법으로 적용할 수 있음)

- 벡터의 특정 차원은 하나의 단어를 의미

- 대표적인 방법으로 Bag-of-Word(BOW)와 Term Frequency - Inverse Document Frequency(TF-IDF)

- 정보 검색이나 문서 랭킹 시스템에서 주로 사용

 

Bag-of-Words(BOW)

단어의 묶음

문서1 : 나는 강아지를 좋아한다

문서2 : 나는 강아지와 산책을 좋아한다

문서3 : 산책하는 것은 나의 취미이다

  강아지 산책 취미
문서 1 1 1 0 0
문서 2 1 1 1 0
문서 3 1 0 1 1

d1 = (1,1,0,0)

d2 = (1,1,1,0)

d3 = (1,0,1,1)

Term Frequency - Inverse Document Frequency 

- tf(t,d)는 문서 d안에 있는 각 단어 t의 빈도

 

- idf(t,D)는 단어 t가 전체 문서 D에서 등장한 문서의 수의 역수

(IDF = 1/DF)

 

- tfidf(t,d,D)는 문서 D안에 있는 특정 문서 d안에 있는 각 단어 t의 tf(t,d)·idf(t,D)의 값

 

N=문서집합에 등장하는 서로 다른 단어의 수(공간의 차원)

 

 

 

 

 

Term Frequency - Inverse Document Frequency(TF-IDF)

문서1 : 나는 강아지를 좋아한다

문서2 : 나는 강아지와 산책을 좋아한다

문서3 : 산책하는 것은 나의 취미이다

TF*(1/DF)

  강아지 산책 취미
문서 1 1 * (1/3) 1 * (1/2) 0 * (1/2) 0 * (1/1)
문서 2 1 * (1/3) 1 * (1/2) 1 * (1/2) 0 * (1/1)
문서 3 1 * (1/3) 0 * (1/2) 1 * (1/2) 1 * (1/1)

 

요약 : TF는 문서 내 단어의 갯수, IDF(1/DF)는 이 문서가 전체에 등장하는 횟수

반응형