PROJECT/텍스트 마이닝을 활용하여 문자 대화내용 분석

텍스트 마이닝 - 워드 임베딩

HeyTeddy 2023. 3. 20. 16:33
반응형

텍스트 마이닝 과정

- 머신러닝 기법 : LDA(토픽 모델링 기법), SVM(문서 분류 기법) 등

- 딥러닝 기법 : RNN, LSTM, Transformer, BERT 등

워드 임베딩은 딥러닝 기법에서 입력값으로 쓰임

 

워드 임베딩?

- 단어를 컴퓨터가 이해할 수 있는 벡터로 표현하는 방법 (단어의 차원을 저차원으로 바꿔줌)

- Word Embedding = Word + Embedding

- Sparse Representation (BOW, TF-IDF)

- Dense Representation (word2vec, Glove 등)

희소 표현(Sparse Representation)의 문제점

- 문서 데이터에 존재하는 모든 유니크한 단어 수가 벡터의 차원이 되어 고차원 공간이 됨

- 단어의 문맥 정보가 사라짐, 예) 문장 내 순서(word order), 문장 내 동시등장(co-occurrence), (apple(사과) tree, apple(회사) iphone)

- 차원의 저주(Curse of dimensionality)로 인해 분석 기법의 성능이 악화됨

 

 밀집 표현(Dense Representation)

- 이미지나 오디오 데이터는 양질의 고차원 데이터로 표현됨 (dense representation)

- 기존 방법인 VSM은 단어를 discrete symbol로 표시하기 때문에 정보 전달력이 떨어짐

- 기존의 count-based method가 아닌 predictive model을 사용하여 단어의 주변 정보를 반영한 dense presentation을 표현함

 

워드 임베딩 역사

NPLM → word2vec → fastText → ELMo

 

NPLM

- Neural Probabilistic Language Model

- 처음으로 제안된 dense representation model

- Neural Network를 이용하여 주변 단어의 단어 등장 확률을 예측함

 

word2vec

- Skip-Gram with Negative Sampling

- NPLM에서 높은 계산량을 요규하는 문제점을 획기적으로 해결

- 본격적인 word embedding 시대 개막

 

fastText

- Subword SGNS

- Word2vec에서의 OOV(Out-of-Vocabulary) 문제를 해결

- 학습 단위가 subword로 변경

 

ELMo

- Embeddings from Language Model

- Bi-directional Language Model을 제안하여 문맥을 반영한 워드 임베딩 기법 제시

- NLP에서 transfer learning이 확산됨

 

워드 임베딩 공간의 특징

Referrence : https://tensorflowkorea.gitbooks.io/tensorflow-kr/content/g3doc/tutorials/word2vec/

- 단어 관계는 vector 연산

- 비슷한 의미를 가지는 단어들이 군집을 형성

반응형