텍스트 마이닝 - 워드 임베딩

PROJECT/텍스트 마이닝을 활용하여 문자 대화내용 분석

텍스트 마이닝 - 워드 임베딩

HeyTeddy 2023. 3. 20. 16:33

텍스트 마이닝 과정

- 머신러닝 기법 : LDA(토픽 모델링 기법), SVM(문서 분류 기법) 등

- 딥러닝 기법 : RNN, LSTM, Transformer, BERT 등

워드 임베딩은 딥러닝 기법에서 입력값으로 쓰임

워드 임베딩?

- 단어를 컴퓨터가 이해할 수 있는 벡터로 표현하는 방법 (단어의 차원을 저차원으로 바꿔줌)

- Word Embedding = Word + Embedding

- Sparse Representation (BOW, TF-IDF)

- Dense Representation (word2vec, Glove 등)

희소 표현(Sparse Representation)의 문제점

- 문서 데이터에 존재하는 모든 유니크한 단어 수가 벡터의 차원이 되어 고차원 공간이 됨

- 단어의 문맥 정보가 사라짐, 예) 문장 내 순서(word order), 문장 내 동시등장(co-occurrence), (apple(사과) tree, apple(회사) iphone)

- 차원의 저주(Curse of dimensionality)로 인해 분석 기법의 성능이 악화됨

밀집 표현(Dense Representation)

- 이미지나 오디오 데이터는 양질의 고차원 데이터로 표현됨 (dense representation)

- 기존 방법인 VSM은 단어를 discrete symbol로 표시하기 때문에 정보 전달력이 떨어짐

- 기존의 count-based method가 아닌 predictive model을 사용하여 단어의 주변 정보를 반영한 dense presentation을 표현함

워드 임베딩 역사

NPLM → word2vec → fastText → ELMo

NPLM

- Neural Probabilistic Language Model

- 처음으로 제안된 dense representation model

- Neural Network를 이용하여 주변 단어의 단어 등장 확률을 예측함

word2vec

- Skip-Gram with Negative Sampling

- NPLM에서 높은 계산량을 요규하는 문제점을 획기적으로 해결

- 본격적인 word embedding 시대 개막

fastText

- Subword SGNS

- Word2vec에서의 OOV(Out-of-Vocabulary) 문제를 해결

- 학습 단위가 subword로 변경

ELMo

- Embeddings from Language Model

- Bi-directional Language Model을 제안하여 문맥을 반영한 워드 임베딩 기법 제시

- NLP에서 transfer learning이 확산됨

워드 임베딩 공간의 특징

Referrence : https://tensorflowkorea.gitbooks.io/tensorflow-kr/content/g3doc/tutorials/word2vec/

- 단어 관계는 vector 연산

- 비슷한 의미를 가지는 단어들이 군집을 형성

'PROJECT > 텍스트 마이닝을 활용하여 문자 대화내용 분석' 카테고리의 다른 글

네이버 기사 크롤러 만들기 (0)	2023.03.22
네이버 오픈 API 등록 (0)	2023.03.20
텍스트 마이닝 - 텍스트 시각화 (0)	2023.03.18
텍스트 마이닝 - 텍스트 분석 (0)	2023.03.18
텍스트 마이닝 - 텍스트 가공 (0)	2023.03.15

현재글텍스트 마이닝 - 워드 임베딩

AI / ML / DL 무한 반복 공부합니다.

bm25, Rag, 파이썬, 백준알고리즘, 프롬프트 엔지니어링, AI, 머신러닝, 알고리즘, LLM, 백준, nlp, BOJ, ChatGPT, Python, FAISS, 빅데이터, Huggingface, Prompt Engineering, LangChain, OpenAI,

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Teddy Data Blog