반응형
텍스트 인코딩(Text Encoding) 텍스트를 벡터로 표현하기
paint / picture / day / young
1. Vector Space 2. Word Embedding
벡터 공간 모델(Vector Space Model)
- 문서를 벡터로 표현으로 나타내는 방법(여러가지 머신러닝 기법으로 적용할 수 있음)
- 벡터의 특정 차원은 하나의 단어를 의미
- 대표적인 방법으로 Bag-of-Word(BOW)와 Term Frequency - Inverse Document Frequency(TF-IDF)
- 정보 검색이나 문서 랭킹 시스템에서 주로 사용
Bag-of-Words(BOW)
단어의 묶음
문서1 : 나는 강아지를 좋아한다
문서2 : 나는 강아지와 산책을 좋아한다
문서3 : 산책하는 것은 나의 취미이다
나 | 강아지 | 산책 | 취미 | |
문서 1 | 1 | 1 | 0 | 0 |
문서 2 | 1 | 1 | 1 | 0 |
문서 3 | 1 | 0 | 1 | 1 |
d1 = (1,1,0,0)
d2 = (1,1,1,0)
d3 = (1,0,1,1)
Term Frequency - Inverse Document Frequency
- tf(t,d)는 문서 d안에 있는 각 단어 t의 빈도
- idf(t,D)는 단어 t가 전체 문서 D에서 등장한 문서의 수의 역수
(IDF = 1/DF)
- tfidf(t,d,D)는 문서 D안에 있는 특정 문서 d안에 있는 각 단어 t의 tf(t,d)·idf(t,D)의 값
N=문서집합에 등장하는 서로 다른 단어의 수(공간의 차원)
Term Frequency - Inverse Document Frequency(TF-IDF)
문서1 : 나는 강아지를 좋아한다
문서2 : 나는 강아지와 산책을 좋아한다
문서3 : 산책하는 것은 나의 취미이다
TF*(1/DF)
나 | 강아지 | 산책 | 취미 | |
문서 1 | 1 * (1/3) | 1 * (1/2) | 0 * (1/2) | 0 * (1/1) |
문서 2 | 1 * (1/3) | 1 * (1/2) | 1 * (1/2) | 0 * (1/1) |
문서 3 | 1 * (1/3) | 0 * (1/2) | 1 * (1/2) | 1 * (1/1) |
요약 : TF는 문서 내 단어의 갯수, IDF(1/DF)는 이 문서가 전체에 등장하는 횟수
반응형
'PROJECT > 텍스트 마이닝을 활용하여 문자 대화내용 분석' 카테고리의 다른 글
텍스트 마이닝 - 워드 임베딩 (0) | 2023.03.20 |
---|---|
텍스트 마이닝 - 텍스트 시각화 (0) | 2023.03.18 |
텍스트 마이닝 - 텍스트 분석 (0) | 2023.03.18 |
텍스트 마이닝 - 텍스트 데이터 전처리 (0) | 2023.03.15 |
텍스트 마이닝 - 정의/수집/정의 (0) | 2023.02.07 |