텍스트 마이닝 - 텍스트 가공

PROJECT/텍스트 마이닝을 활용하여 문자 대화내용 분석

텍스트 마이닝 - 텍스트 가공

HeyTeddy 2023. 3. 15. 23:11

텍스트 인코딩(Text Encoding) 텍스트를 벡터로 표현하기

paint / picture / day / young

1. Vector Space 2. Word Embedding

벡터 공간 모델(Vector Space Model)

- 문서를 벡터로 표현으로 나타내는 방법(여러가지 머신러닝 기법으로 적용할 수 있음)

- 벡터의 특정 차원은 하나의 단어를 의미

- 대표적인 방법으로 Bag-of-Word(BOW)와 Term Frequency - Inverse Document Frequency(TF-IDF)

- 정보 검색이나 문서 랭킹 시스템에서 주로 사용

Bag-of-Words(BOW)

단어의 묶음

문서1 : 나는 강아지를 좋아한다

문서2 : 나는 강아지와 산책을 좋아한다

문서3 : 산책하는 것은 나의 취미이다

	나	강아지	산책	취미
문서 1	1	1	0	0
문서 2	1	1	1	0
문서 3	1	0	1	1

d1 = (1,1,0,0)

d2 = (1,1,1,0)

d3 = (1,0,1,1)

Term Frequency - Inverse Document Frequency

- tf(t,d)는 문서 d안에 있는 각 단어 t의 빈도

- idf(t,D)는 단어 t가 전체 문서 D에서 등장한 문서의 수의 역수

(IDF = 1/DF)

- tfidf(t,d,D)는 문서 D안에 있는 특정 문서 d안에 있는 각 단어 t의 tf(t,d)·idf(t,D)의 값

N=문서집합에 등장하는 서로 다른 단어의 수(공간의 차원)

Term Frequency - Inverse Document Frequency(TF-IDF)

문서1 : 나는 강아지를 좋아한다

문서2 : 나는 강아지와 산책을 좋아한다

문서3 : 산책하는 것은 나의 취미이다

TF*(1/DF)

	나	강아지	산책	취미
문서 1	1 * (1/3)	1 * (1/2)	0 * (1/2)	0 * (1/1)
문서 2	1 * (1/3)	1 * (1/2)	1 * (1/2)	0 * (1/1)
문서 3	1 * (1/3)	0 * (1/2)	1 * (1/2)	1 * (1/1)

요약 : TF는 문서 내 단어의 갯수, IDF(1/DF)는 이 문서가 전체에 등장하는 횟수

'PROJECT > 텍스트 마이닝을 활용하여 문자 대화내용 분석' 카테고리의 다른 글

텍스트 마이닝 - 워드 임베딩 (0)	2023.03.20
텍스트 마이닝 - 텍스트 시각화 (0)	2023.03.18
텍스트 마이닝 - 텍스트 분석 (0)	2023.03.18
텍스트 마이닝 - 텍스트 데이터 전처리 (0)	2023.03.15
텍스트 마이닝 - 정의/수집/정의 (0)	2023.02.07

현재글텍스트 마이닝 - 텍스트 가공

AI / ML / DL 무한 반복 공부합니다.

BOJ, 파이썬, 프롬프트 엔지니어링, Python, 빅데이터, 알고리즘, ChatGPT, OpenAI, LangChain, LLM, nlp, 백준알고리즘, Huggingface, Rag, 머신러닝, 백준, Prompt Engineering, bm25, FAISS, AI,

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Teddy Data Blog