텍스트 마이닝

PROJECT/텍스트 마이닝을 활용하여 문자 대화내용 분석

텍스트 마이닝 - 정의/수집/정의

HeyTeddy 2023. 2. 7. 03:23

텍스트(마이닝) + (데이터)마이닝

정형 데이터

- 일반적으로 테이블 형태의 데이터

- 행, 열로 구성

- 스프레드시트

비정형 데이터

- 테이블 형태의 데이터가 아닌 데이터

- 행x, 열x

- 데이터가 정해진 형태로 저장x

- 텍스트, 이미지, 음성, 동영상

데이터 마이닝

- 데이터에서 가치를 뽑아내는 기술

- 데이터에 숨겨져 있는 패턴이나 통계적인 규칙을 찾는 기술

- 통계적 기법, 머신 러닝 기법들이 사용

텍스트 마이닝의 과정

텍스트 수집 > 텍스트 전처리 > 텍스트 분석 > 텍스트 시각화(워드클라우드)

텍스트 데이터 수집

텍스트 데이터 수집방법은 2가지로 나눌 수 있다.

첫번째는 다운로드, 두번째는 크롤링이다.

영문 텍스트 데이터 저장소

- Kaggle

https://www.kaggle.com/datasets

Find Open Datasets and Machine Learning Projects | Kaggle

Download Open Datasets on 1000s of Projects + Share Projects on One Platform. Explore Popular Topics Like Government, Sports, Medicine, Fintech, Food, More. Flexible Data Ingestion.

www.kaggle.com

- UCI 대학의 데이터 저장소 : 연구용으로 잘 정제되었다는 장점, 옛날 데이터 그리고 양이 많지 않다는 단점

https://archive.ics.uci.edu/ml/index.php

UCI Machine Learning Repository

Welcome to the UC Irvine Machine Learning Repository! We currently maintain 622 data sets as a service to the machine learning community. You may view all data sets through our searchable interface. For a general overview of the Repository, please visit ou

archive.ics.uci.edu

- 논문 연구에서 사용할 수 있는 분류용 테스트 데이터

http://ana.cachopo.org/datasets-for-single-label-text-categorization

Ana Cardoso Cachopo's Homepage - Datasets for single-label text categorization

Here you can find the Datasets for single-label text categorization that I used in my PhD work. This is a copy of the page at IST. This page makes available some files containing the terms I obtained by pre-processing some well-known datasets used for text

ana.cachopo.org

- Fast.ai에서 제공하는 딥러닝 학습용 대용량 데이터 : 딥러닝용, NLP

- 데이터가 많다는 장점, 정제가 잘 되어있지 않다는 단점

https://course.fast.ai/datasets

한국어 텍스트 데이터 저장소

- 한국어 질의응답 데이터

https://korquad.github.io/

KorQuAD

What is KorQuAD 2.0? KorQuAD 2.0은 KorQuAD 1.0에서 질문답변 20,000+ 쌍을 포함하여 총 100,000+ 쌍으로 구성된 한국어 Machine Reading Comprehension 데이터셋 입니다. KorQuAD 1.0과는 다르게 1~2 문단이 아닌 Wikipedia artic

korquad.github.io

- 국립국어원에서 공개한 세종 코퍼스 : 공신력 높고 정보가 풍부한 장점, 오류가 많고 데이터가 적고 다운로드 받기 어려운 단점

https://ithub.korean.go.kr/user/guide/corpus/guide1.do

- 파이썬 한국어 처리 라이브러리 konlpy에서 제공하는 데이터

- 한국어 데이터 셋 처리할 때 가장 많이쓰는 라이브러리는 konlpy

- 다운로드 안받고 붙혀서 편하게 쓸 수 있음

- 데이터가 많지 않음

https://konlpy-ko.readthedocs.io/ko/v0.5.1/data/

데이터 — KoNLPy 0.5.1 documentation

세종 말뭉치로 만들어진 CSV 형태의 사전. (346MB) 컴파일 된 사전은 /usr/local/lib/mecab/dic/mecab-ko-dic (또는 MeCab 설치시 지정한 경로)에 있으며, 원본 사전은 소스코드 에서 확인하실 수 있습니다. CoinedW

konlpy-ko.readthedocs.io

- ETRI : 데이터셋 많다는 장점, 다운로드 받기 어려운 단점

http://aiopen.etri.re.kr/service_dataset.php

텍스트 크롤링 개념

- 웹 페이지에 있는 텍스트를 긁어오는 것

- HTML 소스에서 해당 텍스트 정보를 긁어오는 것

- 텍스트, 이미지, 하이퍼링크 등 모두 가능

'PROJECT > 텍스트 마이닝을 활용하여 문자 대화내용 분석' 카테고리의 다른 글

텍스트 마이닝 - 워드 임베딩 (0)	2023.03.20
텍스트 마이닝 - 텍스트 시각화 (0)	2023.03.18
텍스트 마이닝 - 텍스트 분석 (0)	2023.03.18
텍스트 마이닝 - 텍스트 가공 (0)	2023.03.15
텍스트 마이닝 - 텍스트 데이터 전처리 (0)	2023.03.15

현재글텍스트 마이닝 - 정의/수집/정의

AI / ML / DL 무한 반복 공부합니다.

AI, OpenAI, Huggingface, Rag, 프롬프트 엔지니어링, nlp, ChatGPT, 머신러닝, 백준알고리즘, Prompt Engineering, BOJ, 빅데이터, LangChain, LLM, 알고리즘, 백준, FAISS, 파이썬, bm25, Python,

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Teddy Data Blog

텍스트 마이닝 - 정의/수집/정의

텍스트 마이닝

정형 데이터

비정형 데이터

데이터 마이닝

텍스트 마이닝의 과정

텍스트 데이터 수집

텍스트 크롤링 개념

'PROJECT > 텍스트 마이닝을 활용하여 문자 대화내용 분석' 카테고리의 다른 글

'PROJECT/텍스트 마이닝을 활용하여 문자 대화내용 분석'의 다른글

티스토리툴바

텍스트 마이닝 - 정의/수집/정의

텍스트 마이닝

정형 데이터

비정형 데이터

데이터 마이닝

텍스트 마이닝의 과정

텍스트 데이터 수집

텍스트 크롤링 개념

'PROJECT > 텍스트 마이닝을 활용하여 문자 대화내용 분석' 카테고리의 다른 글

'PROJECT/텍스트 마이닝을 활용하여 문자 대화내용 분석'의 다른글

관련글

티스토리툴바