PROJECT/텍스트 마이닝을 활용하여 문자 대화내용 분석

텍스트 마이닝 - 정의/수집/정의

HeyTeddy 2023. 2. 7. 03:23
반응형

텍스트 마이닝

텍스트(마이닝) + (데이터)마이닝

정형 데이터

- 일반적으로 테이블 형태의 데이터

- 행, 열로 구성

- 스프레드시트

비정형 데이터

- 테이블 형태의 데이터가 아닌 데이터

- 행x, 열x

- 데이터가 정해진 형태로 저장x

- 텍스트, 이미지, 음성, 동영상 

데이터 마이닝

- 데이터에서 가치를 뽑아내는 기술

- 데이터에 숨겨져 있는 패턴이나 통계적인 규칙을 찾는 기술

- 통계적 기법, 머신 러닝 기법들이 사용

텍스트 마이닝의 과정

텍스트 수집 > 텍스트 전처리 > 텍스트 분석 > 텍스트 시각화(워드클라우드)

텍스트 데이터 수집

텍스트 데이터 수집방법은 2가지로 나눌 수 있다.

첫번째는 다운로드, 두번째는 크롤링이다.

 

영문 텍스트 데이터 저장소

 

- Kaggle

https://www.kaggle.com/datasets 

 

Find Open Datasets and Machine Learning Projects | Kaggle

Download Open Datasets on 1000s of Projects + Share Projects on One Platform. Explore Popular Topics Like Government, Sports, Medicine, Fintech, Food, More. Flexible Data Ingestion.

www.kaggle.com

 

- UCI 대학의 데이터 저장소 : 연구용으로 잘 정제되었다는 장점, 옛날 데이터 그리고 양이 많지 않다는 단점

https://archive.ics.uci.edu/ml/index.php 

 

UCI Machine Learning Repository

Welcome to the UC Irvine Machine Learning Repository! We currently maintain 622 data sets as a service to the machine learning community. You may view all data sets through our searchable interface. For a general overview of the Repository, please visit ou

archive.ics.uci.edu

 

- 논문 연구에서 사용할 수 있는 분류용 테스트 데이터

http://ana.cachopo.org/datasets-for-single-label-text-categorization

 

Ana Cardoso Cachopo's Homepage - Datasets for single-label text categorization

Here you can find the Datasets for single-label text categorization that I used in my PhD work. This is a copy of the page at IST. This page makes available some files containing the terms I obtained by pre-processing some well-known datasets used for text

ana.cachopo.org

 

- Fast.ai에서 제공하는 딥러닝 학습용 대용량 데이터 : 딥러닝용, NLP

- 데이터가 많다는 장점, 정제가 잘 되어있지 않다는 단점

https://course.fast.ai/datasets

 

한국어 텍스트 데이터 저장소

 

- 한국어 질의응답 데이터

https://korquad.github.io/

 

KorQuAD

What is KorQuAD 2.0? KorQuAD 2.0은 KorQuAD 1.0에서 질문답변 20,000+ 쌍을 포함하여 총 100,000+ 쌍으로 구성된 한국어 Machine Reading Comprehension 데이터셋 입니다. KorQuAD 1.0과는 다르게 1~2 문단이 아닌 Wikipedia artic

korquad.github.io

 

- 국립국어원에서 공개한 세종 코퍼스 : 공신력 높고 정보가 풍부한 장점, 오류가 많고 데이터가 적고 다운로드 받기 어려운 단점

https://ithub.korean.go.kr/user/guide/corpus/guide1.do

 

- 파이썬 한국어 처리 라이브러리 konlpy에서 제공하는 데이터

- 한국어 데이터 셋 처리할 때 가장 많이쓰는 라이브러리는 konlpy

- 다운로드 안받고 붙혀서 편하게 쓸 수 있음

- 데이터가 많지 않음

https://konlpy-ko.readthedocs.io/ko/v0.5.1/data/

 

데이터 — KoNLPy 0.5.1 documentation

세종 말뭉치로 만들어진 CSV 형태의 사전. (346MB) 컴파일 된 사전은 /usr/local/lib/mecab/dic/mecab-ko-dic (또는 MeCab 설치시 지정한 경로)에 있으며, 원본 사전은 소스코드 에서 확인하실 수 있습니다. CoinedW

konlpy-ko.readthedocs.io

 

- ETRI : 데이터셋 많다는 장점, 다운로드 받기 어려운 단점

http://aiopen.etri.re.kr/service_dataset.php

 

텍스트 크롤링 개념

- 웹 페이지에 있는 텍스트를 긁어오는 것

- HTML 소스에서 해당 텍스트 정보를 긁어오는 것

- 텍스트, 이미지, 하이퍼링크 등 모두 가능

 

반응형