텍스트 마이닝
텍스트(마이닝) + (데이터)마이닝
정형 데이터
- 일반적으로 테이블 형태의 데이터
- 행, 열로 구성
- 스프레드시트
비정형 데이터
- 테이블 형태의 데이터가 아닌 데이터
- 행x, 열x
- 데이터가 정해진 형태로 저장x
- 텍스트, 이미지, 음성, 동영상
데이터 마이닝
- 데이터에서 가치를 뽑아내는 기술
- 데이터에 숨겨져 있는 패턴이나 통계적인 규칙을 찾는 기술
- 통계적 기법, 머신 러닝 기법들이 사용
텍스트 마이닝의 과정
텍스트 수집 > 텍스트 전처리 > 텍스트 분석 > 텍스트 시각화(워드클라우드)
텍스트 데이터 수집
텍스트 데이터 수집방법은 2가지로 나눌 수 있다.
첫번째는 다운로드, 두번째는 크롤링이다.
영문 텍스트 데이터 저장소
- Kaggle
https://www.kaggle.com/datasets
Find Open Datasets and Machine Learning Projects | Kaggle
Download Open Datasets on 1000s of Projects + Share Projects on One Platform. Explore Popular Topics Like Government, Sports, Medicine, Fintech, Food, More. Flexible Data Ingestion.
www.kaggle.com
- UCI 대학의 데이터 저장소 : 연구용으로 잘 정제되었다는 장점, 옛날 데이터 그리고 양이 많지 않다는 단점
https://archive.ics.uci.edu/ml/index.php
UCI Machine Learning Repository
Welcome to the UC Irvine Machine Learning Repository! We currently maintain 622 data sets as a service to the machine learning community. You may view all data sets through our searchable interface. For a general overview of the Repository, please visit ou
archive.ics.uci.edu
- 논문 연구에서 사용할 수 있는 분류용 테스트 데이터
http://ana.cachopo.org/datasets-for-single-label-text-categorization
Ana Cardoso Cachopo's Homepage - Datasets for single-label text categorization
Here you can find the Datasets for single-label text categorization that I used in my PhD work. This is a copy of the page at IST. This page makes available some files containing the terms I obtained by pre-processing some well-known datasets used for text
ana.cachopo.org
- Fast.ai에서 제공하는 딥러닝 학습용 대용량 데이터 : 딥러닝용, NLP
- 데이터가 많다는 장점, 정제가 잘 되어있지 않다는 단점
https://course.fast.ai/datasets
한국어 텍스트 데이터 저장소
- 한국어 질의응답 데이터
KorQuAD
What is KorQuAD 2.0? KorQuAD 2.0은 KorQuAD 1.0에서 질문답변 20,000+ 쌍을 포함하여 총 100,000+ 쌍으로 구성된 한국어 Machine Reading Comprehension 데이터셋 입니다. KorQuAD 1.0과는 다르게 1~2 문단이 아닌 Wikipedia artic
korquad.github.io
- 국립국어원에서 공개한 세종 코퍼스 : 공신력 높고 정보가 풍부한 장점, 오류가 많고 데이터가 적고 다운로드 받기 어려운 단점
https://ithub.korean.go.kr/user/guide/corpus/guide1.do
- 파이썬 한국어 처리 라이브러리 konlpy에서 제공하는 데이터
- 한국어 데이터 셋 처리할 때 가장 많이쓰는 라이브러리는 konlpy
- 다운로드 안받고 붙혀서 편하게 쓸 수 있음
- 데이터가 많지 않음
https://konlpy-ko.readthedocs.io/ko/v0.5.1/data/
데이터 — KoNLPy 0.5.1 documentation
세종 말뭉치로 만들어진 CSV 형태의 사전. (346MB) 컴파일 된 사전은 /usr/local/lib/mecab/dic/mecab-ko-dic (또는 MeCab 설치시 지정한 경로)에 있으며, 원본 사전은 소스코드 에서 확인하실 수 있습니다. CoinedW
konlpy-ko.readthedocs.io
- ETRI : 데이터셋 많다는 장점, 다운로드 받기 어려운 단점
http://aiopen.etri.re.kr/service_dataset.php
텍스트 크롤링 개념
- 웹 페이지에 있는 텍스트를 긁어오는 것
- HTML 소스에서 해당 텍스트 정보를 긁어오는 것
- 텍스트, 이미지, 하이퍼링크 등 모두 가능
'PROJECT > 텍스트 마이닝을 활용하여 문자 대화내용 분석' 카테고리의 다른 글
텍스트 마이닝 - 워드 임베딩 (0) | 2023.03.20 |
---|---|
텍스트 마이닝 - 텍스트 시각화 (0) | 2023.03.18 |
텍스트 마이닝 - 텍스트 분석 (0) | 2023.03.18 |
텍스트 마이닝 - 텍스트 가공 (0) | 2023.03.15 |
텍스트 마이닝 - 텍스트 데이터 전처리 (0) | 2023.03.15 |