머신러닝 6

LLM을 활용한 카카오톡 대화 요약: HuggingFace 데이터셋 다운로드 방법 (sharegpt_deepl_ko) [4]

안녕하세요! 오늘은 HuggingFace에서 제공하는 sharegpt_deepl_ko 데이터셋을 다운로드하는 방법을 간단히 안내드리겠습니다.HuggingFace 데이터셋 소개먼저, HuggingFace의 sharegpt_deepl_ko 데이터셋은 한국어로 번역된 ShareGPT 데이터를 담고 있습니다. 이 데이터는 주로 자연어처리(NLP) 프로젝트나 챗봇 개발 등에 매우 유용하게 사용될 수 있습니다.데이터셋 링크 👉 sharegpt_deepl_ko설치하기커맨드라인에서 HuggingFace Hub를 설치합니다.pip install huggingface-hub데이터셋 다운로드 방법방법 1️⃣ 특정 파일만 주피터 노트북에서 다운로드주피터 노트북 환경에서 특정 파일(ko_dataset.json)만 다운로드하는..

신용카드 고객 신용도 예측하기: 머신러닝 [1]

🔍 프로젝트 개요이번 프로젝트에서는 신용카드 발급을 신청한 고객들의 프로필 데이터를 바탕으로, 신용도 수준을 예측하는 모델을 개발합니다.데이터는 Kaggle에서 제공되며, 총 36,457개의 데이터와 20개의 변수를 포함하고 있습니다.데이터 출처: Kaggle데이터 수: 36,457개컬럼 수: 20개테이블 수: 2개🎯 프로젝트 목적고객 데이터를 분석하여 카드 발급 가능 여부를 판단하는 의사결정 모델을 구축합니다.신용불량 가능성이 높은 고객을 사전에 예측함으로써, 금융사의 영업 이익률 개선을 도모합니다.🧭 분석 프로세스프로젝트는 다음과 같은 순서로 진행됩니다:목표 정의데이터 수집문제 정의 및 예측 목표 설정데이터 전처리중복 데이터 제거 (Duplicated Data)결측치 처리 (Missing Val..

NSMC 감정분석하기

감정분석의 정의는 무엇일까? 데이터 만드는 자, 데이터 제공자, 데이터 분석가의 주관에 따라 감정이 다르다. 부정/중립/긍정 일반적으로 텍스트 안에 있는 의미를 뽑아낸다. 감정 분석은 디지털 텍스트를 분석하여 메시지의 감정적 어조가 긍정적인지, 부정적인지 또는 중립적인지를 확인하는 프로세스 오늘날 회사는 이메일, 고객 지원 채팅 트랜스크립트, 소셜 미디어 댓글 및 리뷰와 같은 대량의 텍스트 데이터를 보유하고 있습니다. 감정 분석 도구는 이 텍스트를 스캔하여 주제에 대한 글쓴이의 태도를 자동으로 확인할 수 있습니다. 기업은 감정 분석의 인사이트를 활용하여 고객 서비스를 개선하고 브랜드 평판을 높입니다. 크게 감정분석은 Knowledge-based approach, Machine Learning-based ..

딥러닝 주요 모델 2

GAN(Generative Adversarial Network)데이터를 만들어내는 Generator(생성)와 만들어진 data를 평가하는 Discriminato(식별하는 자)가 서로 대립(Adversarial)적으로 학습해가며 성능을 점차 개선해 나가자는 개념 - Dicriminator를 학습시킬 때 -> D(x)가 1이 되고, D(G(z))가 0이 되도록 학습시킴  (진짜 데이터를 진짜로 판별하고, 가짜데이터를 가짜로 판별할 수 있도록))) 여기서 x는 real data, G(z)는 noise data, fake data 가짜 데이터라고 함. - Generator를 학습시킬 때에는 D(G(z))가 1이 되도록 학습시킴  (가짜 데이터를 discriminator가 구분 못하도록 학습, 헷갈리게) GAN ..

딥러닝/기초 2022.03.10

bisect

bisect - 이진 탐색을 구현할 수 있도록 파이썬에서 제공하는 라이브러리 - 정렬된 배열에서 특정한 원소를 찾을 때 효과적 - bisect_left(a, x) : 정렬된 순서를 유지하면서 리스트 a에 데이터 x를 삽입할 가장 왼쪽 인덱스를 찾는 메서드 - bisect_right(a, x) : 정렬된 순서를 유지하면서 리스트 a에 데이터 x를 삽입할 가장 오른쪽 인덱스를 찾는 메서드 from bisect import bisect_left, bisect_right a = [1,2,4,4,8] x = 4 print(bisect_left(a, x)) print(bisect_right(a, x)) ## 2 ## 4 정렬된 리스트에서 값이 특정 범위에 속하는 원소의 개수 구할 때 from bisect impor..

알고리즘/부록 2021.12.20

heapq 힙

heapq - heapq는 다익스트라 최단 경로 알고리즘을 포함해 다양한 알고리즘에서 우선순위 큐 기능을 구현하고자 할 때 사용 - PriorityQueue 라이브러리도 사용할 수 있지만, heapq가 보통 빠르다고 함 - heapq.heappush(): 힙에 원소 삽입 - heapq.heappop(): 힙에 원소 추출 - 파이썬의 힙은 최소 힙으로 구성되어 있어 원소를 힙에 전부 넣어다가 뺴는 것으로도 시간 복잡도 O(NlogN)에 오름차순 정렬됨 최소 힙 구현 import heapq def heapsort(iterable): h = [] # 힙 result = [] # 모든 원소를 차례대로 힙에 삽입 for value in iterable: heapq.heappush(h, value) # 힙에 삽입된..

알고리즘/부록 2021.12.20