Hugging Face 2

LLM을 활용한 카카오톡 대화 요약: 효과적인 데이터 수집 방법 [3]

데이터 수집의 중요성AI 모델의 성능은 데이터의 품질과 양에 크게 좌우됩니다. 특히, 카카오톡 대화 요약과 같은 자연어처리(NLP) 모델을 개발할 때는 다양한 유형의 데이터를 확보하고 평가해야 합니다. 이번 글에서는 프로젝트의 성능 향상을 위해 데이터를 어떻게 수집하고 활용할 것인지를 다뤄보겠습니다. 📊왜 데이터 수집이 필요할까?1️⃣ 테스트 데이터 확보AI 서비스를 개발하기 전에 다양한 시나리오에서 모델을 테스트해야 합니다.실제 카카오톡 대화를 활용할 수 없는 경우, 유사한 데이터로 모델 성능을 검증할 필요가 있습니다.2️⃣ 모델 평가 데이터 구축평가 데이터가 많을수록 모델의 성능을 객관적이고 일반적인 기준으로 측정할 수 있습니다.편향되지 않은 평가 데이터를 확보해야 실제 환경에서 모델이 잘 동작하는..

Sentence Transformers로 한국어 모델 사용해보기 [15]

Sentence Transformers란?Sentence Transformers(SBert)는 문장과 문서를 고차원의 임베딩 벡터로 변환하여 NLP 작업에 활용할 수 있는 강력한 라이브러리입니다. 특히, 다국어를 지원하는 모델을 제공하므로 한국어 NLP 태스크에서도 유용하게 사용할 수 있습니다.SBert 공식 웹사이트에서는 다양한 Pretrained Models를 제공합니다. 이번 글에서는 한국어 및 다국어 모델을 사용하는 방법을 다룹니다.다국어 모델: distiluse-base-multilingual-cased-v1distiluse-base-multilingual-cased-v1은 다국어를 지원하는 Sentence Transformers 모델 중 하나로, 50개 이상의 언어를 지원합니다. v1이 v2보..