카카오톡 대화 요약

LLM을 활용한 카카오톡 요약: AI 기반 자동 요약 기술 개발 [1]

HeyTeddy 2025. 3. 10. 12:00
반응형

프로젝트 개요

최근 LLM(대형 언어 모델, Large Language Model)을 활용한 자동화 기술이 빠르게 발전하면서, 일상에서 활용할 수 있는 다양한 AI 서비스들이 등장하고 있습니다. 특히 대화 요약 기술은 비즈니스 회의록 작성, 고객 상담 내용 정리, 개인 메신저 기록 정리 등 다양한 분야에서 활용될 수 있습니다. 이에 착안하여, 우리는 카카오톡 대화 요약 프로젝트를 진행하게 되었습니다.

이 프로젝트에서는 LLM을 활용하여 실시간 대화 내용을 효과적으로 요약하는 기술을 개발하고, 성능과 비용을 고려하여 최적의 모델을 선정하는 과정을 거쳤습니다. 또한, 데이터 수집과 모델 개선, 데모 구축까지의 엔드투엔드(A to Z) 개발 프로세스를 경험할 수 있었습니다.

반응형

왜 카카오톡 대화 요약을 선택했을까?

1. AI 서비스 개발 및 모델링 파이프라인 학습

AI 서비스 개발의 핵심은 데이터 수집, 모델 학습, 평가, 배포까지의 전체 파이프라인을 효과적으로 구축하는 것입니다. 이번 프로젝트를 통해 실제 대화 데이터를 활용하여 LLM을 최적화하는 과정을 직접 경험할 수 있었습니다.

2. 대화 요약과 후기 요약의 차이

대화 요약과 리뷰(후기) 요약은 유사해 보이지만, 본질적으로 차이가 있습니다.

  • 대화 요약: 실시간성이 중요하며, 요약 결과가 빠르게 제공되어야 합니다.
  • 후기 요약: 이미 작성된 글을 기반으로 요약되며, 속도보다는 정밀도가 더 중요합니다.

카카오톡 대화 요약에서는 실시간성과 요약의 정확성이 균형을 이루도록 모델을 설계해야 했습니다.

3. 데이터 확보 방법

좋은 AI 모델을 만들기 위해서는 양질의 데이터 확보가 필수적입니다. 이번 프로젝트에서는 아래와 같은 방법을 고려했습니다.

  • 웹 크롤링: 기존 공개된 대화 데이터를 수집
  • 데이터 허브 활용: Hugging Face, Kaggle 등의 플랫폼에서 기존 데이터셋을 활용
  • 데이터 생성: 직접 시나리오를 만들어 대화를 구성하고 데이터로 활용

4. 비용과 성능을 고려한 LLM 모델 선정

LLM 모델을 선택할 때는 성능뿐만 아니라 비용도 고려해야 합니다. 다양한 모델을 검토한 결과, 다음과 같은 모델들을 후보로 선정했습니다.

  • OpenAI GPT-4: 강력한 성능을 제공하지만 비용이 높음
  • Anthropic Claude: 안전성과 성능의 균형이 우수함
  • Google Gemini: 구글 생태계와의 연계가 용이함

5. LLM Guardrail 적용 (안전성 강화)

대화 데이터에는 민감하거나 위험한 내용이 포함될 가능성이 높습니다. 따라서 Guardrail 기술을 적용하여 LLM이 특정 위험한 내용을 필터링하도록 설계했습니다. 이를 통해 보다 안전한 AI 서비스를 제공할 수 있도록 했습니다.


개발 프로세스

이번 프로젝트에서는 AI 모델을 개발하는 엔드투엔드 과정을 직접 경험했습니다. 주요 단계는 다음과 같습니다.

1. 오프라인 실습 환경 구축

먼저, 개발 환경을 구축하는 것이 중요했습니다. Mac 환경에서 Homebrew를 이용하여 필수 패키지를 설치하고, Python 환경을 세팅하여 모델을 실험할 준비를 했습니다.

2. 데이터 수집 및 전처리

  • 크롤링 및 데이터 허브 활용을 통해 카카오톡 대화 데이터를 확보
  • 데이터 전처리를 통해 텍스트 정제 및 토큰화 진행

3. 모델 고도화 및 평가

  • Few-Shot Prompting 기법을 활용하여 요약 성능 개선
  • Human EvaluationRouge Score를 활용하여 요약 품질 평가
  • 여러 LLM을 테스트하며 성능 비교

4. GUI 기반 데모 개발

사용자가 쉽게 AI 요약 모델을 테스트할 수 있도록, ChatUI, Gradio 등을 활용하여 직관적인 GUI 데모를 구축했습니다. 이를 통해 실제 사용자가 모델의 결과를 확인하고 피드백을 제공할 수 있도록 했습니다.


마무리 및 배운 점

이번 카카오톡 대화 요약 프로젝트를 통해, AI 서비스 개발의 핵심 요소인 데이터 수집, 모델 학습 및 평가, 배포까지의 모든 과정을 경험할 수 있었습니다. 또한, 실시간 대화 요약이라는 특수한 도메인에서의 LLM 최적화 방법을 고민하는 과정도 흥미로웠습니다.

향후에는 보다 다양한 대화 데이터셋을 확보하고, 요약의 품질을 더욱 향상시키는 방향으로 연구를 확장해볼 계획입니다. 또한, 기업 환경에서 적용할 수 있는 비즈니스 미팅 요약 AI 등으로 활용 범위를 넓혀볼 수 있을 것입니다.


💡 다음 목표

✔️ 더욱 정밀한 대화 요약을 위한 모델 고도화
✔️ 실시간 요약 성능을 향상시키는 경량화 모델 연구
✔️ 다양한 AI 서비스와 연계할 수 있는 API 개발

카카오톡 대화 요약 프로젝트에 대한 자세한 내용이나 구현 코드가 궁금하시다면 댓글로 남겨주세요! 🚀

반응형