반응형
Python에서 LangChain과 PyPDF 라이브러리를 활용하여 PDF 문서의 텍스트를 추출하는 방법을 소개합니다. 특히, PDF 파일의 첫 페이지에서 텍스트를 추출하는 간단한 실습을 진행하겠습니다.
- Python 환경
- 임의의 PDF 파일 (예: test.pdf)
1. 필요한 라이브러리 설치
먼저, PDF 텍스트 추출에 필요한 라이브러리를 설치합니다. 아래 명령어를 실행하세요
pip install langchain
pip install langchain-community
pip install pypdf
2. PDF 텍스트 추출 코드 작성
다음은 LangChain의 PyPDFLoader를 사용해 PDF 파일의 첫 페이지에서 텍스트를 추출하는 코드입니다
from langchain_community.document_loaders import PyPDFLoader
# PDF 파일 로드
loader = PyPDFLoader("C:/LLM_project/investment assistant/test.pdf")
# PDF 파일을 페이지 단위로 분리
pages = loader.load_and_split()
# 첫 페이지의 텍스트 추출
text = pages[0].page_content
# 추출한 텍스트 출력
print(text)
3. 결과 확인
위 코드를 실행하면 PDF 파일의 첫 페이지 텍스트가 출력됩니다.
요약
위 실습에서는 LangChain과 PyPDF를 활용하여 PDF 파일의 텍스트를 손쉽게 추출하는 방법을 알아보았습니다. 이 방법은 PDF 문서를 분석하거나 자연어 처리 파이프라인에 통합할 때 유용합니다.
PDF 파일의 여러 페이지나 특정 범위를 다루는 방법도 있습니다. 더 깊이 있는 분석을 원한다면 LangChain의 문서 로더 기능을 활용해보세요! 😊
반응형
'Investment-Assistant' 카테고리의 다른 글
LangChain으로 PDF 기반 검색기 구현하기: OpenAI Embeddings와 FAISS 활용 [9] (0) | 2024.11.22 |
---|---|
LangChain으로 문서를 쪼개는 방법: Splitter 실습 가이드 [8] (0) | 2024.11.22 |
OpenAI API를 활용한 RAG 아키텍처와 임베딩 실습 [6] (1) | 2024.11.21 |
LangChain 프레임워크 [5] (0) | 2024.11.20 |
RAG 아키텍처 [4] (3) | 2024.11.20 |