Investment-Assistant

LangChain의 PyPDF로 PDF 텍스트 추출하기: 간단한 실습 가이드 [7]

HeyTeddy 2024. 11. 22. 03:54
반응형

Python에서 LangChainPyPDF 라이브러리를 활용하여 PDF 문서의 텍스트를 추출하는 방법을 소개합니다. 특히, PDF 파일의 첫 페이지에서 텍스트를 추출하는 간단한 실습을 진행하겠습니다.

  • Python 환경
  • 임의의 PDF 파일 (예: test.pdf)

1. 필요한 라이브러리 설치

먼저, PDF 텍스트 추출에 필요한 라이브러리를 설치합니다. 아래 명령어를 실행하세요

pip install langchain
pip install langchain-community
pip install pypdf

2. PDF 텍스트 추출 코드 작성

다음은 LangChain의 PyPDFLoader를 사용해 PDF 파일의 첫 페이지에서 텍스트를 추출하는 코드입니다

from langchain_community.document_loaders import PyPDFLoader

# PDF 파일 로드
loader = PyPDFLoader("C:/LLM_project/investment assistant/test.pdf")

# PDF 파일을 페이지 단위로 분리
pages = loader.load_and_split()

# 첫 페이지의 텍스트 추출
text = pages[0].page_content

# 추출한 텍스트 출력
print(text)

3. 결과 확인

위 코드를 실행하면 PDF 파일의 첫 페이지 텍스트가 출력됩니다.


요약

위 실습에서는 LangChainPyPDF를 활용하여 PDF 파일의 텍스트를 손쉽게 추출하는 방법을 알아보았습니다. 이 방법은 PDF 문서를 분석하거나 자연어 처리 파이프라인에 통합할 때 유용합니다.

PDF 파일의 여러 페이지나 특정 범위를 다루는 방법도 있습니다. 더 깊이 있는 분석을 원한다면 LangChain의 문서 로더 기능을 활용해보세요! 😊

반응형