LangChain의 PyPDF로 PDF 텍스트 추출하기: 간단한 실습 가이드 [7]

Investment-Assistant

LangChain의 PyPDF로 PDF 텍스트 추출하기: 간단한 실습 가이드 [7]

HeyTeddy 2024. 11. 22. 03:54

Python에서 LangChain과 PyPDF 라이브러리를 활용하여 PDF 문서의 텍스트를 추출하는 방법을 소개합니다. 특히, PDF 파일의 첫 페이지에서 텍스트를 추출하는 간단한 실습을 진행하겠습니다.

Python 환경
임의의 PDF 파일 (예: test.pdf)

1. 필요한 라이브러리 설치

먼저, PDF 텍스트 추출에 필요한 라이브러리를 설치합니다. 아래 명령어를 실행하세요

pip install langchain
pip install langchain-community
pip install pypdf

2. PDF 텍스트 추출 코드 작성

다음은 LangChain의 PyPDFLoader를 사용해 PDF 파일의 첫 페이지에서 텍스트를 추출하는 코드입니다

from langchain_community.document_loaders import PyPDFLoader

# PDF 파일 로드
loader = PyPDFLoader("C:/LLM_project/investment assistant/test.pdf")

# PDF 파일을 페이지 단위로 분리
pages = loader.load_and_split()

# 첫 페이지의 텍스트 추출
text = pages[0].page_content

# 추출한 텍스트 출력
print(text)

3. 결과 확인

위 코드를 실행하면 PDF 파일의 첫 페이지 텍스트가 출력됩니다.

요약

위 실습에서는 LangChain과 PyPDF를 활용하여 PDF 파일의 텍스트를 손쉽게 추출하는 방법을 알아보았습니다. 이 방법은 PDF 문서를 분석하거나 자연어 처리 파이프라인에 통합할 때 유용합니다.

PDF 파일의 여러 페이지나 특정 범위를 다루는 방법도 있습니다. 더 깊이 있는 분석을 원한다면 LangChain의 문서 로더 기능을 활용해보세요! 😊

'Investment-Assistant' 카테고리의 다른 글

LangChain으로 PDF 기반 검색기 구현하기: OpenAI Embeddings와 FAISS 활용 [9] (0)	2024.11.22
LangChain으로 문서를 쪼개는 방법: Splitter 실습 가이드 [8] (0)	2024.11.22
OpenAI API를 활용한 RAG 아키텍처와 임베딩 실습 [6] (1)	2024.11.21
LangChain 프레임워크 [5] (0)	2024.11.20
RAG 아키텍처 [4] (3)	2024.11.20

현재글LangChain의 PyPDF로 PDF 텍스트 추출하기: 간단한 실습 가이드 [7]

AI / ML / DL 무한 반복 공부합니다.

Rag, 알고리즘, 빅데이터, Prompt Engineering, LangChain, BOJ, 프롬프트 엔지니어링, 백준알고리즘, Python, bm25, FAISS, 파이썬, AI, Huggingface, ChatGPT, 머신러닝, 백준, OpenAI, nlp, LLM,

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Teddy Data Blog