🦜️🔗 랭체인(LangChain), LLM 앱 개발이 이렇게 쉬워진다고?

블로글러 2025. 6. 15. 01:14

   +-----------+      +-----------------+      +-------------+
-->| User Query|----->| LangChain Chain |----->| LLM Response|
   +-----------+      | (RAG, Agents)   |      +-------------+
                      +-------+---------+
                              |
                      +-------v---------+
                      | External Data   |
                      | (DB, Docs, API) |
                      +-----------------+

ChatGPT API를 연동해 보며 '우리 회사 내부 데이터를 참고해서 답변하면 참 좋을 텐데' 하고 생각한 적 없으신가요? 하지만 막상 구현하려고 하면 데이터 파이프라인 구축부터 복잡한 프롬프트 엔지니어링까지, 막막하게 느껴지는 것이 현실입니다. LLM의 잠재력을 최대한 끌어내고 싶지만, 그 복잡성에 발목 잡혔던 분들을 위한 해결사가 바로 랭체인(LangChain)입니다.

⚡ TL;DR

랭체인은 대규모 언어 모델(LLM)을 데이터베이스나 API 같은 외부 소스와 손쉽게 연결해 주는 오픈소스 프레임워크입니다[2][4].
이 글을 통해 랭체인의 핵심 개념을 이해하고, 외부 데이터를 기반으로 답변하는 간단한 챗봇을 직접 만들어 볼 수 있습니다.

1. 배경: 왜 랭체인이 필요할까요?

GPT-4와 같은 LLM은 놀라운 성능을 보여주지만, 명확한 한계점을 가집니다. 특정 시점까지의 데이터로만 학습했기 때문에 최신 정보를 모르고, 기업의 내부 문서나 데이터베이스 같은 비공개 정보에는 접근할 수 없습니다[6].

이 문제를 해결하기 위해 등장한 것이 바로 랭체인입니다. 2022년 10월 해리슨 체이스(Harrison Chase)가 시작한 이 프로젝트는 LLM을 외부 데이터 소스 및 소프트웨어 워크플로와 통합하는 과정을 간소화하여, 개발자가 더 똑똑하고 유용한 AI 애플리케이션을 쉽게 만들 수 있도록 돕습니다[4][2].

✅ 주요 용어 정리

LLM (Large Language Model): 방대한 텍스트 데이터로 사전 학습된 대규모 딥러닝 모델. 사용자 쿼리에 대한 응답을 생성합니다 (예: GPT-4, Gemini)[6].
프레임워크 (Framework): LLM 기반 애플리케이션 개발을 위한 뼈대와 도구를 제공하는 오픈소스 라이브러리. Python과 JavaScript를 지원합니다[4].
RAG (Retrieval-Augmented Generation): 외부 데이터베이스에서 관련 정보를 검색(Retrieval)하고, 이 정보를 바탕으로 LLM이 답변을 생성(Generation)하도록 하는 기술입니다. 모델의 환각을 줄이고 답변의 정확도를 높입니다[6].

2. 핵심 개념: 레고 블록처럼 조립하는 AI

랭체인은 LLM, 외부 데이터, 특정 기능을 가진 모듈들을 '체인(Chain)'이라는 형태로 엮어, 복잡한 AI 애플리케이션을 손쉽게 구축하도록 돕는 개발 프레임워크입니다[5][6].

랭체인은 LLM 애플리케이션 개발의 모든 단계를 단순화합니다[7][8]. 마치 레고 블록을 조립하듯, 데이터 로딩, 텍스트 분할, LLM 연동 등 필요한 기능(모듈)을 가져와 '체인'으로 연결하기만 하면 됩니다[9]. 이를 통해 개발자는 복잡한 통합 과정 대신 애플리케이션의 핵심 로직에 집중할 수 있습니다[5].

가장 기본적인 형태는 LLM 모델을 불러와 직접 호출하는 것입니다.

# 필요한 라이브러리를 설치합니다.
# pip install langchain langchain_openai

from langchain_openai import ChatOpenAI

# 사용할 LLM 모델을 초기화합니다. 여기서는 OpenAI의 gpt-4o-mini 모델을 사용합니다.
# 랭체인은 구글의 Gemini, 앤트로픽의 Claude 등 거의 모든 LLM을 지원합니다[3][4].
llm = ChatOpenAI(model="gpt-4o-mini", openai_api_key="YOUR_API_KEY")

# 모델에 직접 질문을 던지는 가장 간단한 체인입니다.
response = llm.invoke("랭체인이 무엇인지 한 문장으로 설명해줘.")

# 결과를 출력합니다.
print(response.content)
# 출력 예시: 랭체인은 대규모 언어 모델(LLM)을 사용하여 애플리케이션을 개발하기 위한 오픈 소스 프레임워크입니다.

3. 실습: 나만의 문서로 답변하는 챗봇 만들기

이제 랭체인의 핵심 기능인 RAG를 활용하여, 우리가 제공한 문서의 내용만을 기반으로 답변하는 간단한 챗봇을 만들어 보겠습니다.

① 설치

먼저 필요한 라이브러리들을 설치합니다.

langchain, langchain-openai: 랭체인 코어 라이브러리와 OpenAI 연동 모듈
faiss-cpu: 텍스트를 벡터로 변환하여 저장하고 빠르게 검색하기 위한 벡터 스토어
langchain_text_splitters: 문서를 적절한 크기로 자르기 위한 도구

pip install langchain langchain-openai faiss-cpu langchain_text_splitters

② 구현

간단한 텍스트 파일을 만들고, 그 내용을 기반으로 질문에 답하는 RAG 파이프라인을 구축합니다.

my_document.txt 파일을 생성하고 아래 내용을 저장합니다.

LangChain은 2022년 10월에 시작된 오픈소스 프로젝트입니다.
주요 목표는 LLM을 활용한 애플리케이션 개발을 더 쉽게 만드는 것입니다.
가장 중요한 개념은 '체인(Chain)'으로, 여러 구성 요소를 순차적으로 연결합니다.

이제 이 문서를 읽고 답변을 생성하는 Python 코드를 작성합니다.

import os
from langchain_openai import ChatOpenAI, OpenAIEmbeddings
from langchain_community.vectorstores import FAISS
from langchain_community.document_loaders import TextLoader
from langchain_text_splitters import CharacterTextSplitter
from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain_core.prompts import ChatPromptTemplate
from langchain.chains import create_retrieval_chain

# 1. 환경변수 설정
os.environ["OPENAI_API_KEY"] = "YOUR_API_KEY"

# 2. LLM 및 임베딩 모델 초기화
llm = ChatOpenAI(model="gpt-4o-mini")
embeddings = OpenAIEmbeddings()

# 3. 문서 로드 및 분할
loader = TextLoader("my_document.txt")
docs = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
split_docs = text_splitter.split_documents(docs)

# 4. 벡터 스토어 생성 (문서 내용을 벡터로 변환하여 저장)
# 이 벡터 스토어가 '검색(Retrieval)' 역할을 합니다.
vectorstore = FAISS.from_documents(split_docs, embeddings)
retriever = vectorstore.as_retriever()

# 5. 프롬프트 템플릿 생성
# LLM에게 어떤 역할을 수행할지 지시합니다.
prompt = ChatPromptTemplate.from_template("""
주어진 컨텍스트만을 사용하여 질문에 답변하세요.


{context}


Question: {input}
""")

# 6. 체인(Chain) 생성
# 검색된 문서와 사용자 질문을 LLM에 전달하는 체인을 만듭니다.
document_chain = create_stuff_documents_chain(llm, prompt)

# 7. 검색 체인(Retrieval Chain) 생성
# 사용자 질문을 받아 문서를 검색하고, 그 결과를 document_chain에 넘겨줍니다.
retrieval_chain = create_retrieval_chain(retriever, document_chain)

③ 테스트

생성된 retrieval_chain을 실행하여 질문을 던져봅니다.

# 체인을 실행하고 결과를 확인합니다.
response = retrieval_chain.invoke({"input": "LangChain은 언제 시작되었나요?"})
print(response["answer"])

# 출력 결과:
# LangChain은 2022년 10월에 시작된 오픈소스 프로젝트입니다.

response = retrieval_chain.invoke({"input": "LangChain의 가장 중요한 개념은 무엇인가요?"})
print(response["answer"])

# 출력 결과:
# LangChain의 가장 중요한 개념은 '체인(Chain)'으로, 여러 구성 요소를 순차적으로 연결합니다.

my_document.txt 파일에 있는 내용을 정확히 참조하여 답변하는 것을 볼 수 있습니다. 이것이 바로 랭체인을 활용한 RAG의 기본 원리입니다.

4. 주요 패턴과 베스트 프랙티스

랭체인은 RAG 외에도 다양한 활용 패턴을 제공합니다. 대표적인 패턴의 장점과 주의점을 알아두면 좋습니다.

패턴	장점	주의점
RAG (검색 증강 생성)	모델 재학습 없이 최신/내부 데이터 기반 답변이 가능하며, LLM의 환각(Hallucination) 현상을 크게 줄여줍니다[6].	임베딩 모델과 벡터 DB의 검색 품질이 전체 성능을 좌우합니다. 관련 없는 정보가 검색되면 답변의 질이 떨어질 수 있습니다.
에이전트 (Agents)	LLM이 스스로 판단하여 API 호출, 데이터베이스 조회 등 필요한 도구를 선택하고 실행 계획을 세워 복잡한 작업을 처리할 수 있습니다[6].	LLM의 추론 능력에 크게 의존하므로, 예상치 못한 동작을 하거나 작업에 실패할 수 있습니다. 여러 단계를 거치므로 비용과 지연시간이 증가할 수 있습니다.
메모리 (Memory)	이전 대화 내용을 기억하여 사용자와의 상호작용을 유지함으로써, 자연스러운 챗봇 경험을 제공할 수 있습니다[6].	대화가 길어질수록 컨텍스트 윈도우 한계에 부딪히거나 API 호출 비용이 증가할 수 있습니다. 요약 등 적절한 메모리 관리 전략이 필요합니다.

5. 마치며 & 참고자료

오늘은 LLM 애플리케이션 개발의 복잡성을 해결해 주는 강력한 프레임워크, 랭체인에 대해 알아보았습니다.

랭체인은 LLM을 외부 데이터와 쉽게 연결하여 그 한계를 극복하게 해줍니다[2].
모듈화된 구조 덕분에 개발자는 RAG, 에이전트 등 복잡한 패턴을 레고처럼 쉽게 조립할 수 있습니다[5].
RAG는 파인튜닝 없이도 특정 도메인에 특화된 AI 애플리케이션을 만드는 효과적인 방법입니다[6].

실제 프로젝트에 적용할 때는 먼저 사내 위키나 기술 문서를 기반으로 한 Q&A 챗봇을 RAG 방식으로 만들어보는 것을 추천합니다. 이를 통해 랭체인의 강력함을 직접 체험하고 점차 복잡한 기능으로 확장해 나갈 수 있을 것입니다.

❤️와 댓글은 더 좋은 글을 쓰는 데 큰 힘이 됩니다! 궁금한 점이 있다면 언제든지 질문해주세요.

참고자료

LangChain 공식 문서 (Python): python.langchain.com[8]
LangChain 공식 문서 (JavaScript): js.langchain.com[7]
LangChain GitHub: github.com/langchain-ai/langchain[10]
추가 읽을거리:

[1] https://www.langchain.com
[2] https://www.samsungsds.com/kr/insights/what-is-langchain.html
[3] https://wikidocs.net/231150
[4] https://www.ibm.com/kr-ko/think/topics/langchain
[5] https://cloud.google.com/use-cases/langchain
[6] https://aws.amazon.com/what-is/langchain/
[7] https://js.langchain.com/docs/introduction/
[8] https://python.langchain.com/docs/introduction/
[9] https://pointer81.tistory.com/entry/about-langchain
[10] https://github.com/langchain-ai/langchain
[11] https://brunch.co.kr/@ywkim36/147
[12] https://pypi.org/project/langchain-community/
[13] https://libraries.io/pypi/langchain-community
[14] https://www.langchain.com/langchain
[15] https://js.langchain.com/docs/how_to/

728x90

저작자표시 비영리 변경금지 (새창열림)