'Rag' 태그의 글 목록

🔎 RAG에서 에이전틱 검색으로, 2026 검색 패러다임의 변화

한 번 검색하고 끝내는 고전 RAG에서, 스스로 질의를 고치고 여러 번 찾아보는 에이전틱 검색으로 무게중심이 옮겨가고 있다.검색을 붙인 LLM 애플리케이션을 만들어 본 사람이라면 한 번쯤 같은 벽에 부딪힌다. 데모에서는 잘 답하던 챗봇이 실제 사용자의 복잡한 질문 앞에서는 엉뚱한 문서를 끌어와 그럴듯한 거짓말을 한다. 고전 RAG(임베딩과 벡터 검색을 묶은 방식)는 단순 질의에는 강하지만, 여러 문서를 엮어야 하는 질문에는 구조적으로 약하다. 이 한계를 넘기 위해 등장한 것이 에이전틱 검색(agentic search)이다. 이 글은 고전 RAG가 어디서 막히는지, 에이전틱 검색이 질의 재작성·멀티홉·도구 호출·검증 루프로 그 벽을 어떻게 넘는지, 그리고 하이브리드 검색과 리랭킹·평가·비용이라는 현실적 제..

500===Dev Database/RAG 2026.06.03

🧠 LLM 1M 컨텍스트 시대, 롱컨텍스트와 RAG는 어떻게 달라지나

100만 토큰 컨텍스트 윈도우가 보편화되면서 "그냥 다 넣으면 되는 것 아닌가"라는 질문이 늘었습니다. 하지만 비용, 지연, 정확도를 따져 보면 롱컨텍스트와 RAG는 경쟁이 아니라 역할이 다른 도구입니다.2026년 현재 주요 LLM(Large Language Model, 대규모 언어 모델)은 한 번에 100만 토큰 이상을 입력으로 받을 수 있습니다. 토큰(token)은 모델이 글을 처리하는 최소 단위로, 단어 하나보다 조금 작은 조각이라고 생각하면 됩니다. 100만 토큰은 책 수천 페이지에 해당하는 분량이라 "검색해서 골라 넣는 RAG가 이제 필요 없는 것 아니냐"는 논쟁이 뜨겁습니다. 그러나 실무에서는 정답 위치에 따라 정확도가 떨어지는 현상, 매 요청마다 전체 문서를 넣을 때의 비용 폭증 같은 함정이..

400===Dev Library/Machine Learning 2026.06.03

LLM 환각 줄이기: 실무에서 검증된 7가지 기법

환각은 완전히 없앨 수 없습니다. 하지만 그라운딩, 인용 검증, 불확실성 허용을 겹겹이 쌓으면 위험을 크게 낮출 수 있습니다.LLM을 제품에 붙이면 가장 먼저 부딪히는 문제가 환각입니다. 그럴듯한 문장으로 존재하지 않는 API를 알려 주거나, 사실과 다른 수치를 자신 있게 단언합니다. 더 곤란한 건, 틀린 답일수록 더 그럴듯하게 들린다는 점입니다. 2025년 OpenAI 연구는 이 문제의 뿌리가 모델의 결함이 아니라 우리가 모델을 평가하고 훈련하는 방식에 있다는 것을 보였습니다. 이 글은 환각이 왜 생기는지 먼저 짚고, 실무에서 바로 적용할 수 있는 7가지 감소 기법을 메커니즘과 한계를 함께 정리합니다.환각이란 무엇인가환각(Hallucination)은 LLM이 사실과 다르거나, 주어진 맥락과 어긋나는 내..

400===Dev Library/Machine Learning 2026.06.03

벡터 데이터베이스 비교 2026: pgvector vs Qdrant vs Pinecone vs Weaviate

정답은 "가장 빠른 DB"가 아니라 "내 상황에 맞는 DB"입니다. 네 가지 대표 선택지를 운영 모델과 비용 구조 중심으로 비교합니다.RAG를 만들기 시작하면 곧바로 마주치는 질문이 있습니다. 벡터를 어디에 저장할 것인가. 검색해 보면 벤치마크 그래프가 쏟아지지만, 정작 실무 결정에 필요한 건 "초당 몇 개 쿼리"보다 "우리 팀이 운영할 수 있는가"입니다. 이 글은 가장 많이 검토되는 네 가지, pgvector, Qdrant, Pinecone, Weaviate를 운영 모델과 비용, 그리고 어떤 상황에 적합한지를 기준으로 비교합니다. 가격은 자주 바뀌므로, 구체적인 숫자는 발행 전 각 공식 페이지에서 다시 확인해야 합니다.왜 벡터 DB를 따로 고민해야 하는가벡터 DB는 임베딩(텍스트나 이미지를 숫자 벡터로..

500===Dev Database/VectorDB 2026.06.03

컨텍스트 엔지니어링 2026: 1M 토큰 시대의 프롬프트 설계 전략

컨텍스트 윈도(context window, 모델이 한 번에 처리할 수 있는 텍스트 양)가 1M 토큰을 넘어선 지금, 역설적인 질문이 생긴다. 왜 더 많이 넣을수록 답변 품질이 나빠지는 경우가 있을까? 원인은 모델의 한계가 아니라 설계의 부재다. 컨텍스트 엔지니어링(context engineering)은 바로 이 설계 행위를 가리킨다. 이 글은 1M 토큰 시대에 실무자가 알아야 할 핵심 원칙과 전략을 정리한다.컨텍스트 엔지니어링이란 무엇인가프롬프트 엔지니어링(prompt engineering)이 문장을 어떻게 쓸지 다듬는 일이라면, 컨텍스트 엔지니어링은 한 단계 위의 설계다. 모델에게 무엇을, 어떤 순서로, 얼마나 제공할지 결정하는 것이다.대화 기록, 검색 결과, 코드베이스, 도구 출력, 사용자 지침—이 ..

카테고리 없음 2026.06.02

메모리허브

Rag 5

티스토리툴바