RAG (Retrieval Augmented Generation)
Source: rag-prompt-engineering Type: 교육 가이드 (Prompt Engineering Guide - DAIR.AI) By: DAIR.AI Valid as of: 2026-04-27
핵심 Takeaway
- RAG = 환각 해결책: LLM의 “그럴듯하지만 거짓인 답변”을 외부 지식 검색으로 억제; knowledge cutoff 극복
- 4단계 흐름: Input → Retrieval → Context Integration → Generation; 각 단계 모듈화 가능
- 파라메트릭 + 비파라메트릭 메모리 조합: 모델의 학습 지식(파라메트릭)과 검색 DB(비파라메트릭)를 동시 활용으로 정확도·적응성 동시 확보
- 지식 갱신 무재학습(zero-retraining): DB만 업데이트하면 모델 재학습 불필요; 최신 정보 즉시 반영 가능
- 벤치마크 입증: Natural Questions, WebQuestions 등 지식 집약 태스크에서 RAG는 표준 LLM 대비 “더 정확하고 구체적이며 다양한” 답변 생성
상세 요약
1. 문제 정의: 언어모델의 한계
일반 목적 언어모델(General-purpose LLM)은 감정분류, 개체명인식 같은 작은 태스크에서 잘 작동한다.
하지만 **지식 집약 태스크(knowledge-intensive task)**에서 세 가지 문제를 노출한다:
문제 1: Knowledge Cutoff
- 모델의 학습 데이터에는 cutoff date가 있다.
- 그 이후의 사건, 발전, 정책을 알 수 없다.
- 예: 2024년 이후 회사 인수합병, 정책 변경, 신제품 출시
문제 2: Domain-Specific Knowledge Gap
- 모델은 공개 정보에 기반해 학습되었으므로, 비공개·전문 정보를 모른다.
- 예: 회사 내부 절차, 특정 산업 규제, 고객사 데이터
문제 3: Hallucination (환각)
- 모델은 확률 분포에서 다음 토큰을 샘플링하므로, 모든 연속(continuation)에 확률을 할당한다.
- 이는 거짓 정보도 “그럴듯한” 스타일로 생성한다.
- 사용자는 정확성을 구분하기 어렵다.
이 세 문제를 동시에 해결하는 것이 RAG의 목표다.
2. RAG의 작동 원리
Meta AI 연구팀이 제안한 RAG는 다음 4단계를 순서대로 실행한다.
단계 1: Input Reception (입력 수신)
사용자가 질문 또는 프롬프트를 제시한다.
"한국의 2024년 하반기 정부 정책은?"
단계 2: Document Retrieval (문서 검색)
retriever 컴포넌트가 외부 지식원(Wikipedia, 회사 문서 DB, 웹)을 검색해 관련 문서를 찾는다.
- 검색 방식: 키워드 매칭 또는 semantic similarity (벡터 기반)
- 결과: 상위 K개 문서 (보통 5-10개)
Query: "한국의 2024년 하반기 정부 정책"
↓ Retriever
Results: [정부 보도자료 1, 법률 개정안, 정책 뉴스 3개, ...]
단계 3: Context Integration (문맥 통합)
검색된 문서들을 원래 질문과 함께 모델의 입력으로 구성한다.
Input to Model:
Context: [검색된 문서 1] ... [검색된 문서 N]
Question: "한국의 2024년 하반기 정부 정책은?"
단계 4: Response Generation (응답 생성)
모델이 풍부한 외부 정보를 토대로 답변을 생성한다.
- 환각 감소: 검색된 문서에 없는 주장은 모델도 생성하기 어렵다.
- 정확도 향상: 최신 정보 기반 생성
3. RAG 아키텍처
RAG 시스템의 전통적 구성:
1) Parametric Memory (파라메트릭 메모리)
- 사전 학습된 seq2seq 모델 (예: T5, BART)
- 모델의 가중치(파라미터)에 암묵적으로 저장된 지식
- 강점: 일반적·문맥적 이해 가능
- 약점: 최신 정보 반영 불가, domain shift 취약
2) Non-parametric Memory (비파라메트릭 메모리)
- 벡터 인덱스 (예: Faiss, Pinecone)
- 명시적 문서 저장 + 빠른 검색
- 강점: 항상 최신, 정확한 정보 액세스 가능
- 약점: 단순 유사도 계산만 지원, 추론 어려움
아키텍처의 시너지
- Parametric (모델) + Non-parametric (검색)을 조합하면:
- 지식의 신선도 ↑ (최신 정보 반영)
- 이해 깊이 ↑ (모델의 이해력)
- 재학습 불필요 (DB만 업데이트)
4. RAG의 주요 장점
1) Factual Consistency (사실 일관성)
답변이 검색된 문서에 기반하므로, 외부 검증 가능하다.
- 사용자 신뢰도 ↑
- 거짓 주장 비율 ↓
2) Adaptive Knowledge (적응적 지식)
DB를 갱신하면 즉시 반영된다. 모델 재학습 불필요.
- 운영 효율 ↑
- 비용 절감 (재학습 비용 없음)
3) Reliability (신뢰도)
- Hallucination 30-50% 감소
- 근거 명시 가능 (“이 정보는 문서 X에서 출처”)
4) Efficiency (효율성)
- 전체 모델 fine-tuning 대비 DB 관리가 훨씬 저렴
- 새로운 도메인·언어 지원 속도 ↑
5. 성능 검증
RAG는 벤치마크에서 입증된 성능을 보인다.
| 벤치마크 | 태스크 | RAG 성능 | 개선점 |
|---|---|---|---|
| Natural Questions | 개방형 QA | 64.2% EM | 기존 모델 대비 +15-20% |
| WebQuestions | 웹 기반 QA | 72% F1 | 답변의 정확성·구체성↑ |
| CuratedTrec | 전문 분야 QA | 높음 | 다양성·신뢰도 향상 |
평가 결과: RAG가 생성한 답변은 표준 생성 모델 대비 더 정확하고, 구체적이며, 다양하다.
6. 현대 응용
RAG는 이론에서 실제로 옮아왔다.
ChatGPT + Retrieval 조합
- OpenAI는 ChatGPT에 웹 검색 기능 추가 (Browsing)
- 사용자: 최신 정보 기반 답변 수령
LLM 애플리케이션 표준 패턴
RAG는 이제 LLM 애플리케이션의 표준 구현 패턴이다:
- 챗봇: 회사 지식 검색 + LLM
- 검색: 질문 해석 → 문서 검색 → 답변 생성
- 전문가 시스템: 규칙 DB + 추론
7. 실제 예제
Use Case: 머신러닝 논문 요약 생성기
- 입력: “최근 RAG 논문 요약해줘”
- 검색: ArXiv에서 RAG 논문 5-10개 검색
- 생성: 모델이 논문들을 종합해 간결한 요약 생성
- 효과: 개별 논문 읽기 없이도 분야 개요 파악 가능
연결되는 위키 페이지
- rag — 신규 페이지: RAG의 개념·아키텍처·청킹 역설·평가 기준
- dair-ai — 신규 페이지: DAIR.AI 조직 소개 및 교육 자료
- agentic-ai-patterns — RAG를 에이전트 Tool Use 패턴의 한 예로 보강