RAG (Retrieval Augmented Generation)

Source: rag-prompt-engineering Type: 교육 가이드 (Prompt Engineering Guide - DAIR.AI) By: DAIR.AI Valid as of: 2026-04-27

핵심 Takeaway

RAG = 환각 해결책: LLM의 “그럴듯하지만 거짓인 답변”을 외부 지식 검색으로 억제; knowledge cutoff 극복
4단계 흐름: Input → Retrieval → Context Integration → Generation; 각 단계 모듈화 가능
파라메트릭 + 비파라메트릭 메모리 조합: 모델의 학습 지식(파라메트릭)과 검색 DB(비파라메트릭)를 동시 활용으로 정확도·적응성 동시 확보
지식 갱신 무재학습(zero-retraining): DB만 업데이트하면 모델 재학습 불필요; 최신 정보 즉시 반영 가능
벤치마크 입증: Natural Questions, WebQuestions 등 지식 집약 태스크에서 RAG는 표준 LLM 대비 “더 정확하고 구체적이며 다양한” 답변 생성

상세 요약

1. 문제 정의: 언어모델의 한계

일반 목적 언어모델(General-purpose LLM)은 감정분류, 개체명인식 같은 작은 태스크에서 잘 작동한다.

하지만 **지식 집약 태스크(knowledge-intensive task)**에서 세 가지 문제를 노출한다:

문제 1: Knowledge Cutoff

모델의 학습 데이터에는 cutoff date가 있다.
그 이후의 사건, 발전, 정책을 알 수 없다.
예: 2024년 이후 회사 인수합병, 정책 변경, 신제품 출시

문제 2: Domain-Specific Knowledge Gap

모델은 공개 정보에 기반해 학습되었으므로, 비공개·전문 정보를 모른다.
예: 회사 내부 절차, 특정 산업 규제, 고객사 데이터

문제 3: Hallucination (환각)

모델은 확률 분포에서 다음 토큰을 샘플링하므로, 모든 연속(continuation)에 확률을 할당한다.
이는 거짓 정보도 “그럴듯한” 스타일로 생성한다.
사용자는 정확성을 구분하기 어렵다.

이 세 문제를 동시에 해결하는 것이 RAG의 목표다.

2. RAG의 작동 원리

Meta AI 연구팀이 제안한 RAG는 다음 4단계를 순서대로 실행한다.

단계 1: Input Reception (입력 수신)

사용자가 질문 또는 프롬프트를 제시한다.

"한국의 2024년 하반기 정부 정책은?"

단계 2: Document Retrieval (문서 검색)

retriever 컴포넌트가 외부 지식원(Wikipedia, 회사 문서 DB, 웹)을 검색해 관련 문서를 찾는다.

검색 방식: 키워드 매칭 또는 semantic similarity (벡터 기반)
결과: 상위 K개 문서 (보통 5-10개)

Query: "한국의 2024년 하반기 정부 정책"
↓ Retriever
Results: [정부 보도자료 1, 법률 개정안, 정책 뉴스 3개, ...]

단계 3: Context Integration (문맥 통합)

검색된 문서들을 원래 질문과 함께 모델의 입력으로 구성한다.

Input to Model:
Context: [검색된 문서 1] ... [검색된 문서 N]
Question: "한국의 2024년 하반기 정부 정책은?"

단계 4: Response Generation (응답 생성)

모델이 풍부한 외부 정보를 토대로 답변을 생성한다.

환각 감소: 검색된 문서에 없는 주장은 모델도 생성하기 어렵다.
정확도 향상: 최신 정보 기반 생성

3. RAG 아키텍처

RAG 시스템의 전통적 구성:

1) Parametric Memory (파라메트릭 메모리)

사전 학습된 seq2seq 모델 (예: T5, BART)
모델의 가중치(파라미터)에 암묵적으로 저장된 지식
강점: 일반적·문맥적 이해 가능
약점: 최신 정보 반영 불가, domain shift 취약

2) Non-parametric Memory (비파라메트릭 메모리)

벡터 인덱스 (예: Faiss, Pinecone)
명시적 문서 저장 + 빠른 검색
강점: 항상 최신, 정확한 정보 액세스 가능
약점: 단순 유사도 계산만 지원, 추론 어려움

아키텍처의 시너지

Parametric (모델) + Non-parametric (검색)을 조합하면:
- 지식의 신선도 ↑ (최신 정보 반영)
- 이해 깊이 ↑ (모델의 이해력)
- 재학습 불필요 (DB만 업데이트)

4. RAG의 주요 장점

1) Factual Consistency (사실 일관성)

답변이 검색된 문서에 기반하므로, 외부 검증 가능하다.

사용자 신뢰도 ↑
거짓 주장 비율 ↓

2) Adaptive Knowledge (적응적 지식)

DB를 갱신하면 즉시 반영된다. 모델 재학습 불필요.

운영 효율 ↑
비용 절감 (재학습 비용 없음)

3) Reliability (신뢰도)

Hallucination 30-50% 감소
근거 명시 가능 (“이 정보는 문서 X에서 출처”)

4) Efficiency (효율성)

전체 모델 fine-tuning 대비 DB 관리가 훨씬 저렴
새로운 도메인·언어 지원 속도 ↑

5. 성능 검증

RAG는 벤치마크에서 입증된 성능을 보인다.

벤치마크	태스크	RAG 성능	개선점
Natural Questions	개방형 QA	64.2% EM	기존 모델 대비 +15-20%
WebQuestions	웹 기반 QA	72% F1	답변의 정확성·구체성↑
CuratedTrec	전문 분야 QA	높음	다양성·신뢰도 향상

평가 결과: RAG가 생성한 답변은 표준 생성 모델 대비 더 정확하고, 구체적이며, 다양하다.

6. 현대 응용

RAG는 이론에서 실제로 옮아왔다.

ChatGPT + Retrieval 조합

OpenAI는 ChatGPT에 웹 검색 기능 추가 (Browsing)
사용자: 최신 정보 기반 답변 수령

LLM 애플리케이션 표준 패턴

RAG는 이제 LLM 애플리케이션의 표준 구현 패턴이다:

챗봇: 회사 지식 검색 + LLM
검색: 질문 해석 → 문서 검색 → 답변 생성
전문가 시스템: 규칙 DB + 추론

7. 실제 예제

Use Case: 머신러닝 논문 요약 생성기

입력: “최근 RAG 논문 요약해줘”
검색: ArXiv에서 RAG 논문 5-10개 검색
생성: 모델이 논문들을 종합해 간결한 요약 생성
효과: 개별 논문 읽기 없이도 분야 개요 파악 가능

연결되는 위키 페이지

rag — 신규 페이지: RAG의 개념·아키텍처·청킹 역설·평가 기준
dair-ai — 신규 페이지: DAIR.AI 조직 소개 및 교육 자료
agentic-ai-patterns — RAG를 에이전트 Tool Use 패턴의 한 예로 보강

JYP Garden

탐색기

RAG (Retrieval Augmented Generation)

RAG (Retrieval Augmented Generation)

핵심 Takeaway

상세 요약

1. 문제 정의: 언어모델의 한계

문제 1: Knowledge Cutoff

문제 2: Domain-Specific Knowledge Gap

문제 3: Hallucination (환각)

2. RAG의 작동 원리

단계 1: Input Reception (입력 수신)

단계 2: Document Retrieval (문서 검색)

단계 3: Context Integration (문맥 통합)

단계 4: Response Generation (응답 생성)

3. RAG 아키텍처

1) Parametric Memory (파라메트릭 메모리)

2) Non-parametric Memory (비파라메트릭 메모리)

아키텍처의 시너지

4. RAG의 주요 장점

1) Factual Consistency (사실 일관성)

2) Adaptive Knowledge (적응적 지식)

3) Reliability (신뢰도)

4) Efficiency (효율성)

5. 성능 검증

6. 현대 응용

ChatGPT + Retrieval 조합

LLM 애플리케이션 표준 패턴

7. 실제 예제

Use Case: 머신러닝 논문 요약 생성기

연결되는 위키 페이지

그래프 뷰

목차