RAG가 무엇인가요?

RAG(Retrieval-Augmented Generation)는 AI가 답변을 만들기 전에 외부 지식 소스(웹·데이터베이스·문서)를 검색해 관련 자료를 가져온 후, 그 자료를 근거로 답변을 생성하는 방식입니다. 2020년 Meta AI 논문에서 처음 정립된 후 ChatGPT 검색·Perplexity·Google AI Overview 등 거의 모든 AI 답변 시스템의 표준이 됐습니다. 2025년 IBM·McKinsey 보고서 기준 기업 LLM 배포의 67%가 어떤 형태로든 RAG를 사용합니다.

Perplexity가 답변당 페이지 10개를 방문하지만 3-4개만 인용한다는 건 무슨 뜻인가요?

Perplexity는 사용자 질문 1건당 약 10개 후보 페이지를 검색해 가져오지만, 그 중 답변에 실제 인용·링크되는 페이지는 평균 3~4개에 불과합니다. 즉 검색에 잡히는 것(Retrieval)과 인용되는 것(Citation)은 별개의 게이트가 있다는 뜻이며, 두 게이트를 모두 통과해야 답변에 노출됩니다. ChatGPT는 답변당 평균 10.42개, Google AI Overview는 9.26개 인용 표시.

AI가 답변을 만드는 4단계는 무엇인가요?

1단계 Query Parsing(질문 해석): 사용자 질문의 의도를 파악하고 여러 하위 쿼리로 분해. 2단계 Retrieval(검색·인출): 외부 웹·데이터베이스에서 관련 후보 페이지 수십 개 가져옴. 3단계 Re-ranking(재순위 매김): 후보 페이지를 권위·신선도·구조·관련도 등으로 재정렬해 상위 3~5개 선별. 4단계 Generation(생성·인용): 선별된 페이지에서 핵심 정보를 추출해 답변을 작성하고 출처를 표시. 각 단계에서 우리 콘텐츠가 떨어지면 다음 단계로 못 갑니다.

콘텐츠가 4단계 중 어느 단계에서 떨어지는지 어떻게 알 수 있나요?

AI 플랫폼이 내부 로그를 공개하지 않아 정확히는 알기 어렵지만 추정 가능한 신호가 있습니다. 1단계(Query Parsing)에서 떨어지는 경우는 콘텐츠 주제와 사용자 질문의 표현 차이 때문이고, 2단계(Retrieval)에서 떨어지는 경우는 robots.txt 차단·인덱싱 부재·도메인 권위 부족 때문입니다. 3단계(Re-ranking)에서 떨어지는 경우는 콘텐츠 구조·신선도·인용 부족 때문이고, 4단계(Generation)에서 떨어지는 경우는 추출 가능한 명확한 답변 문장이 본문 첫 30%에 없기 때문입니다. TalkB의 25문항 4뎁스 측정은 어느 단계에서 떨어지는지 패턴화해 진단합니다.

RAG는 ChatGPT 학습 데이터와 어떻게 다른가요?

ChatGPT는 두 가지 응답 방식을 가집니다. 첫째는 학습 기반 응답으로, 모델이 학습된 시점까지의 웹 콘텐츠를 패턴으로 기억해 실시간 검색 없이 답변. 둘째는 RAG 기반 응답으로, OAI-SearchBot이 사용자 질문에 맞춰 웹을 실시간 검색해 최신 정보를 가져옴. 학습 기반 응답에 들어가려면 이미 인터넷에 콘텐츠가 누적되어야 하고, RAG 기반 응답에 들어가려면 현재 시점에 검색되고 인용 가능한 구조여야 합니다. Perplexity·Gemini는 거의 100% RAG 기반이고, ChatGPT는 두 방식을 혼용합니다.

AI 답변 4단계 원리 · RAG부터 인용까지

ChatGPT·Perplexity·Gemini는 사용자 질문에 어떻게 답변할까요? 한 줄로 답한다면: "검색하고, 추려내고, 다시 순위 매기고, 답변을 쓴다." 이 4단계 프로세스의 정식 이름이 RAG(Retrieval-Augmented Generation)입니다. 우리 콘텐츠는 이 4단계 중 어느 한 곳에서라도 떨어지면 답변에서 사라집니다. 비개발자도 이해할 수 있게 각 단계를 정리하고, 어디서 떨어지면 어떻게 되는지까지 짚어드립니다.

김태정 · TalkB 대표 발행 2026.04.25 9분 읽기 Pillar 01 · 기초

먼저 RAG가 뭔지부터

RAG는 Retrieval-Augmented Generation의 약자로, "검색으로 보강된 생성"이라는 뜻입니다. 2020년 Meta AI가 처음 발표한 기법인데, 핵심 아이디어는 단순합니다.

AI 모델은 학습 데이터까지의 지식만 가지고 있어서 새 정보를 모릅니다. 또 학습된 지식만으로 답하면 없는 사실을 지어내는 환각(hallucination) 문제가 발생합니다. 이를 해결하려면 답을 만들기 전에 외부 출처에서 관련 자료를 가져와 그 자료를 근거로 답하게 하는 게 자연스럽습니다.

2026 시점

McKinsey 2026 State of AI in Enterprise 보고서 기준 기업 LLM 배포의 67%가 RAG를 사용합니다. 2024년 31%에서 2년 만에 두 배 이상 증가. 환각률은 RAG 적용 시 40~70% 감소한다는 게 일관된 결과입니다.

Perplexity는 모든 답변에 RAG를 적용합니다. ChatGPT는 학습 기반 응답과 RAG 기반 응답을 혼용합니다(검색이 필요하다고 판단되는 질문에만 OAI-SearchBot을 통해 웹을 검색). Google AI Overview도 사실상 RAG 구조이며, Gemini는 자체 학습 데이터와 Google 검색 인덱스를 결합한 변형 RAG를 씁니다.

그럼 RAG가 정확히 어떻게 작동할까요? 4단계로 분해하면 다음과 같습니다.

4단계 — 우리 콘텐츠가 답변에 들어가기까지

Stage 01

Query Parsing · 질문 해석

"사용자가 진짜 묻는 건 뭐지?"

AI는 사용자 질문을 그대로 받지 않습니다. 의도를 분석하고 여러 하위 쿼리(sub-query)로 분해합니다. Google AI Mode의 "쿼리 팬아웃(query fan-out)"이 대표적인데, 한 질문에 대해 16개의 병렬 검색을 동시에 돌리는 방식입니다.

예를 들어 사용자가 "광장동 조용한 한식당 추천"이라고 물으면 AI는 이걸 다음처럼 분해합니다: "광진구 광장동 한식당", "조용한 분위기 식당", "광장동 한정식 가족 식사", "광나루역 근처 한식당", "광장동 룸 있는 한식당" 등.

⚠ 여기서 떨어지면

AI는 우리 콘텐츠를 아예 검색 후보로 고려하지 않습니다. 원인은 콘텐츠가 사용자가 실제로 쓰는 자연어 표현과 동떨어져 있을 때. "고품격 한식 다이닝"이라고만 적힌 매장 소개는 "광장동 조용한 한식당" 쿼리 분해 결과 어디에도 매칭되지 않습니다.

Stage 02

Retrieval · 검색·인출

"관련 있는 페이지 후보 가져와"

분해된 하위 쿼리들로 외부 웹·인덱스에서 후보 페이지 수십 개를 가져옵니다. 이때 두 종류의 검색이 동시에 작동합니다.

① Sparse Retrieval (전통 검색): 키워드 매칭. "광장동" 단어가 있는 페이지를 찾는 식. BM25 같은 순위 알고리즘 사용.
② Dense Retrieval (벡터 검색): 의미 매칭. 페이지를 1,000개 차원의 숫자 벡터로 변환해 의미적으로 가까운 페이지를 찾음. "조용한"이라고 직접 안 적혀 있어도 "차분한", "대화하기 좋은" 같은 표현이 있으면 매칭.

Perplexity는 이 단계에서 약 10개 페이지를 후보로 가져옵니다. ChatGPT 검색은 더 많이, Google AI Overview는 평균 4.2개 출처 기반으로 답변을 만듭니다.

⚠ 여기서 떨어지면

AI 크롤러가 사이트에 접근할 수 없거나, 도메인 권위가 너무 낮거나, Bing 인덱스에 없으면 후보 단계에서 제외됩니다. robots.txt가 GPTBot·PerplexityBot·ClaudeBot을 차단하고 있으면 콘텐츠 품질과 무관하게 0%. 한국 매장이 네이버 블로그에만 있으면 이 단계에서 사라지는 이유가 이것입니다.

Stage 03

Re-ranking · 재순위 매김

"이 중에 진짜 좋은 출처는?"

Stage 2에서 가져온 후보 페이지 수십 개를 여러 신호로 다시 평가해 상위 3~5개를 선별합니다. Perplexity의 Sonar 모델, ChatGPT의 자체 ranker, Google의 RankBrain·MUM이 여기서 작동합니다.

평가에 쓰이는 주요 신호는 다음과 같습니다.

① 도메인 권위 (E-E-A-T): 기관·언론·전문 도메인을 우대.
② 신선도 (Freshness): 최근 30일 내 업데이트된 콘텐츠는 3.2배 인용. 특히 Perplexity는 신선도 가중치가 가장 높음.
③ 구조 명확성: H1/H2/H3 헤더 계층, JSON-LD, FAQ 구조가 있는 페이지를 우대.
④ 콘텐츠 심도: 20,000자+ 심층 콘텐츠는 4.3배 인용.
⑤ 외부 권위 신호: 다른 신뢰 출처가 인용·언급한 도메인을 우대.

⚠ 여기서 떨어지면

AI 크롤러가 사이트를 방문은 했지만 답변에 인용하지 않습니다. Perplexity는 평균 10개 방문 → 3-4개만 인용. 6-7개 페이지는 이 단계에서 떨어집니다. 신선도 부족·구조 미흡·도메인 권위 약함이 가장 흔한 원인. ConvertMate 데이터에서 AI 인용 페이지의 61%가 JSON-LD 적용, 68.7%가 명확한 헤더 계층을 갖췄습니다.

Stage 04

Generation · 생성·인용

"이제 답변을 쓰고 출처를 표시해"

선별된 3~5개 페이지에서 핵심 정보를 추출(extract)해 답변을 작성합니다. 이때 LLM은 "너는 검색한 것 외엔 절대 말하지 마라"는 엄격한 지시를 받습니다 — 학습 데이터로 임의 보충하면 환각이 생기기 때문.

추출은 "청크(chunk)" 단위로 진행됩니다. 페이지 전체가 아니라 200~500자 단위로 잘라서 필요한 부분만 가져옵니다. 본문 첫 30%에 핵심 답변이 명확히 있는 페이지가 가장 많이 추출됩니다 — Princeton 연구에서 AI 인용의 44%가 텍스트 앞 30%에서 발생한다고 밝혔습니다.

마지막으로 답변 끝에 출처 링크가 표시됩니다. ChatGPT는 답변당 평균 10.42개, Google AI Overview는 9.26개, Perplexity는 5.01개 인용 표시. 인용에 들어가야 비로소 사용자가 우리 사이트로 클릭할 수 있습니다.

⚠ 여기서 떨어지면

Stage 3까지 통과해 답변 생성 후보로 들어왔지만 실제 인용·링크에는 빠지는 상태. 원인은 추출 가능한 명확한 답변 문장이 첫 단락에 없거나, "이 글은 마케팅에 관한 것입니다"같은 모호한 도입부 때문에 청크 단위 매칭이 약할 때. BLUF(Bottom Line Up Front) 형식 — 결론을 먼저, 근거를 뒤에 — 으로 쓴 페이지가 인용률이 2.8배 높습니다.

실제 데이터로 본 4단계 통과율

Perplexity 공개 데이터와 외부 분석을 결합해 실제로 페이지가 4단계를 거치며 어떻게 떨어지는지 시각화하면 다음과 같습니다 (Perplexity 기준 추정).

RAG 4-Stage Funnel · Perplexity 추정

전체 인덱스

100%

Query 매칭

~35%

Retrieval 후보

~12%

Re-rank Top 10

~4%

최종 인용

~1.5%

이 깔때기에서 가장 큰 손실은 2단계(Retrieval) → 3단계(Re-ranking)입니다. 검색에는 잡히지만 권위·구조·신선도 부족으로 답변 후보에 들지 못하는 페이지가 압도적으로 많다는 뜻입니다. 즉 인용되지 않는 콘텐츠 대부분의 문제는 "AI가 못 찾아서"가 아니라 "찾았지만 답변에 쓸 만하지 않아서"입니다.

TalkB 진단 방식

TalkB의 25문항 4뎁스 측정은 4단계 중 어느 단계에서 떨어지는지를 패턴화해 진단합니다. D0~D3 뎁스별로 0% 인용이라면 Stage 1~2 문제(검색 후보 자체가 안 됨), D3는 인용되는데 D0~D2가 0%라면 Stage 3 문제(권위·구조 부족), D3에서 인용은 되지만 부정확하다면 Stage 4 문제(추출 단계 콘텐츠 명확성 부족)로 분류해 우선 작업 영역을 도출합니다.

Stage별 우리가 할 수 있는 작업

각 단계의 게이트를 통과하기 위한 작업은 다릅니다. 우선순위는 다음과 같습니다.

Stage 1 (Query Parsing) 통과를 위해 — 사용자가 실제로 쓰는 자연어 표현을 콘텐츠에 자연스럽게 포함. "고품격 한식 다이닝"이 아니라 "광진구 광장동 조용한 한정식 전문점, 부모님 모시기 좋은 4인 룸"처럼.

Stage 2 (Retrieval) 통과를 위해 — robots.txt에 AI 크롤러 6+종 명시 허용, llms.txt 작성, 사이트맵 제출, 자체 도메인 또는 티스토리·Medium 같은 AI 크롤 가능 채널 사용. 네이버 블로그에만 의존하지 않기.

Stage 3 (Re-ranking) 통과를 위해 — JSON-LD 스키마 적용 (Article·FAQPage·LocalBusiness·Organization), H1/H2/H3 헤더 계층, 30일 내 업데이트, 권위 출처 인용, 외부 매체 노출.

Stage 4 (Generation) 통과를 위해 — BLUF 형식 (결론 먼저, 근거 뒤), 첫 단락에 핵심 답변, 청크 단위로 자기 완결적인 단락 구성, FAQ 형식 Q&A 활용.

자주 묻는 질문

Q. 우리는 콘텐츠 양이 적은데 4단계 다 통과 가능한가요?

가능합니다. 양보다 각 페이지의 자기완결성이 중요합니다. 한 페이지가 한 질문에 충분히 답하는 구조면 양이 적어도 인용됩니다. 다만 도메인 권위는 콘텐츠 누적에 비례하므로, 최소한의 핵심 페이지(About, FAQ, 주요 서비스 설명) 5~10개는 갖춰져 있어야 합니다.

Q. RAG가 뭔지 모르고도 GEO 작업 효과를 볼 수 있나요?

네. 4단계 원리는 "왜 이 작업이 필요한지" 이해하기 위한 배경이지, 작업 자체는 구체적 체크리스트로 진행됩니다. 다만 원리를 알면 왜 어떤 작업이 효과 있고 어떤 작업이 효과 없는지를 직관적으로 판단할 수 있어 의사결정이 빨라집니다.

Q. ChatGPT는 RAG를 안 쓰고 답변할 때도 있다는데 어떻게 대응하나요?

학습 기반 응답에 들어가려면 학습 데이터에 우리 콘텐츠가 누적되어야 합니다. 이는 단기 작업으로 안 되고, 오랜 기간 동안 인터넷 곳곳에 일관된 정보가 쌓이는 것이 핵심입니다. 그래서 GEO는 단기 SEO보다 누적 게임에 가깝고, 그 누적의 시작점이 4단계 게이트 모두를 통과하는 콘텐츠를 정기적으로 발행하는 것입니다.

Stage Diagnosis

우리 사이트는 4단계 중
어디서 떨어지고 있을까?

1:1 무료 상담에서 25문항 4뎁스 테스트로 단계별 통과율을 진단해 드립니다. 어느 단계 작업을 우선해야 할지 30분 통화로 명확해집니다.

단계 진단 신청

Sources

Lewis et al. "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks." Meta AI · NeurIPS 2020.
McKinsey. "State of AI in Enterprise 2026." 67% RAG 적용률.
BloggerByteByteGo. "How Perplexity Built an AI Google." 2025.11. Perplexity의 Vespa 기반 RAG 파이프라인 분석.
ConvertMate. "GEO Benchmark Study 2026." 12,500개 쿼리 분석.
Aggarwal et al. "GEO: Generative Engine Optimization." Princeton · KDD 2024.
Yext. "AI Search Citation Analysis." 2025.10. 6.8M 인용 분석. Gemini 52.15% 자체 도메인.
Pasquale Pillitteri. "Google AI Mode and Zero-Click." 2026.04. Query fan-out 16개 분해.
Vydera Lab. "RAG Pipeline Analysis." 2026.03. 76.4% 인용 페이지가 30일 내 업데이트.

AI 답변 4단계 원리 · RAG부터 인용까지

먼저 RAG가 뭔지부터

4단계 — 우리 콘텐츠가 답변에 들어가기까지

실제 데이터로 본 4단계 통과율

Stage별 우리가 할 수 있는 작업

자주 묻는 질문

Q. 우리는 콘텐츠 양이 적은데 4단계 다 통과 가능한가요?

Q. RAG가 뭔지 모르고도 GEO 작업 효과를 볼 수 있나요?

Q. ChatGPT는 RAG를 안 쓰고 답변할 때도 있다는데 어떻게 대응하나요?

우리 사이트는 4단계 중어디서 떨어지고 있을까?

우리 사이트는 4단계 중
어디서 떨어지고 있을까?