최근 몇 년 사이, 생성형 AI(Generative AI)의 핵심 기술 중 하나로 주목받고 있는 RAG(Retrieval-Augmented Generation)는 기업 현장에 AI 기술을 도입하는 데 중요한 역할을 해오고 있습니다. 고객 서비스 챗봇, 사내 문서 검색 시스템, 기술 지원 자동화 등에 빠르게 적용되며 실용적인 가능성을 보여줬습니다.
RAG는 질문을 입력하면 외부 지식이나 기존 문서에서 관련 정보를 검색하고, 이를 토대로 언어 모델이 정교한 답을 만들어내는 구조입니다. 하지만 현실에서는 기대와 다른 경우가 적지 않습니다. 시스템이 정보를 충분히 찾고도 틀린 답을 내놓는다거나, 문서 내용과 어긋나는 결과를 산출하는 일이 종종 발생합니다. 이런 문제는 단순한 기술 부족이 아니라, 우리가 RAG 시스템에 갖는 근본적인 기대와 설계 방식의 한계에서 비롯되고 있습니다.
구글의 최근 연구는 이러한 한계에 대해 유의미한 통찰을 제공합니다. 이 글에서는 구글의 연구를 토대로, 기업이 RAG 시스템을 도입하거나 보완할 때 반드시 고려해야 할 전략과 관점을 소개드리고자 합니다.
목차
RAG 시스템이 실패하는 근본 이유: 문맥을 가져와도 틀린 답을 준다
많은 기업은 RAG 시스템이 관련 문서만 잘 검색해오면 정답을 제시할 수 있을 것이라 기대합니다. 하지만 실제로는 문서가 주어졌음에도 불구하고, 시스템이 틀린 정보를 자신 있게 제공하거나 질문과 관련 없는 이야기를 늘어놓곤 합니다. 이는 모델이 검색된 정보를 어떻게 이해하고 활용하느냐에 달린 문제입니다.
특정한 정보를 그대로 긁어와 보여주는 것이 아니라, 그 정보가 질문에 ‘정확히’ 답할 수 있는지까지 판단해야만 하는 것이죠. 구글 연구진은 이에 대해 근본적인 질문을 던졌습니다. “이 문맥은 정말 답을 내릴 수 있을 만큼 충분한가?”
‘충분한 문맥’이란 무엇인가?
구글은 이러한 문제를 해결하기 위한 개념으로 ‘충분한 문맥(sufficient context)’을 제안했습니다. 이 개념은 단순하지만 강력합니다. 단순히 문서가 관련 정보를 포함하고 있는지보다, 질문에 정확히 답할 수 있을 만큼의 정보가 포함되어 있는지를 묻습니다.
충분한 문맥은 사용자가 제기한 질문에 명확하고 정확한 답을 도출할 수 있는 정보를 포함한 상태를 의미합니다. 반대로 불충분한 문맥은 정보가 부족하거나, 문서 내용이 애매하거나 모순되어서 명확한 답을 만들기 어려운 상황입니다.
이 기준은 RAG 시스템을 평가하거나 설계할 때 중요한 기준점을 제시합니다. 문서를 찾는 것만으로는 부족하고, 그 문서가 정말 ‘써도 되는’ 문서인지를 판단하는 것이 핵심입니다.
현장에서 반복되는 실패 패턴
실제로 많은 기업이 챗봇이나 지식 검색 시스템을 구축하면서 수많은 문서를 연결합니다. 그러나 어떤 정보가 정확한 답변에 적합한지를 구분하지 못하고, 검색된 내용을 기반으로 무리하게 답을 만들어내는 경우가 많습니다.
예를 들어, 한 전자회사가 고객 환불 정책을 챗봇으로 안내한다고 가정해보겠습니다. 봇이 오래된 메뉴얼에서 “무조건 30일 이내에 환불 가능”이라는 문장을 불러와 안내했지만, 실제로는 ‘제품 유형, 파손 여부, 구매 채널’ 등에 따라 조건이 달랐던 경우입니다. 고객 혼란은 물론, 불만과 클레임으로 이어질 수 있습니다.
이런 상황에서 ‘충분한 문맥’ 개념을 적용하면, 챗봇은 해당 문서만으로는 정확한 안내가 어렵다고 판단할 수 있습니다. 그 결과, “정확한 환불 조건은 고객센터에 문의하세요”라는 안내로 전환할 수 있죠. 작지만 중요한 변화이며, 기업에 대한 신뢰 형성에 큰 차이를 만들어냅니다.
LLM 기반의 자동 문맥 판별 도구: 구글의 ‘Autorater’
기업 입장에서 매 질문마다 일일이 ‘문맥이 충분한지’를 검수하는 일은 현실적이지 않습니다. 이를 해결하기 위해 구글은 ‘Autorater’라는 자동화 도구를 개발했습니다. 이 도구는 LLM(대형 언어 모델)을 활용하여, 주어진 문맥이 질문에 대해 충분한 정보를 담았는지를 자동으로 판별합니다.
흥미로운 점은 Gemini 같은 최신 모델이 단 1~2개의 예시만으로도 이 작업을 효과적으로 해낸다는 것입니다.
기업은 사내 사용자 질문이나 고객 질의 데이터를 수집한 뒤, Autorater를 통해 이들이 연결된 문서가 충분한지 자동 평가할 수 있습니다. 그렇게 되면, 현재 AI 시스템의 정확도 한계를 파악하고 어떤 부분부터 보완할지 명확하게 판단하게 됩니다.

불충분한 문맥이 부르는 세 가지 오류
문서가 부족하거나 모호한 상황에서 RAG 시스템은 다음과 같은 세 가지 주요 실패 패턴을 보입니다.
첫째, 정보 부족에도 불구하고 모델이 자신 있게 틀린 답을 내놓는 문제입니다. 이른바 ‘환각(hallucination)’ 현상으로, 없는 내용을 지어내더라도 확신에 찬 어조로 안내합니다.
둘째, 시스템이 상황을 인식하지 못하고 무조건 답을 주려는 방식도 문제입니다. 문맥이 불충분해도 “정보 부족”이라는 메시지를 주지 않고 억지로 응답을 생성합니다.
셋째, 일부 정보만 보고 전체를 일반화함으로써 오류를 발생시키는 경우입니다. 특히 옛 문서 내용이나 부분 정보만으로 전체 규정을 설명하려고 하다 보면 이런 문제가 생깁니다.
이런 응답들은 단지 기술적 오류를 넘어서, 고객 신뢰 하락, 브랜드 이미지 훼손이라는 실제 피해로 이어질 수 있습니다.
전략 1: 셀렉티브 생성(Selective Generation) 프레임워크
이러한 문제들에 대한 대안으로 구글은 ‘셀렉티브 생성’이라는 구조를 제안합니다. 흥미롭게도 이 전략은 ‘언제 답을 해야 하는가’를 통제하는 방식입니다. 간단히 말해, 시스템이 답변을 내리기 전 문맥이 충분한지 판단해보고, 부족하다면 “답변 불가” 또는 대체 안내를 제안하는 식입니다.
실제 적용 사례로는 SaaS 기업에서 요금제 관련 질문이 들어왔을 때, 최근 요금 변동 정보가 포함된 최신 문서가 존재할 경우에만 상세 요금 안내를 제공하도록 설정합니다. 그렇지 않을 경우, 고객센터 연결 안내를 제공함으로써 혼란을 줄이고 고객에 대한 신뢰를 유지할 수 있습니다.
이 구조는 AI가 “항상 답해야 한다”는 강박에서 벗어나게 해주며, 기업 서비스의 품질을 더욱 신뢰성 있게 유지할 수 있게 해줍니다.
전략 2: “모르겠습니다”를 말할 줄 아는 모델
대부분의 LLM 모델은 훈련 과정에서 언제나 답을 하도록 학습되어 있습니다. 이에 대해, 구글은 ‘모르겠습니다(I don’t know)’라고 말할 줄 아는 LLM 훈련 방식도 실험했습니다.
예를 들어, 학습 데이터 중 일부 질문에 대해 “정답 없음” 또는 “정보 부족”을 의도적으로 포함시켜 모델에게 ‘침묵의 전략’을 훈련시킬 수 있습니다. 실제로 이런 학습을 거친 모델은 명확하지 않은 상황에서 무리한 응답을 피하고, 정보 부족을 표현하는 경향이 높아졌습니다.
비록 모든 경우에서 성능이 비약적으로 향상되지는 않았지만, 최소한 잘못된 정보를 내놓기보다는 정중하게 응답을 보류하는 것이 훨씬 바람직하다는 점에서 주목할 만합니다.
기업이 바로 적용할 수 있는 실전 팁
이제 실제 현장에서 활용할 수 있는 구체적인 방법을 소개드리겠습니다. 자사의 챗봇, 검색 시스템 등에 바로 적용해볼 수 있습니다.
우선, 고객이나 직원이 자주 묻는 질문과 이에 연결된 문서 쌍을 최소한 500~1000개 수준으로 수집해보시기 바랍니다. 이 데이터에 구글의 ‘Autorater’를 적용해 문맥이 충분한지 분류해보면, 현재 시스템의 응답 정확도를 판단할 수 있게 됩니다.
그 다음, 정확성이나 응답 오류율 같은 핵심 지표들을 문맥 유형별로 정리해보시면 됩니다. 특정 문맥에서만 오류가 반복된다면, 문서 품질이나 검색 알고리즘 조정이 필요하다는 뜻입니다.
마지막으로, 모든 질문에 반드시 답하지 않아야 한다는 셀렉티브 생성 전략을 부분적으로 도입해보세요. 대신, “정확한 안내를 위해 고객지원팀에 연결해드릴게요” 같은 우회 응답을 준비해 두는 것이 중요합니다.
결론: 기업 RAG 시스템의 성패는 ‘문맥 이해력’에 달려 있습니다
RAG 기술은 분명히 성숙기에 접어들었지만, 이를 어떻게 설계하고 운영하느냐에 따라 결과는 극명하게 달라집니다. 구글의 연구는 단순히 기술적 개선을 넘어서 “문맥의 충분성”이라는 핵심 질문을 우리의 AI 전략 중심에 놓아야 한다는 것을 알려줍니다.
혹시 지금 여러분의 AI 시스템이 명확하지 않은 답변을 자주 준다거나, 고객 신뢰를 얻지 못하고 있다면, 이제는 ‘문맥이 충분한가’를 따져볼 차례입니다. 기술은 진화하고 있지만, 성패는 언제나 정확한 설계와 철학에서 갈립니다.

![]() | AX 100배의 법칙 – 나와 조직의 능력을 100배 높이는 AI 경영의 실제 도서 구매 |
함께 읽으면 좋은 글: