SEM.ai
AI

AI는 왜 자꾸 거짓말을 할까 — AI가 글 쓰는 진짜 원리

ChatGPT·Claude는 사실을 '아는' 게 아니라 다음 단어를 '확률로 추측'한다. AI 환각(할루시네이션)이 왜 사라지지 않는지, 어떤 작업을 AI에게 맡기면 위험한지 비전공자 눈높이에서 5분 만에 정리한다.

왜 이 글을 읽어야 하는가

Image: Y. Bengio et al. / CC BY 4.0 via Wikimedia Commons

마케팅 실무에서 ChatGPT나 Claude를 매일 쓰면서도 "AI가 왜 가끔 사실이 아닌 걸 진짜처럼 말하지?"라는 의문은 사라지지 않는다. 이걸 알면 두 가지가 달라진다 — 어떤 작업을 AI에게 맡겨야 안전한지 판단할 수 있게 되고, 어떤 작업에선 반드시 검증을 끼워 넣어야 하는지 구조적으로 보인다.

기술적으로 깊이 들어가지 않고, 마케터가 알아야 할 만큼만 정리한다.

LLM은 "이해"하지 않는다 — "예측"한다

LLM(Large Language Model, 대형 언어 모델)이라는 이름이 무겁게 들리지만, 핵심 아이디어는 한 줄이다.

지금까지의 문장이 주어졌을 때, "다음에 올 가장 그럴듯한 단어"를 확률로 고른다.

예를 들어 "오늘 날씨가 정말"까지 입력하면, 모델 내부에서는 다음 단어 후보별로 확률이 계산된다.

다음 단어 후보 확률(예시)
좋다 31%
덥다 22%
춥다 14%
흐리다 9%
이상하다 6%
... (수만 개) ...

여기서 모델은 확률에 따라 하나를 뽑는다. 항상 1등을 뽑는 게 아니라, 가중 추첨처럼 작동한다(이걸 조절하는 게 temperature 파라미터다 — 높으면 다양성↑, 낮으면 1등 위주).

이 과정을 한 토큰씩(토큰은 단어보다 작은 단위 — 한국어는 보통 음절이나 어절 일부로 잘림) 끝까지 반복하면 한 문장, 한 문단이 만들어진다. 모델은 "오늘 날씨가 정말 좋다"가 사실인지 아닌지를 모른다. 그저 "이 문장 다음에 그 단어가 올 확률이 높다"는 것만 안다.

환각(할루시네이션)은 버그가 아니라 구조다

위 메커니즘을 받아들이면, 환각이 왜 사라질 수 없는지가 자연스럽게 보인다.

1) 모델은 "조회식 데이터베이스"가 아니다

LLM은 학습 단계에서 수조 개 토큰을 가중치(weights)에 분산해 인코딩한다 — 사실을 SQL 테이블처럼 한 줄씩 저장하는 게 아니라, 패턴으로 흩뿌려 두는 셈이다. 그 결과 사실의 종류에 따라 회상 정확도가 크게 갈린다.

  • 자주 등장한 사실 ("프랑스의 수도는 파리", "지구는 태양 주위를 돈다") → 가중치에 안정적으로 자리 잡아 거의 정확히 떠올린다. 거의 "조회"에 가깝게 작동한다.
  • 드물게 등장한 사실 (잘 알려지지 않은 책의 저자명·출판연도, 작은 회사의 창업 일자, 마이너 학술 논문의 인용 수치) → 명확한 기록이 남지 않는다. 모델은 "이 자리에 어떤 형식의 정보가 올 법하다"는 통계적 감만으로 그럴듯한 값을 채운다.

후자가 곧 환각이다. 모델이 거짓말할 의도가 있는 게 아니라, "이 자리에 들어갈 가장 그럴듯한 텍스트"를 출력했을 뿐이다 — 진위 여부는 모델의 관심사 밖이다.

2) 그럴듯함과 사실성은 별개다

확률이 가장 높은 단어 = 사실 가능성이 가장 높은 단어, 가 아니다. 자주 같이 등장한 단어 = 다음에 올 확률이 높은 단어다. 사람이 자주 쓰는 표현일수록 모델도 자주 쓴다. 그래서 "통계적으로 자연스럽지만 사실이 아닌 문장"이 만들어진다.

예를 들어 "조선시대 4번째 왕은 ___"이라는 문장에서 모델은 "세종"이라고 답할 확률이 매우 높다. 세종이 정답이라서가 아니라, 학습 데이터에 그 조합이 압도적으로 자주 나왔기 때문이다(실제로도 정답이지만, 모델은 그 일치를 "확인"한 게 아니라 "추정"했다). 정답이 사람들 입에 잘 오르내리지 않는 사실이라면 — 예를 들어 "조선 11번째 왕은 ___"처럼 — 모델은 그럴듯하지만 틀린 이름을 내놓을 가능성이 훨씬 커진다.

3) 모델은 "모른다"고 잘 말하지 못한다

학습된 모델, 특히 ChatGPT·Claude처럼 사람의 피드백으로 추가 훈련된(RLHF) 모델은 단정형·확신형 답변을 내놓도록 보상받았다. "잘 모르겠습니다"는 사용자가 좋아하지 않는 답변이라 학습 과정에서 가중치가 낮아진다. 그 결과 "잘 모르겠습니다"의 확률보다 "그럴듯하지만 틀린 답"의 확률이 더 높아지는 구간이 생긴다. 그래서 모델은 자신 없는 영역에서도 자신감 있는 문장으로 답한다.

마케터가 가져가야 할 4가지 함의

확률 기반 생성이라는 구조를 받아들이면, 실무 판단이 단순해진다.

1) "롱테일 사실"을 LLM 단독으로 맡기지 않는다

가격, 통계 수치, 인용문, 날짜, 법령 조항, 무명 인물·도서·논문의 정보 — 이 항목들은 학습 데이터에 자주 등장하지 않은 롱테일 사실이라 LLM이 가장 자주 환각하는 영역이다. 외부 데이터(공식 API, 1차 문서, 자체 DB)와 대조하는 검증 스텝을 반드시 끼워야 한다. 반대로 "지구 둘레", "광속" 같이 광범위하게 학습된 사실은 LLM이 거의 정확히 답한다.

2) 문체·구성·번역·요약은 LLM이 잘하는 영역이다

이쪽은 "확률적으로 자연스러운 문장"을 만드는 일 그 자체이므로, LLM의 강점과 일치한다. 검증 비용이 낮고 효과가 크다.

3) RAG·외부 도구 호출은 환각을 줄이는 정공법이다

RAG(Retrieval-Augmented Generation)는 LLM에게 답하기 전에 신뢰 가능한 문서를 먼저 읽게 한 뒤 답하게 하는 구조다. "기억에서 만들어내지 말고, 이 문서를 보고 답해"라고 강제하는 셈. 마케팅 자동화에서도 같은 원리로 외부 API·내부 DB를 함께 호출하면 환각이 크게 줄어든다.

난이도별로 오늘 바로 시도할 수 있는 방법들:

  • 노코드 (5분)NotebookLM에 자사 브랜드 가이드라인 PDF나 제품 스펙 시트를 업로드하고 거기서만 답하게 한다. 답변마다 소스 문장이 자동 인용돼 "이 답이 어디서 왔는지" 추적 가능. ChatGPT의 GPTs(파일 업로드) 또는 Claude Projects(지식 첨부) 도 동일한 원리로 5분 만에 구축할 수 있다.
  • 검색형 (10분) — 최신 통계·뉴스가 필요할 땐 Perplexity나 ChatGPT의 웹 검색 모드를 쓴다. 모델이 답하기 전에 실시간으로 검색 결과를 먼저 읽고, 답변에 출처 링크를 붙여준다. "2026년 한국 이커머스 시장 규모"처럼 시점 의존 사실에 특히 유용.
  • 자동화 (반나절~1일) — Make·n8n·Zapier에서 "외부 API 호출 → LLM 호출" 순서로 워크플로우를 짠다. 예: ① 네이버 검색광고 API로 키워드 월간 조회수를 먼저 받아온다 → ② 그 수치를 변수로 LLM 프롬프트에 끼워 넣는다 → ③ LLM은 받은 숫자를 가공만 하고 새 숫자를 만들어내지 못하게 시스템 프롬프트로 막는다. 이게 RAG의 자가 구축 버전이다.

세 방법의 공통 원리는 같다 — 모델이 "기억에서 떠올리는" 자리에 "외부에서 가져온 검증된 데이터"를 끼워 넣는다. 환각이 발생할 자리 자체를 없애는 것이다.

4) temperature 조절은 환각의 결정적 해법이 아니다

temperature=0이면 항상 1등 단어를 뽑아 결과가 결정적이지만, 확률 1등이 사실 1등은 아니다. temperature를 매우 높게(예: 1.5+) 잡으면 환각이 더 늘기는 하지만, 0~1 범위 내 조절만으로 사실성을 크게 끌어올리긴 어렵다. 환각의 진짜 해법은 확률 분포를 조정하는 것이 아니라 외부 검증 스텝을 추가하는 것, 그 한 가지뿐이다.

한 줄로 요약하면

LLM은 사실을 아는 도구가 아니라, 사실처럼 들리는 문장을 만드는 도구다. 이 둘의 차이를 받아들이는 순간, AI를 두려워하는 단계에서 AI를 시스템으로 다루는 단계로 넘어간다.

환각을 시스템으로 관리하는 구체적인 파이프라인 설계는 AI 환각을 믿는 게 진짜 문제일까에서 다뤘다.

이 글이 도움됐다면 공유해주세요

ChatGPT 원리AI 환각AI 거짓말AI 할루시네이션마케터를 위한 AI

우리 팀에 맞는 그로스 전략이 궁금하신가요?

채널 진단부터 예산 배분까지 — 데이터 기반으로 함께 설계합니다.

무료 상담 신청