LLM은 어떻게 글을 쓰는가 — 확률 기반 토큰 예측 5분 이해

ChatGPT·Claude 같은 LLM은 "다음에 올 가장 그럴듯한 단어"를 확률로 고른다. 환각이 왜 구조적으로 발생할 수밖에 없는지를 비전공 마케터 눈높이에서 정리한다.

왜 이 글을 읽어야 하는가

마케팅 실무에서 ChatGPT나 Claude를 매일 쓰면서도 "AI가 왜 가끔 사실이 아닌 걸 진짜처럼 말하지?"라는 의문은 사라지지 않는다. 이걸 알면 두 가지가 달라진다 — 어떤 작업을 AI에게 맡겨야 안전한지 판단할 수 있게 되고, 어떤 작업에선 반드시 검증을 끼워 넣어야 하는지 구조적으로 보인다.

기술적으로 깊이 들어가지 않고, 마케터가 알아야 할 만큼만 정리한다.

LLM은 "이해"하지 않는다 — "예측"한다

LLM(Large Language Model, 대형 언어 모델)이라는 이름이 무겁게 들리지만, 핵심 아이디어는 한 줄이다.

지금까지의 문장이 주어졌을 때, "다음에 올 가장 그럴듯한 단어"를 확률로 고른다.

예를 들어 "오늘 날씨가 정말"까지 입력하면, 모델 내부에서는 다음 단어 후보별로 확률이 계산된다.

다음 단어 후보	확률(예시)
좋다	31%
덥다	22%
춥다	14%
흐리다	9%
이상하다	6%
... (수만 개)	...

여기서 모델은 확률에 따라 하나를 뽑는다. 항상 1등을 뽑는 게 아니라, 가중 추첨처럼 작동한다(이걸 조절하는 게 temperature 파라미터다 — 높으면 다양성↑, 낮으면 1등 위주).

이 과정을 단어 하나씩(정확히는 "토큰"이라는 단어 조각 하나씩) 끝까지 반복하면 한 문단이 만들어진다. 모델은 "오늘 날씨가 정말 좋다"가 사실인지 아닌지를 모른다. 그저 "이 문장 다음에 그 단어가 올 확률이 높다"는 것만 안다.

환각(할루시네이션)은 버그가 아니라 구조다

위 메커니즘을 받아들이면, 환각이 왜 사라질 수 없는지가 자연스럽게 보인다.

1) 모델은 "사실 데이터베이스"가 아니다

모델은 학습 단계에서 수조 개 단어를 통계적으로 압축해 저장한다. "월 검색량 5,000"이라는 정확한 수치가 모델 안에 그대로 박혀 있는 게 아니라, "이 키워드 다음엔 보통 이 정도 단위의 숫자가 온다"는 통계적 그림자가 남아 있다. 그래서 그럴듯한 숫자가 나오지만 실제와 다를 수 있다.

2) 그럴듯함과 사실성은 별개다

확률이 가장 높은 단어 = 사실 가능성이 가장 높은 단어, 가 아니다. 자주 같이 등장한 단어 = 다음에 올 확률이 높은 단어다. 사람이 자주 쓰는 표현일수록 모델도 자주 쓴다. 그래서 "통계적으로 자연스럽지만 사실이 아닌 문장"이 만들어진다 — 이게 환각의 본질이다.

3) 모델은 "모른다"고 잘 말하지 못한다

학습 데이터 대부분이 단정형 문장이라, 모델도 단정형으로 답하는 경향이 강하다. "잘 모르겠습니다"라는 답변보다 "그럴듯하지만 틀린 답"의 확률이 더 높을 때가 많다. 그래서 자신감 있는 문장으로 거짓말을 한다.

마케터가 가져가야 할 4가지 함의

확률 기반 생성이라는 구조를 받아들이면, 실무 판단이 단순해진다.

1) 사실 단정이 핵심인 작업은 LLM 단독으로 맡기지 않는다

가격, 검색량, 통계, 인용문, 날짜, 법령 — 이 항목들은 LLM이 "그럴듯하게 만들어내기 가장 쉬운" 영역이다. 외부 데이터(검색량 API, 공식 문서, 자체 DB)와 대조하는 검증 스텝을 반드시 끼운다.

2) 문체·구성·번역·요약은 LLM이 잘하는 영역이다

이쪽은 "확률적으로 자연스러운 문장"을 만드는 일 그 자체이므로, LLM의 강점과 일치한다. 검증 비용이 낮고 효과가 크다.

3) RAG·외부 도구 호출은 환각을 줄이는 정공법이다

RAG(Retrieval-Augmented Generation)는 LLM에게 답하기 전에 신뢰 가능한 문서를 먼저 읽게 한 뒤 답하게 하는 구조다. "기억에서 만들어내지 말고, 이 문서를 보고 답해"라고 강제하는 셈. 마케팅 자동화에서도 같은 원리로 외부 API·내부 DB를 함께 호출하면 환각이 크게 줄어든다.

4) `temperature`를 무작정 0으로 두지 않는다

temperature=0이면 항상 1등 단어를 뽑아 결과가 결정적이지만, 확률 1등이 사실 1등은 아니다. 환각을 줄이려고 temperature를 낮추는 건 큰 효과가 없다. 환각의 진짜 해법은 "확률을 바꾸는 것"이 아니라 "검증을 추가하는 것"이다.

한 줄로 요약하면

LLM은 사실을 아는 도구가 아니라, 사실처럼 들리는 문장을 만드는 도구다. 이 둘의 차이를 받아들이는 순간, AI를 두려워하는 단계에서 AI를 시스템으로 다루는 단계로 넘어간다.

환각을 시스템으로 관리하는 구체적인 파이프라인 설계는 AI 환각을 믿는 게 진짜 문제일까에서 다뤘다.

LLM은 어떻게 글을 쓰는가 — 확률 기반 토큰 예측 5분 이해

왜 이 글을 읽어야 하는가

LLM은 "이해"하지 않는다 — "예측"한다

환각(할루시네이션)은 버그가 아니라 구조다

1) 모델은 "사실 데이터베이스"가 아니다

2) 그럴듯함과 사실성은 별개다

3) 모델은 "모른다"고 잘 말하지 못한다

마케터가 가져가야 할 4가지 함의

1) 사실 단정이 핵심인 작업은 LLM 단독으로 맡기지 않는다

2) 문체·구성·번역·요약은 LLM이 잘하는 영역이다

3) RAG·외부 도구 호출은 환각을 줄이는 정공법이다

4) `temperature`를 무작정 0으로 두지 않는다

한 줄로 요약하면

AI 환각을 믿는 게 진짜 문제일까

에이전트 시대, 스타트업이 먼저 가야 하는 이유

AI 자동화 콘텐츠의 숨겨진 결함 발견하기

우리 팀에 맞는 그로스 전략이 궁금하신가요?

LLM은 어떻게 글을 쓰는가 — 확률 기반 토큰 예측 5분 이해

왜 이 글을 읽어야 하는가

LLM은 "이해"하지 않는다 — "예측"한다

환각(할루시네이션)은 버그가 아니라 구조다

1) 모델은 "사실 데이터베이스"가 아니다

2) 그럴듯함과 사실성은 별개다

3) 모델은 "모른다"고 잘 말하지 못한다

마케터가 가져가야 할 4가지 함의

1) 사실 단정이 핵심인 작업은 LLM 단독으로 맡기지 않는다

2) 문체·구성·번역·요약은 LLM이 잘하는 영역이다

3) RAG·외부 도구 호출은 환각을 줄이는 정공법이다

4) temperature를 무작정 0으로 두지 않는다

한 줄로 요약하면

AI 환각을 믿는 게 진짜 문제일까

에이전트 시대, 스타트업이 먼저 가야 하는 이유

AI 자동화 콘텐츠의 숨겨진 결함 발견하기

우리 팀에 맞는 그로스 전략이 궁금하신가요?

4) `temperature`를 무작정 0으로 두지 않는다