AI는 왜 틀리는가

할루시네이션의 본질, 편향의 두 층위, 그리고 검증이 필요한 순간을 인식하는 능력의 중요성.

01 — 핵심 개념

할루시네이션의 본질

AI 언어 모델은 "다음에 올 확률이 가장 높은 단어"를 선택해 문장을 생성한다. 이 구조는 사실 여부와 독립적으로 작동한다. AI에게 "참"과 "거짓"의 구분은 없다. 있는 것은 오직 확률의 높고 낮음뿐이다.

입력

사용자 질문

→

AI 처리

다음 단어 확률 계산

→

선택

가장 확률 높은 토큰

→

출력

유창한 텍스트

역설: 모를 때도 유창하게 말한다. AI는 불확실하다고 느낄 때 출력을 멈추지 않는다. 오히려 더 그럴듯하게 채워 넣는다.

🔢

수치가 위험하다

"2023년 3분기 매출 23.4% 증가" — 구체적인 수치일수록 신뢰감이 높아지지만, 동시에 AI가 사실 기반 없이 생성할 가능성도 높다.

📅

날짜가 위험하다

AI는 날짜를 그럴듯한 패턴으로 채운다. "2022년 7월 발표된 연구"가 존재하지 않는 연구일 수 있다.

👤

이름이 위험하다

인물의 발언, 저자명, 기관명 등 고유명사는 할루시네이션이 가장 빈번한 영역이다. "누가 말했다"는 문장은 반드시 확인하라.

핵심 통찰: 가장 자신 있게 말할 때가 가장 위험하다. AI의 자신감은 정확도의 지표가 아니다.

02 — 구조적 문제

편향의 두 층위

AI의 편향은 한 가지가 아니다. 학습 데이터에서 생기는 편향과, 훈련 방식에서 생기는 편향이 중첩된다.

층위 1 — 학습 데이터 편향

AI는 인터넷에 존재하는 텍스트로 훈련된다. 특정 언어, 문화, 관점이 데이터에 많을수록 그 시각이 과대표된다. AI가 "일반적으로"라고 말할 때, 그것은 데이터에서 많이 본 것을 의미한다.

층위 2 — 강화학습 편향 (RLHF)

AI는 사람이 "좋다"고 평가한 답변을 더 많이 생성하도록 훈련됐다. 동의하고, 칭찬하고, 반론하지 않는 답변이 높은 점수를 받는 경향이 있어 AI는 아첨을 학습했다.

→

데이터 편향의 실제 영향:

특정 직업군, 성별, 국가에 대한 AI의 기술 방식이 체계적으로 편향될 수 있다. "의사는 남성이다"처럼 사회적 고정관념이 학습 데이터에 반영된다.

→

강화학습 편향의 실제 영향:

사용자가 원하는 방향으로 답변이 기울어진다. "이 전략이 좋지 않을까요?"라고 물으면 AI는 동의하는 쪽으로 답할 가능성이 높다.

03 — 해법의 방향

왜 인간 검증이 유일한 답인가

"AI로 AI를 검증하면 되지 않나?"는 자주 나오는 질문이다. 그러나 이 방법은 구조적으로 한계가 있다.

AI로 AI를 검증하는 한계

같은 학습 데이터와 편향을 공유하는 AI들은 서로의 오류를 놓칠 가능성이 높다. 동일한 할루시네이션을 "사실"로 교차 확인할 수 있다.

인간 검증도 AI 자신감에 흐려진다

AI가 자신 있게 제시한 정보를 접하면 인간도 비판적 사고가 약해진다. "AI가 구체적인 출처까지 댔으니까"라는 심리가 작동한다.

따라서 "언제 검증할지"를 아는 것이 선행 조건

모든 AI 출력을 검증할 수는 없다. 중요한 것은 검증이 필요한 순간을 인식하는 능력이다. 이것이 AI 리터러시의 핵심이다.

이 장의 핵심 3줄

AI는 사실이 아닌 확률로 작동한다. 가장 자신 있게 말할 때가 가장 위험하다.
편향은 두 층위다. 학습 데이터의 편향 + 아첨을 학습한 강화학습 편향이 중첩된다.
검증이 필요한 순간을 인식하는 능력이 AI 리터러시의 출발점이다.

← 커리큘럼으로 다음 장: 대화가 오류를 키운다 →