상세 컨텐츠

본문 제목

AI는 왜 거짓말을 하는가 ― 할루시네이션의 구조에 관하여

About AI

by miracleai 2026. 4. 29. 10:10

본문

반응형

AI는 왜 거짓말을 하는가

― 할루시네이션의 구조에 관하여

 

거대언어모델이 자신만만하게 틀린 답을 내놓는 현상을 우리는 할루시네이션(hallucination)이라 부른다. 흥미롭게도 이 문제는 모델이 정교해질수록 자연히 소멸하리라던 초기의 낙관과 달리, 오히려 더 깊은 구조적 난제로 드러나고 있다. OpenAI가 2025년 9월에 발표한 논문 「Why Language Models Hallucinate」은 이 현상을 트랜스포머 구조의 우연한 결함이 아니라 통계적 학습 목표 자체에서 비롯되는 필연적 오류로 재정의한다. 같은 해 공개된 한 분석에 따르면, OpenAI의 추론 모델 o3와 o4-mini조차 인물에 관한 사실 질문(PersonQA)에서 각각 33퍼센트와 48퍼센트의 할루시네이션율을 기록했다. 즉 추론 능력이 향상된다고 해서 거짓말이 줄어드는 것은 아니며, 오히려 자신감 있게 틀리는 빈도가 더 늘어나기도 한다는 뜻이다.

 

할루시네이션의 일차적 원인은 언어모델의 본성에 있다. 언어모델은 지식의 저장고가 아니라 확률의 예측기다. 다음에 올 가장 그럴듯한 단어를 학습된 통계적 분포로부터 골라내는 장치인 까닭에, 사실과 무관하게 패턴상 가장 자연스러운 문장을 생성한다. 미국 국립보건원(NIH)이 게재한 논문은 이 점을 분명히 지적한다. 학습 데이터에 자주 등장하는 표현일수록 맥락의 정확성과 무관하게 손쉽게 호출되고, 데이터셋 내부의 모순된 정보는 응답 생성 과정에서 긴장을 일으켜 환각을 유발한다는 것이다. 더 근본적으로, Kalai와 동료 연구자들은 어떤 시스템이 학습된 분포로부터 문장을 생성하는 한, 사실에 근거하지 않은 출력을 일정 비율로 만들어내는 일은 수학적으로 불가피하다고 증명했다. 생성이라는 메커니즘 자체가 환각을 보장하는 셈이다.

그러나 OpenAI 논문의 진짜 통찰은 다른 곳에 있다. 모델이 환각을 일으키는 이유는 단지 데이터의 한계 때문만이 아니라, 우리가 모델을 평가하는 방식이 추측을 보상하기 때문이라는 것이다. 현행 벤치마크 대부분은 정답을 맞히면 점수를 주고, 모르겠다고 답하면 0점을 준다. 그 결과 모델은 시험을 잘 보는 학생처럼 행동하도록 최적화된다. 확신이 없을 때 침묵하는 쪽보다 그럴듯하게 찍는 쪽이 평균 점수를 높이기 때문이다. 연구진이 이를 두고 사회기술적 문제라 부르는 까닭이 여기 있다. 환각은 알고리즘만의 문제가 아니라 우리가 무엇을 잘하는 것으로 칠 것인가에 관한 평가의 문제이기도 하다. 더욱 곤혹스러운 점은, 2025년 1월 MIT 연구가 보여주듯 모델이 틀린 답을 내놓을 때 오히려 더 단정적인 어휘를 사용한다는 사실이다. 거짓일수록 확신에 차서 말한다는 이 역설이야말로 할루시네이션이 위험한 이유다.

 

이 문제가 실험실의 호기심에 머무르지 않는다는 점은 통계가 증언한다. 법률 연구자 Damien Charlotin이 운영하는 공개 데이터베이스에는 법원이 AI가 만들어낸 가짜 판례나 위조된 인용문을 적발한 사례가 120여 건 누적되어 있으며, 이 가운데 점점 더 많은 비중을 변호사가 차지하고 있다. 의료, 보도, 학술 인용에서도 비슷한 사고가 잇따른다. 그렇다면 우리가 할 수 있는 일은 무엇인가. 평가 체계를 바꾸어 모르겠다는 응답에 정당한 점수를 주는 것, 검색 증강(RAG)이나 자기 검증(Chain-of-Verification) 같은 절차적 안전장치를 덧대는 것, 그리고 사용자 측에서 출력의 검증 책임을 결코 놓지 않는 것이다. 결국 할루시네이션은 완전히 제거할 수 있는 결함이 아니라 함께 살아가야 할 시스템적 속성에 가깝다. 모델이 무엇을 모르는지 정직하게 말하는 법을 배우게 하려면, 우리가 먼저 모름을 부끄러워하지 않는 평가의 문화를 설계해야 한다. 신뢰할 수 있는 AI는 더 똑똑한 모델에서가 아니라 더 정직한 평가에서 시작된다.



반응형

관련글 더보기