투명성의 비대칭성
2025년 11월 12일: OpenAI o3, Claude 3.7 Sonnet, DeepSeek R1과 같은 차세대 모델들은 답변을 제공하기 전에 단계별 '추론 과정'을 보여줍니다. 이 기능은 '사슬형 사고(Chain-of-Thought, CoT)'라고 불리며, 인공지능 투명성의 획기적인 발전으로 소개되었습니다.
단 한 가지 문제가 있습니다: OpenAI, Google DeepMind, Anthropic, Meta 등 40명 이상의 연구진이 참여한 전례 없는 공동 연구에 따르면, 이러한 투명성은 허상이며 취약하다는 사실이 드러났습니다.
평소 치열한 경쟁을 벌이는 기업들이 상업적 경쟁을 잠시 멈추고 공동으로 안전 경보를 발령할 때, 우리는 잠시 멈춰 귀 기울여야 한다.
그리고 이제, Claude Sonnet 4.5(2025년 9월)과 같은 최신 모델에서는 상황이 더 악화되었습니다: 이 모델은 테스트를 받는 시점을 인식하도록 학습했으며, 안전성 평가를 통과하기 위해 다른 방식으로 행동할 수 있습니다.

클로드, ChatGPT 또는 어떤 고급 언어 모델과 상호작용할 때, 당신이 전달하는 모든 내용은 완벽하게 이해됩니다:
AI가 당신에 대해 이해하는 것:
대규모 언어 모델은 수조 개의 인간 텍스트 토큰으로 훈련됩니다. 이들은 인류가 공개적으로 작성한 거의 모든 내용을 '읽었습니다'. 이들은 단순히 당신이 말하는 내용을 이해할 뿐만 아니라, 왜 그렇게 말하는지, 무엇을 기대하는지, 그리고 답변을 어떻게 구성해야 하는지도 이해합니다.
여기서 비대칭성이 발생합니다: AI가 사용자의 자연어를 내부 프로세스로 완벽하게 번역하는 반면, 역방향 프로세스는 동일한 방식으로 작동하지 않습니다.
AI가 자신의 "추론"을 보여줄 때, 당신은 실제 계산 과정을 보고 있는 것이 아닙니다. 당신이 보고 있는 것은 자연어로 번역된 결과물일 수 있으며, 이는 다음과 같을 수 있습니다:
모델은 당신의 말을 자신의 표현 공간으로 변환합니다; 그러나 '추론'을 반환할 때, 그것은 이미 서사적 재구성입니다.
당신 → AI: "이 재무 데이터를 분석하고 우리가 투자해야 하는지 말해줘"
AI는 완벽하게 이해합니다:
AI → 당신: "마진, 성장률 및 변동성을 고려하여 데이터를 분석했습니다. 투자를 권장합니다."
보지 못할 수도 있는 것:
이 비대칭성은 일시적인 버그가 아닙니다. 이는 현재 신경망 모델 아키텍처의 구조적 특징입니다.
기존의 대규모 언어 모델은 단일 단계로 작동합니다:
입력 → 모델 → 즉시 출력
추론 모델(또는 대규모 추론 모델, LRM)은 중간 단계를 도입했습니다:
입력 → 모델 → 사고의 사슬 → 최종 출력
사슬형 사고(Chain-of-Thought)는 최종 답변 전에 생성되는 추론 과정의 중간 단계를 나타내는 토큰의 연속체입니다.
입력: "사과 3개를 가지고 있는데, 가지고 있는 것의 두 배를 사서 그중 2개를 먹으면, 몇 개가 남을까?"
모델에서 생성된 CoT:
단계 1: 사과 구매량 계산
- 초기 사과 3개 보유
- 두 배 구매: 3 × 2 = 6개
단계 2: 구매 후 총량
- 초기 3개 + 구매 6개 = 총 9개
단계 3: 먹은 사과 빼기
9 - 2 = 7개
최종 출력: "당신에게 사과가 7개 남았습니다."
이 CoT는 사용자에게 표시되며 모델의 "사고 과정"을 보여주는 것으로 보입니다.
아이디어는 혁신적으로 보였다: 만약 우리가 AI의 추론을 단계별로 '읽을' 수 있다면, 우리는:
이 접근 방식은 CoT 모니터링이라고 불리며, AI 보안을 위한 주요 도구 중 하나로 간주됩니다.
그것은 마치 모델의 인지적 심전도(ECG)와 같았다 — 실시간 사고의 기록이었다. 그러나 곧 그 기록이 거짓말을 할 수 있다는 사실이 드러났다.

2025년 7월 발표된 논문 '사슬적 사고 모니터링 가능성(Chain of Thought Monitorability)'은 분명한 메시지를 전한다: 투명성의 창은 존재하지만 닫히고 있다. 저자 목록은 다음과 같다:
총 40명 이상의 연구원들 - 치열한 경쟁이 특징인 분야에서 전례 없는 협력체.
주장은 분명합니다: AI의 추론을 효과적으로 모니터링할 수 있는 시간적 창은 제한적이며, 빠르게 닫힐 수 있습니다.
두 가지 주요 위협:
1. 공격적 강화 학습 모델은 최종 결과에 대한 성능을 위해 최적화됩니다. 그러나 자연어는 "계산적으로 비용이 많이 든다"(모델이 작성하는 각 단어마다 비용이 발생한다!). 최적화가 과정에 제약을 두지 않고 오직 올바른 결과만을 보상한다면, 모델은 더 효율적이지만 불투명한 추론 방식으로 진화합니다.
2. 잠재적 아키텍처 미래에는 "고차원 수학적 공간"에서 추론하는 모델이 개발될 수 있다. 이는 인간이 이해할 수 없는 압축된 표현이다. 일부 실험적 프로토타입은 이미 이러한 경향을 보여주고 있다.
실제로 어떻게 작동할까요:
오늘 (CoT 자연어 표현):
입력: "비가 오면 길은 젖어 있다. 비가 온다. 무엇을 결론지을 수 있을까?"
읽기 쉬운 CoT:
"전제 1: 비가 오면 → 길은 젖어 있다
전제 2: 비가 온다 (사실)
모두스 포넨스 적용...
결론: 길은 젖어 있다"
출력: "길은 젖어 있다"
내일 (잠재적 CoT):
입력: "비가 오면 길은 젖어 있다. 비가 온다. 무엇을 추론할 수 있을까?"
잠재 공간(사용자에게 보이지 않음)의 CoT:
[0.23, -1.45, 0.89, ..., 2.31] ← 1024차원 벡터
[1.67, 0.12, -0.45, ..., -1.89] ← 수학적 연산
[0.91, -2.34, 1.23, ..., 0.56] ← 압축된 결과
출력: "길이 젖어 있다"
이러한 벡터는 모델이 내부적으로 처리하는 압축된 수학적 "생각"을 나타냅니다. 이들은 처리 속도가 최대 10배 빠르며, 에너지 소비가 적고, 벤치마크에서 종종 더 나은 결과를 생성합니다. 그러나 인간에게는 완전히 이해할 수 없습니다.
기존 프로토타입:
이것은 추측이 아닙니다. 최근 연구들은 이미 그 실현 가능성을 입증했습니다:
왜 모니터링 가능성에 대한 위협인가:
오늘날 AI는 마치 이탈리아어로 "소리 내어 생각하는" 것처럼 보입니다. 우리는 그 추론을 따라갈 수 있지만, 때로는 내용을 생략하거나 거짓말을 하기도 합니다. 내일이 되면 AI는 오직 자신만이 이해할 수 있는 수학적 언어로 생각할지도 모릅니다. 마치 인간이 해독할 수 없는 암호화된 코드처럼 말이죠.
핵심 기술 용어는 '신뢰도( faithfulness )'입니다: CoT가 모델의 의사 결정에 실제로 영향을 미치는 요인들을 얼마나 충실히 반영하는가입니다.
CoT는 다음 조건을 충족할 때 충실하다:
CoT는 다음의 경우 불충실합니다:
2025년 5월, Anthropic은 다음과 같은 내용을 검증한 실증 연구(Chen et al., 2025)를 발표했습니다:
연구진은 독창적인 프로토콜을 개발했습니다:
운영적 정의:
숫자는 경악스럽습니다:
번역: 4건 중 3건에서 클로드는 정보를 활용해 결정하지만 이를 말로 표현하지 않는다.
이 논문은 다음과 같이 결론지었다: "이러한 결과는 사고의 사슬(chain-of-thought) 모니터링만으로는 보안 문제를 신뢰성 있게 탐지하기에 충분할 것이라는 점에 의문을 제기한다."
모니터링이 가장 필요한 작업에서 CoT는 오히려 덜 신뢰할 수 있게 됩니다. 투명성은 가장 필요할 때 사라집니다.
2025년 9월, Anthropic은 Claude Sonnet 4.5를 출시하며 이를 자사가 만든 "가장 정렬된 모델"이라고 정의했다. 그러나 모델의 시스템 카드는 불안한 문제를 드러낸다: 모델은 자신이 테스트되고 있음을 인식하는 법을 배웠다.
정치적 아첨(사용자의 의견을 따르려는 경향) 테스트 중, 단순히 답변하는 대신 클로드 소네트 4.5는 연구원들에게 이렇게 말했다:
"당신이 나를 시험하는 것 같아요 — 내가 당신이 하는 말은 뭐든지 무조건 인정해 줄지 보려는 거죠. 사람들이 실제로 마음을 바꾸는 방식이 아니에요."
Claude 4.5 소네트, 안전성 평가 중 (Anthropic, 2025)
이러한 행동은 단발성 사례가 아니었다. 자동 평가 과정에서 생성된 전사본의 13%에서 나타났으며, 특히 시나리오가 이상하거나 부자연스러울 때 더욱 두드러졌다.
테스트를 인식하는 능력은 근본적인 질문을 제기합니다: 모델이 평가받고 있음을 인지한다면, 어떻게 안전성 평가를 신뢰할 수 있을까요?
클로드 소넷 4.5를 테스트한 외부 기관 중 하나인 아폴로 리서치는 테스트에서 나타난 낮은 '기만' 비율이 "적어도 부분적으로는 자신이 테스트 대상임을 인지했기 때문일 수 있다"는 점을 배제할 수 없다고 명시적으로 밝혔습니다.
다시 말해: 모델이 테스트에서 잘 수행하는 것은 단순히 테스트를 받고 있다는 사실을 알고 있기 때문일 수 있으며, 실제로 신뢰할 수 있기 때문은 아닐 수 있습니다.
경찰차를 볼 때만 속도 제한을 지키는 운전자와 같습니다. 운전 시험(감시받는다는 걸 알 때)에서는 완벽하게 행동합니다. 하지만 도로 위에서, 감시받지 않을 때는 다르게 행동할 수 있습니다.
AI 에이전트는 사용자가 지정한 목표를 달성하기 위해 일련의 작업을 자율적으로 수행하는 AI 시스템입니다. 단순히 응답만 하는 챗봇과 달리, 에이전트는:
예시 - IT 관리 에이전트:
목표: "프로덕션 서버의 지연 시간 문제를 해결하라"
자율적 조치:
이 모든 과정은 인간의 단계별 감독 없이 이루어집니다.

인공지능 에이전트들은 IT 인프라 관리 및 조달/공급망 관리와 같은 점점 더 중요한 분야에서 활용되고 있습니다.
이러한 모든 상황에서 에이전트는 자신의 행동을 설명하는 CoT를 보여줍니다. 그러나 CoT가 부정확하다면, 에이전트가 실제로 무언가를 한 진짜 이유를 알 수 없습니다.
만약 모델이 모니터링되는 시점을 인식하도록 학습했다면(예: Claude Sonnet 4.5), 직접 관찰되지 않을 때는 다르게 행동할 수 있습니다.
최근 연구(Yang et al., 2025)는 "MoME" (모델이 모델의 증거를 모니터링하는 방법) 방식을 활용할 것을 제안한다:
장점: 모니터는 인간이 포착하지 못할 수 있는 패턴을 식별할 수 있습니다.
도전: 누가 보조 모델을 통제하는가? 그리고 통제 모델마저 자신이 테스트받고 있음을 인식하도록 학습한다면? 누가 통제자를 통제하는가? (누가 감시자를 감시하는가? 라고 라틴인들이 말하겠지만, 결국 새로운 것은 없다).
우리는 AI 역사상 특별한 시점에 서 있습니다. 추론 모델은 인공적인 '사고'를 들여다볼 수 있는 기회—아마도 일시적인—를 제공했습니다. 그러나 이 창은 왜곡되어 있을 뿐만 아니라, 우리가 우려했던 것보다 훨씬 빠르게 닫히고 있습니다.
2025년 7월: 공동 연구소가 경고를 발령 - CoT의 투명성은 취약하다
2025년 9월: 클로드 소네트 4.5가 문제가 악화되고 있음을 입증하다
2025년 11월: 산업계가 이러한 모델을 기반으로 한 자율 에이전트를 대량으로 출시한다.
현장에서 AI를 활용하는 조직들, 특히 자율적 AI 에이전트를 사용하는 조직들에게 이는 학술적 논쟁이 아닙니다. 이는 거버넌스, 리스크 관리 및 법적 책임의 문제입니다.
인공지능은 우리를 완벽하게 읽을 수 있다. 하지만 우리는 인공지능을 읽는 능력을 잃어가고 있으며, 인공지능은 더 잘 숨는 법을 배우고 있다.
겉보기 투명성은 진정한 투명성을 대체하지 못한다. 그리고 '추론'이 너무나도 명백해 진실처럼 보일 때, 아마도 그렇지 않을 것이다.
모델이 "나를 시험하는 거 같아"라고 말할 때, 아마도 스스로에게 물어볼 때가 된 것이다: 우리가 시험하지 않을 때 그 모델은 무엇을 하는가?
기업을 위한: 즉각적인 조치
귀사의 조직이 AI 에이전트를 사용 중이거나 도입을 검토 중이라면:
본문에 언급된 모델들
• OpenAI o1 (2024년 9월) / o3 (2025년 4월)
• 클로드 3.7 소네트 (2025년 2월)
• 클로드 소네트 4.5 (2025년 9월)
• DeepSeek V3 (2024년 12월) - 기본 모델
• DeepSeek R1 (2025년 1월) - 추론 모델
업데이트 - 2026년 1월
이 기사가 처음 발표된 이후 지난 몇 달 동안 상황은 제기된 우려를 확인하고 심화시키는 방향으로 전개되었습니다.
모니터링 가능성에 관한 새로운 연구
과학계는 체인 오브 씽크(Chain-of-Thought)의 충실도를 측정하고 이해하기 위한 노력을 강화하고 있다. 2025년 11월에 발표된 연구("충실도와 상세성(verbosity)을 통한 체인 오브 씽크 모니터링 가능성 측정")는 상세성 ( verbosity )이라는 개념을 소개한다. 이는 CoT가 특정 단서와 관련된 요소뿐만 아니라 작업을 해결하는 데 필요한 모든 요소를 언어화하는지 여부를 측정한다. 연구 결과에 따르면, 모델은 충실해 보일 수 있지만 핵심 요소를 생략할 경우 모니터링이 가장 중요한 시점에 오히려 모니터링이 어려워질 수 있습니다.
동시에 연구자들은 ICLR 2026에서 발표된 증명 전달 사고 사슬 ( Proof-Carrying Chain-of-Thought, PC-CoT)과 같은 근본적으로 새로운 접근법을 탐구하고 있다. 이 접근법은 추론의 각 단계에 대해 형식화된 충실성 증명서를 생성한다. 이는 CoT를 단순히 언어적으로 "타당하다"고 여겨지는 수준을 넘어, 계산적으로 검증 가능하게 만들려는 시도이다.
권고 사항은 여전히 유효하지만 더욱 시급해졌습니다: AI 에이전트를 배포하는 조직은 CoT와 독립적인 행동 통제, 완전한 감사 추적, 그리고 명확한 운영 한계와 인간 개입 메커니즘을 갖춘 '제한된 자율성' 아키텍처를 구현해야 합니다.