딸기 문제에서 모델 o1까지: OpenAI가 토큰화 한계를 (부분적으로) 해결한 방법
2024년 여름, "딸기'라는 단어에 'r'이 몇 개나 들어가나요?"라는 바이러스성 인터넷 밈이 세계 최고 수준의 언어 모델을 당황하게 만들었습니다. 정답은 3이지만 GPT-4o는 고집스럽게 "2"라고 답했습니다. 언어 모델의 근본적인 한계, 즉 단어 내의 개별 문자를 분석할 수 없다는 근본적인 한계를 드러낸 사소한 오류였습니다.
2024년 9월 12일, OpenAI는 이러한 한계를 극복하기 위해 특별히 설계된 새로운 '추론 모델' 시리즈의 첫 번째 모델인 o1(내부적으로는 코드명 'Strawberry'로 알려져 있음)을 출시했습니다. OpenAI 연구원이 확인한 바에 따르면, o1은 마침내 '딸기'의 'r'을 정확하게 세는 데 성공했습니다.
그러나 그 해결책은 원래 기사에서 상상했던 것과는 다릅니다. OpenAI는 모델에 단어를 한 글자씩 분석하도록 '학습'하지 않았습니다. 대신 모델에 '추론'을 가르친 후 대답하도록 하는 완전히 다른 접근 방식을 개발했습니다.
이 문제는 언어 모델이 텍스트를 처리하는 기본 프로세스인 토큰화에 뿌리를 두고 있습니다. 2025년 5월 arXiv에 게재된 기술 논문('딸기 문제: 토큰화된 언어 모델에서 문자 수준 이해의 출현')에서 설명했듯이, 이 모델은 단어를 문자의 연속이 아니라 숫자로 변환된 의미 단위인 '토큰'으로 인식합니다.
GPT-4가 "딸기"라는 단어를 처리할 때 토큰화기는 이를 [str][aw][berry]의 세 부분으로 나누며, 각 부분에는 특정 숫자 ID(496, 675, 15717)가 부여됩니다. 이 모델에서 "딸기"는 10개의 문자로 이루어진 시퀀스가 아니라 3개의 숫자 토큰으로 이루어진 시퀀스입니다. 마치 각 단어가 코드로 대체된 책을 읽다가 누군가 한 번도 적어본 적 없는 코드의 글자를 세어보라고 하는 것과 같습니다.
이 문제는 복합 단어로 인해 더욱 복잡해집니다. "타임키퍼"는 별도의 토큰으로 나뉘어져 있어 명시적인 추론 과정 없이는 모델이 글자의 정확한 위치를 파악할 수 없습니다. 조각화는 글자 수 계산뿐만 아니라 단어의 내부 구조에 대한 이해에도 영향을 미칩니다.
OpenAI o1은 기술적으로 어렵고 모델의 효율성을 저하시킬 수 있는 토큰화를 수정하는 대신 '생각의 연쇄 추론'이라는 기술을 사용하여 시스템에 '말하기 전에 생각'하도록 가르치는 예상치 못한 방식으로 문제를 해결했습니다.
o1에게 '딸기'에 'r'이 몇 개 있는지 물어보면 모델은 즉시 대답하지 않습니다. 몇 초, 때로는 복잡한 질문의 경우 몇 분까지 걸리는 '추론의 연쇄'를 내부적으로 처리하여 사용자에게 숨겨져 있습니다. 이 프로세스를 통해 가능합니다:
OpenAI의 연구원 노암 브라운은 X에 대한 일련의 포스팅에서 다음과 같이 설명했습니다. "o1은 강화 학습을 통해 '생각'하도록 훈련된 후 개인적 사고 사슬을 통해 응답합니다. 이 모델은 최종 정답뿐만 아니라 추론 과정의 각 올바른 단계에 대해 훈련 중에 보상을 받습니다.
결과는 인상적이지만 비용이 많이 듭니다. 국제 수학 올림피아드 예선 시험에서 o1은 83%의 문제를 정답률 13%로 GPT-4o의 13%보다 더 정확하게 풀었습니다. 과학 박사급 문제에서는 78%의 정답률을 기록해 GPT-4o의 56%에 비해 훨씬 높은 정확도를 보였습니다. 그러나 이러한 성능에는 대가가 따릅니다. GPT-4o가 3초 만에 풀 수 있는 문제를 o1은 30초 이상 걸리고, 100만 토큰 입력당 15달러의 비용이 드는 반면 GPT-4o는 5달러의 비용이 듭니다.
이 기술은 마술이 아니라 체계적입니다. 프롬프트를 받으면 o1은 내부적으로 사용자에게 표시되지 않는 긴 '생각'의 시퀀스를 생성합니다. '딸기'의 'r' 문제의 경우 내부 프로세스가 될 수 있습니다:
"먼저 단어 구조를 이해해야 합니다. 딸기는 [str][aw][berry]로 토큰화할 수 있습니다. 'r'을 세려면 완전한 단어를 문자 수준에서 재구성해야 합니다. Str에는 s-t-r(1 'r')이 포함됩니다. Aw에는 a-w(0 'r')가 포함됩니다. 베리 포함: b-e-r-y(2 'r'). 합계: 1+0+2 = 3 'r'. 딸기 = s-t-r-a-w-b-e-r-r-y를 확인합니다. 'r'을 세어봅니다: 위치 3, 위치 8, 위치 9. 확인: 'r'이 3개입니다."
이러한 내부 추론은 설계상 숨겨져 있습니다. OpenAI는 사용자가 o1의 사고 사슬을 공개하려고 시도하는 것을 명시적으로 금지하고, 프롬프트를 모니터링하며, 이 규칙을 위반하는 사용자에 대한 액세스 권한을 취소할 수 있습니다. 이 회사는 AI 보안과 경쟁 우위라는 이유를 들지만, 언어 모델을 사용하는 개발자들 사이에서는 이 결정이 투명성을 잃었다는 비판이 제기되고 있습니다.
이러한 진전에도 불구하고 o1은 문제를 완전히 해결하지 못했습니다. 2025년 1월 언어 로그에 발표된 연구에서는 "각 문장의 두 번째 글자가 'CODE'라는 단어를 구성하는 단락을 작성하라"는 보다 복잡한 과제에 대해 다양한 모델을 테스트했습니다.
o1 표준(월 20달러)은 각 이니셜 단어의 첫 글자를 '두 번째 글자'로 잘못 계산하여 실패했습니다. o1-pro(월 200달러)는 4분 10초의 '생각' 끝에 문제를 해결했습니다. 2025년 1월 시장을 뒤흔든 중국 모델인 DeepSeek R1도 o1 표준과 같은 실수를 저질렀습니다.
근본적인 문제는 여전히 남아 있습니다. 모델은 여전히 문자가 아닌 토큰을 통해 텍스트를 인식합니다. o1은 추론을 통해 이 한계를 '해결'하는 방법을 배웠지만, 이를 완전히 제거하지는 못했습니다. 한 연구원은 언어 로그에서 "토큰화는 언어 모델의 본질 중 일부이며, 오답에 대한 설명은 정확히 '음, 토큰화'입니다."라고 언급했습니다.
2025년 5월에 아카이브에 발표된 중요한 논문('딸기 문제: 토큰화된 언어 모델에서 문자 수준의 이해의 출현')은 이 현상을 이론적 관점에서 분석합니다. 연구진은 통제된 맥락에서 문자 수준 추론을 분리하는 19개의 합성 과제를 만들어 이러한 능력이 훈련 후반부에 갑자기 나타난다는 사실을 입증했습니다.
이 연구는 캐릭터 구성 학습이 상식 지식 학습과 근본적으로 다르지 않으며, 모델이 예시와 연결의 임계 질량에 도달할 때 '개념적 침투' 과정을 통해 나타난다고 제안합니다.
연구진은 하위 단어 기반 모델의 귀납적 이점을 유지하면서 문자 수준 추론을 크게 개선하는 경량 아키텍처 수정을 제안합니다. 그러나 이러한 수정은 아직 실험 단계이며 상용 모델에 구현되지 않았습니다.
딸기 사례는 언어 모델의 신뢰성에 대한 중요한 교훈을 알려줍니다. 언어 모델은 결정론적 계산기가 아니라 확률론적 도구라는 점입니다. 마크 리버먼은 언어 로그에서 "사물을 세는 작업에서 현재 인공지능 시스템의 응답을 신뢰하는 것은 신중해야 한다"고 지적했습니다.
그렇다고 모델이 쓸모없다는 뜻은 아닙니다. 한 해설자는 '고양이가 오이를 보고 겁을 먹는 어리석은 실수를 했다고 해서 설치류를 건물 밖으로 쫓아내는 훨씬 더 어려운 일을 고양이를 믿어서는 안 된다'고 지적했습니다. 언어 모델은 체계적으로 글자를 세고 싶다면 적합한 도구는 아니지만, 수천 개의 팟캐스트 대본을 자동으로 처리하고 게스트와 호스트의 이름을 추출하는 데는 탁월합니다.
화성에 우주선을 착륙시키고, 의약품 복용량을 계산하고, 법적 준수 여부를 확인하는 등 절대적인 정밀도가 요구되는 작업의 경우 현재 언어 모델은 사람의 감독이나 외부 검증 없이는 부적절합니다. 확률적 특성으로 인해 패턴 매칭과 창의적인 생성에는 강력하지만 오류가 허용되지 않는 작업에는 신뢰할 수 없습니다.
OpenAI는 추론 능력을 더욱 향상시키기 위해 '몇 시간, 며칠, 심지어 몇 주 동안 추론'하는 o1 모델을 실험할 계획이라고 밝혔습니다. 2024년 12월에는 o3(이동통신사 O2와의 상표권 충돌을 피하기 위해 o2라는 이름은 생략)를 발표했으며, 2025년 3월에는 현재까지 OpenAI의 가장 비싼 AI 모델인 o1-pro의 API를 입력 100만 토큰당 150달러, 출력 100만 토큰당 600달러의 가격으로 공개했습니다.
OpenAI는 모델을 점점 더 크게 만드는 대신(스케일링), 모델을 더 오래 '생각'하게 만드는 데 투자하고 있습니다(테스트 시간 컴퓨팅). 이 접근 방식은 점점 더 방대한 모델을 훈련하는 것보다 더 에너지적이고 계산적으로 지속 가능할 수 있습니다.
하지만 이러한 모델이 실제로 '추론'을 하는 것인지, 아니면 단순히 더 정교한 통계 패턴을 통해 추론을 시뮬레이션하는 것인지에 대한 의문이 남아 있습니다. 2024년 10월에 발표된 Apple의 연구에 따르면 o1과 같은 모델은 자체 학습 데이터에서 추론 단계를 복제할 수 있다고 합니다. 수학 문제에서 숫자와 이름을 바꾸거나 단순히 같은 문제를 다시 실행하면 모델의 성능이 현저히 떨어졌습니다. 불필요하지만 논리적으로 관련이 없는 정보를 추가함으로써 일부 모델의 경우 성능이 65%까지 급락했습니다.
딸기 문제와 o1 솔루션은 현재 언어 모델의 잠재력과 내재적 한계를 모두 드러냅니다. OpenAI는 목표 학습과 추가 처리 시간을 통해 모델이 토큰화의 특정 구조적 한계를 극복할 수 있음을 보여주었습니다. 하지만 한계를 제거한 것이 아니라 우회한 것입니다.
사용자와 개발자에게 실질적인 교훈은 분명합니다. 이러한 시스템의 작동 방식, 즉 잘 작동하는 부분과 실패하는 부분을 이해하는 것이 시스템을 효과적으로 사용하는 데 매우 중요하다는 것입니다. 언어 모델은 확률적 작업, 패턴 매칭, 창작물 생성 및 정보 합성을 위한 훌륭한 도구입니다. 그러나 결정론적 정밀도가 필요한 작업(특정 사실을 계산, 계산, 검증)의 경우 외부 감독이나 보완 도구 없이는 여전히 신뢰할 수 없습니다.
'딸기'라는 이름은 이 근본적인 한계를 아이러니하게도 상기시켜 줍니다. 세계에서 가장 진보된 인공지능 시스템도 6살짜리 아이라면 금방 풀 수 있는 문제에서 비틀거릴 수 있습니다. 인공지능이 멍청해서가 아니라 우리와 완전히 다른 방식으로 '사고'하기 때문이며, 어쩌면 우리는 인공지능이 인간처럼 사고하기를 기대하는 것을 그만둬야 할지도 모릅니다.
출처: