Newsletter

딸기 문제

"딸기에는 'r'이 몇 개 있지?" - 6세 어린이는 "두 개"라고 대답하지만, GPT-4o는 세 개라는 것을 알고 있습니다. 문제는 토큰화입니다. 모델은 문자가 아닌 [str][aw][berry]를 인식합니다. OpenAI는 o1로 이 문제를 해결하지 않고 모델에 "말하기 전에 생각하기"를 가르침으로써 이 문제를 해결했습니다. 결과: 수학 올림피아드에서 83% 대 13%, 하지만 시간은 3초가 아닌 30초, 비용은 세 배나 더 들었습니다. 언어 모델은 놀라운 확률적 도구이지만 여전히 사람이 계산해야 합니다.

딸기 문제에서 모델 o1까지: OpenAI가 토큰화 한계를 (부분적으로) 해결한 방법

2024년 여름, "딸기'라는 단어에 'r'이 몇 개나 들어가나요?"라는 바이러스성 인터넷 밈이 세계 최고 수준의 언어 모델을 당황하게 만들었습니다. 정답은 3이지만 GPT-4o는 고집스럽게 "2"라고 답했습니다. 언어 모델의 근본적인 한계, 즉 단어 내의 개별 문자를 분석할 수 없다는 근본적인 한계를 드러낸 사소한 오류였습니다.

2024년 9월 12일, OpenAI는 이러한 한계를 극복하기 위해 특별히 설계된 새로운 '추론 모델' 시리즈의 첫 번째 모델인 o1(내부적으로는 코드명 'Strawberry'로 알려져 있음)을 출시했습니다. OpenAI 연구원이 확인한 바에 따르면, o1은 마침내 '딸기'의 'r'을 정확하게 세는 데 성공했습니다.

그러나 그 해결책은 원래 기사에서 상상했던 것과는 다릅니다. OpenAI는 모델에 단어를 한 글자씩 분석하도록 '학습'하지 않았습니다. 대신 모델에 '추론'을 가르친 후 대답하도록 하는 완전히 다른 접근 방식을 개발했습니다.

계산 문제: 모델이 잘못 계산하는 이유

이 문제는 언어 모델이 텍스트를 처리하는 기본 프로세스인 토큰화에 뿌리를 두고 있습니다. 2025년 5월 arXiv에 게재된 기술 논문('딸기 문제: 토큰화된 언어 모델에서 문자 수준 이해의 출현')에서 설명했듯이, 이 모델은 단어를 문자의 연속이 아니라 숫자로 변환된 의미 단위인 '토큰'으로 인식합니다.

GPT-4가 "딸기"라는 단어를 처리할 때 토큰화기는 이를 [str][aw][berry]의 세 부분으로 나누며, 각 부분에는 특정 숫자 ID(496, 675, 15717)가 부여됩니다. 이 모델에서 "딸기"는 10개의 문자로 이루어진 시퀀스가 아니라 3개의 숫자 토큰으로 이루어진 시퀀스입니다. 마치 각 단어가 코드로 대체된 책을 읽다가 누군가 한 번도 적어본 적 없는 코드의 글자를 세어보라고 하는 것과 같습니다.

이 문제는 복합 단어로 인해 더욱 복잡해집니다. "타임키퍼"는 별도의 토큰으로 나뉘어져 있어 명시적인 추론 과정 없이는 모델이 글자의 정확한 위치를 파악할 수 없습니다. 조각화는 글자 수 계산뿐만 아니라 단어의 내부 구조에 대한 이해에도 영향을 미칩니다.

솔루션 o1: 응답하기 전의 이유

OpenAI o1은 기술적으로 어렵고 모델의 효율성을 저하시킬 수 있는 토큰화를 수정하는 대신 '생각의 연쇄 추론'이라는 기술을 사용하여 시스템에 '말하기 전에 생각'하도록 가르치는 예상치 못한 방식으로 문제를 해결했습니다.

o1에게 '딸기'에 'r'이 몇 개 있는지 물어보면 모델은 즉시 대답하지 않습니다. 몇 초, 때로는 복잡한 질문의 경우 몇 분까지 걸리는 '추론의 연쇄'를 내부적으로 처리하여 사용자에게 숨겨져 있습니다. 이 프로세스를 통해 가능합니다:

  1. 캐릭터 수준에서의 수요 분석이 필요하다는 것을 인식하고
  2. 단어를 세분화하기 위한 전략 개발
  3. 다양한 접근 방식을 통한 응답 테스트
  4. 최종 답안을 제출하기 전에 오류를 수정합니다.

OpenAI의 연구원 노암 브라운은 X에 대한 일련의 포스팅에서 다음과 같이 설명했습니다. "o1은 강화 학습을 통해 '생각'하도록 훈련된 후 개인적 사고 사슬을 통해 응답합니다. 이 모델은 최종 정답뿐만 아니라 추론 과정의 각 올바른 단계에 대해 훈련 중에 보상을 받습니다.

결과는 인상적이지만 비용이 많이 듭니다. 국제 수학 올림피아드 예선 시험에서 o1은 83%의 문제를 정답률 13%로 GPT-4o의 13%보다 더 정확하게 풀었습니다. 과학 박사급 문제에서는 78%의 정답률을 기록해 GPT-4o의 56%에 비해 훨씬 높은 정확도를 보였습니다. 그러나 이러한 성능에는 대가가 따릅니다. GPT-4o가 3초 만에 풀 수 있는 문제를 o1은 30초 이상 걸리고, 100만 토큰 입력당 15달러의 비용이 드는 반면 GPT-4o는 5달러의 비용이 듭니다.

생각의 사슬: 실제로 작동하는 방식

이 기술은 마술이 아니라 체계적입니다. 프롬프트를 받으면 o1은 내부적으로 사용자에게 표시되지 않는 긴 '생각'의 시퀀스를 생성합니다. '딸기'의 'r' 문제의 경우 내부 프로세스가 될 수 있습니다:

"먼저 단어 구조를 이해해야 합니다. 딸기는 [str][aw][berry]로 토큰화할 수 있습니다. 'r'을 세려면 완전한 단어를 문자 수준에서 재구성해야 합니다. Str에는 s-t-r(1 'r')이 포함됩니다. Aw에는 a-w(0 'r')가 포함됩니다. 베리 포함: b-e-r-y(2 'r'). 합계: 1+0+2 = 3 'r'. 딸기 = s-t-r-a-w-b-e-r-r-y를 확인합니다. 'r'을 세어봅니다: 위치 3, 위치 8, 위치 9. 확인: 'r'이 3개입니다."

이러한 내부 추론은 설계상 숨겨져 있습니다. OpenAI는 사용자가 o1의 사고 사슬을 공개하려고 시도하는 것을 명시적으로 금지하고, 프롬프트를 모니터링하며, 이 규칙을 위반하는 사용자에 대한 액세스 권한을 취소할 수 있습니다. 이 회사는 AI 보안과 경쟁 우위라는 이유를 들지만, 언어 모델을 사용하는 개발자들 사이에서는 이 결정이 투명성을 잃었다는 비판이 제기되고 있습니다.

영구적 제한: o1 완벽하지 않음

이러한 진전에도 불구하고 o1은 문제를 완전히 해결하지 못했습니다. 2025년 1월 언어 로그에 발표된 연구에서는 "각 문장의 두 번째 글자가 'CODE'라는 단어를 구성하는 단락을 작성하라"는 보다 복잡한 과제에 대해 다양한 모델을 테스트했습니다.

o1 표준(월 20달러)은 각 이니셜 단어의 첫 글자를 '두 번째 글자'로 잘못 계산하여 실패했습니다. o1-pro(월 200달러)는 4분 10초의 '생각' 끝에 문제를 해결했습니다. 2025년 1월 시장을 뒤흔든 중국 모델인 DeepSeek R1도 o1 표준과 같은 실수를 저질렀습니다.

근본적인 문제는 여전히 남아 있습니다. 모델은 여전히 문자가 아닌 토큰을 통해 텍스트를 인식합니다. o1은 추론을 통해 이 한계를 '해결'하는 방법을 배웠지만, 이를 완전히 제거하지는 못했습니다. 한 연구원은 언어 로그에서 "토큰화는 언어 모델의 본질 중 일부이며, 오답에 대한 설명은 정확히 '음, 토큰화'입니다."라고 언급했습니다.

학술 연구: 문자 수준에서의 이해의 출현

2025년 5월에 아카이브에 발표된 중요한 논문('딸기 문제: 토큰화된 언어 모델에서 문자 수준의 이해의 출현')은 이 현상을 이론적 관점에서 분석합니다. 연구진은 통제된 맥락에서 문자 수준 추론을 분리하는 19개의 합성 과제를 만들어 이러한 능력이 훈련 후반부에 갑자기 나타난다는 사실을 입증했습니다.

이 연구는 캐릭터 구성 학습이 상식 지식 학습과 근본적으로 다르지 않으며, 모델이 예시와 연결의 임계 질량에 도달할 때 '개념적 침투' 과정을 통해 나타난다고 제안합니다.

연구진은 하위 단어 기반 모델의 귀납적 이점을 유지하면서 문자 수준 추론을 크게 개선하는 경량 아키텍처 수정을 제안합니다. 그러나 이러한 수정은 아직 실험 단계이며 상용 모델에 구현되지 않았습니다.

실무적 시사점: 신뢰해야 할 때와 신뢰하지 말아야 할 때

딸기 사례는 언어 모델의 신뢰성에 대한 중요한 교훈을 알려줍니다. 언어 모델은 결정론적 계산기가 아니라 확률론적 도구라는 점입니다. 마크 리버먼은 언어 로그에서 "사물을 세는 작업에서 현재 인공지능 시스템의 응답을 신뢰하는 것은 신중해야 한다"고 지적했습니다.

그렇다고 모델이 쓸모없다는 뜻은 아닙니다. 한 해설자는 '고양이가 오이를 보고 겁을 먹는 어리석은 실수를 했다고 해서 설치류를 건물 밖으로 쫓아내는 훨씬 더 어려운 일을 고양이를 믿어서는 안 된다'고 지적했습니다. 언어 모델은 체계적으로 글자를 세고 싶다면 적합한 도구는 아니지만, 수천 개의 팟캐스트 대본을 자동으로 처리하고 게스트와 호스트의 이름을 추출하는 데는 탁월합니다.

화성에 우주선을 착륙시키고, 의약품 복용량을 계산하고, 법적 준수 여부를 확인하는 등 절대적인 정밀도가 요구되는 작업의 경우 현재 언어 모델은 사람의 감독이나 외부 검증 없이는 부적절합니다. 확률적 특성으로 인해 패턴 매칭과 창의적인 생성에는 강력하지만 오류가 허용되지 않는 작업에는 신뢰할 수 없습니다.

미래: 시간 단위로 추론하는 모델을 향하여

OpenAI는 추론 능력을 더욱 향상시키기 위해 '몇 시간, 며칠, 심지어 몇 주 동안 추론'하는 o1 모델을 실험할 계획이라고 밝혔습니다. 2024년 12월에는 o3(이동통신사 O2와의 상표권 충돌을 피하기 위해 o2라는 이름은 생략)를 발표했으며, 2025년 3월에는 현재까지 OpenAI의 가장 비싼 AI 모델인 o1-pro의 API를 입력 100만 토큰당 150달러, 출력 100만 토큰당 600달러의 가격으로 공개했습니다.

OpenAI는 모델을 점점 더 크게 만드는 대신(스케일링), 모델을 더 오래 '생각'하게 만드는 데 투자하고 있습니다(테스트 시간 컴퓨팅). 이 접근 방식은 점점 더 방대한 모델을 훈련하는 것보다 더 에너지적이고 계산적으로 지속 가능할 수 있습니다.

하지만 이러한 모델이 실제로 '추론'을 하는 것인지, 아니면 단순히 더 정교한 통계 패턴을 통해 추론을 시뮬레이션하는 것인지에 대한 의문이 남아 있습니다. 2024년 10월에 발표된 Apple의 연구에 따르면 o1과 같은 모델은 자체 학습 데이터에서 추론 단계를 복제할 수 있다고 합니다. 수학 문제에서 숫자와 이름을 바꾸거나 단순히 같은 문제를 다시 실행하면 모델의 성능이 현저히 떨어졌습니다. 불필요하지만 논리적으로 관련이 없는 정보를 추가함으로써 일부 모델의 경우 성능이 65%까지 급락했습니다.

결론: 근본적인 한계가 있는 강력한 도구

딸기 문제와 o1 솔루션은 현재 언어 모델의 잠재력과 내재적 한계를 모두 드러냅니다. OpenAI는 목표 학습과 추가 처리 시간을 통해 모델이 토큰화의 특정 구조적 한계를 극복할 수 있음을 보여주었습니다. 하지만 한계를 제거한 것이 아니라 우회한 것입니다.

사용자와 개발자에게 실질적인 교훈은 분명합니다. 이러한 시스템의 작동 방식, 즉 잘 작동하는 부분과 실패하는 부분을 이해하는 것이 시스템을 효과적으로 사용하는 데 매우 중요하다는 것입니다. 언어 모델은 확률적 작업, 패턴 매칭, 창작물 생성 및 정보 합성을 위한 훌륭한 도구입니다. 그러나 결정론적 정밀도가 필요한 작업(특정 사실을 계산, 계산, 검증)의 경우 외부 감독이나 보완 도구 없이는 여전히 신뢰할 수 없습니다.

'딸기'라는 이름은 이 근본적인 한계를 아이러니하게도 상기시켜 줍니다. 세계에서 가장 진보된 인공지능 시스템도 6살짜리 아이라면 금방 풀 수 있는 문제에서 비틀거릴 수 있습니다. 인공지능이 멍청해서가 아니라 우리와 완전히 다른 방식으로 '사고'하기 때문이며, 어쩌면 우리는 인공지능이 인간처럼 사고하기를 기대하는 것을 그만둬야 할지도 모릅니다.

출처:

  • OpenAI - 'LLM으로 추론하는 법 배우기'(공식 블로그 게시물, 2024년 9월)
  • Wikipedia - 'OpenAI o1'(2025년 1월 업데이트된 항목)
  • 코스마, 아드리안 외 - '딸기 문제: 토큰화된 언어 모델에서 문자 수준 이해의 출현', arXiv:2505.14172 (2025년 5월)
  • 리버먼, 마크 - 'AI 시스템은 여전히 계산할 수 없다', 언어 로그 (2025년 1월)
  • 양, 유 - "대형 언어 모델이 단어의 글자를 세는 데 어려움을 겪는 이유는 무엇입니까?", 미디엄 (2025년 2월)
  • 올랜드, 카일 - "DeepSeek R1은 OpenAI의 최고 추론 모델과 비교했을 때 실제로 어떤 차이가 있을까요?", Ars Technica
  • 브라운, 노암(OpenAI) - X/Twitter에 올린 일련의 게시물(2024년 9월)
  • 테크크런치 - 'OpenAI, 자체 팩트체크가 가능한 모델인 o1 공개' (2024년 9월)
  • 16배 프롬프트 - 'ChatGPT가 딸기의 R을 셀 수 없는 이유' (2025년 6월 업데이트)

비즈니스 성장을 위한 리소스

2025년 11월 9일

소비자 애플리케이션을 위한 AI 규정: 새로운 2025년 규정에 대비하는 방법

2025년, AI의 '와일드 웨스트' 시대 종식: 2024년 2월 2일부터 AI 리터러시 의무, 2025년 8월 2일부터 거버넌스 및 GPAI가 적용되는 EU AI 법안이 8월 2일부터 시행됩니다. 캘리포니아는 강박적 보상 시스템, 자살 생각 감지, 3시간마다 '나는 인간이 아니다'라는 알림, 독립적인 공개 감사, 위반 시 1,000달러의 벌금을 부과하는 SB 243(세웰 세처 자살 이후 탄생, 14세 챗봇과 정서적 관계 형성)으로 선구자적 입지를 다지고 있습니다. SB 420은 '고위험 자동 결정'에 대한 영향 평가와 함께 사람의 검토 항소권을 요구합니다. 실제 집행: Noom은 2022년에 인간 코치로 둔갑한 봇에 대해 5,600만 달러의 합의금을 지불할 것이라고 밝혔습니다. 전국적 추세: 앨라배마, 하와이, 일리노이, 메인, 매사추세츠에서는 AI 챗봇에 알리지 않는 것을 UDAP 위반으로 분류하고 있습니다. 3단계 위험 중요 시스템 접근 방식(의료/교통/에너지) 배포 전 인증, 소비자 대상 투명 공개, 범용 등록+보안 테스트. 연방 정부의 선점 없는 규제 패치워크: 여러 주에 걸쳐 있는 기업은 다양한 요건을 충족해야 합니다. 2026년 8월부터 EU: 명백한 경우를 제외하고 사용자에게 AI 상호 작용을 알리고, AI 생성 콘텐츠에 기계 판독 가능 라벨을 부착합니다.
2025년 11월 9일

생성되지 않은 것을 규제하는 것: 유럽은 기술적으로 무의미할 위험이 있나요?

유럽은 전 세계 인공지능 투자의 10분의 1에 불과하지만 글로벌 규칙을 주도하고 있다고 주장합니다. 이는 혁신을 촉진하지 않고 시장 지배력을 통해 전 지구적 규모의 규칙을 강요하는 '브뤼셀 효과'입니다. 인공지능법은 2027년까지 시차를 두고 시행되지만 다국적 기술 기업들은 훈련 데이터 공개를 피하기 위해 영업 비밀을 발동하고, 기술적으로 준수하지만 이해하기 어려운 요약을 작성하고, 자체 평가를 통해 시스템을 '고위험'에서 '최소 위험'으로 하향 조정하고, 덜 엄격한 규제를 가진 회원국을 선택해 포럼 쇼핑을 하는 등 창의적인 회피 전략으로 대응하고 있습니다. 역외 저작권의 역설: EU는 OpenAI가 유럽 밖에서 교육하는 경우에도 유럽 법률을 준수할 것을 요구하는데, 이는 국제법에서는 전례가 없는 원칙입니다. 동일한 AI 제품의 제한된 유럽 버전과 고급 글로벌 버전이라는 '이중 모델'이 등장합니다. 실제 위험: 유럽은 글로벌 혁신으로부터 고립된 '디지털 요새'가 되어 유럽 시민들은 열등한 기술에 접근하게 됩니다. 신용 평가 사건의 대법원은 이미 '영업 비밀' 항변을 기각했지만, '충분히 상세한 요약'이 정확히 무엇을 의미하는지 해석상의 불확실성은 여전히 엄청납니다. 아무도 모릅니다. 마지막 미해결 질문: EU는 미국 자본주의와 중국 국가 통제 사이에 윤리적 제3의 길을 만들고 있는가, 아니면 단순히 경쟁하지 않는 영역으로 관료주의를 수출하고 있는가? 현재로서는 AI 규제 분야의 세계 선두주자이지만, 개발은 미미한 수준입니다. 방대한 프로그램.
2025년 11월 9일

이상값: 데이터 과학과 성공 사례의 만남

이상값은 더 이상 '제거해야 할 오류'가 아니라 이해해야 할 가치 있는 정보라는 데이터 과학의 패러다임이 바뀌었습니다. 하나의 이상값은 선형 회귀 모델을 완전히 왜곡시킬 수 있지만(기울기를 2에서 10으로 변경), 이를 제거하면 데이터 집합에서 가장 중요한 신호를 잃을 수 있습니다. 머신 러닝은 정교한 도구를 도입합니다: 격리 포레스트는 무작위 의사 결정 트리를 구축하여 이상값을 격리하고, 로컬 이상값 팩터는 국소 밀도를 분석하며, 자동 인코더는 정상 데이터를 재구성하여 재현할 수 없는 것을 보고합니다. 글로벌 이상값(열대 지방의 기온 -10°C), 상황별 이상값(가난한 동네에서 1,000유로 지출), 집단 이상값(공격을 나타내는 동기화된 스파이크 트래픽 네트워크) 등이 있습니다. 폴 매카트니는 '많은 밴드가 함부르크에서 10,000시간 동안 성공하지 못했지만 이론은 틀림없다'고 주장하며 '10,000시간 법칙'에 대한 논쟁을 벌였습니다. 아시아의 수학적 성공은 유전이 아니라 문화입니다: 중국의 숫자 체계는 더 직관적이고, 벼 재배는 지속적인 개선이 필요하며, 서양의 농업 영토 확장과는 대조적입니다. 실제 적용 사례: 영국 은행은 실시간 이상 징후 탐지를 통해 18%의 잠재적 손실을 복구하고, 제조업에서는 육안 검사로는 놓칠 수 있는 미세한 결함을 감지하고, 의료 업계에서는 85% 이상의 이상 징후 감지 감도로 임상시험 데이터를 검증합니다. 마지막 교훈: 데이터 과학이 이상값을 제거하는 데서 이상값을 이해하는 데로 나아감에 따라, 우리는 비정상적인 데이터를 수정해야 할 이상값이 아니라 연구해야 할 가치 있는 궤적으로 보아야 합니다.