Newsletter

수학이 어려운 이유(인공지능이라 해도)

언어 모델은 우리가 파이를 외우는 것처럼 결과를 곱셈하는 방법을 모르지만 그렇다고 해서 수학자가 되는 것은 아닙니다. 문제는 구조적 문제입니다. 알고리즘적 이해가 아니라 통계적 유사성을 통해 학습합니다. o1과 같은 새로운 '추론 모델'도 사소한 작업에서는 실패합니다. '딸기'의 'r'을 몇 초 만에 정확하게 계산하지만 각 문장의 두 번째 글자가 단어를 구성하는 단락을 작성해야 할 때는 실패합니다. 월 200달러의 프리미엄 버전은 어린이가 하는 일을 즉시 해결하는 데 4분이 걸립니다. 2025년 딥시크릿과 미스트랄은 여전히 글자를 잘못 계산합니다. 새로운 솔루션은? 가장 똑똑한 모델이 직접 계산을 시도하는 대신 실제 계산기를 불러야 할 때를 알아내는 하이브리드 접근 방식입니다. 패러다임의 전환: AI는 모든 것을 할 줄 알 필요 없이 적절한 도구를 조율할 수 있습니다. 마지막 역설: GPT-4는 극한 이론을 훌륭하게 설명할 수 있지만 포켓 계산기가 항상 정확하게 풀 수 있는 곱셈을 틀립니다. 무한한 인내심을 가지고 설명하고, 예시를 적용하고, 복잡한 추론을 세분화하는 등 수학 교육에는 탁월합니다. 정확한 계산을 원하시나요? 인공 지능이 아닌 계산기에 의존하세요.

많은 사람들이 LLM 을 사용하여 수학적 연산을 수행하기도 합니다. 이 접근 방식은 효과가 없습니다.

사실 문제는 간단합니다. 대규모 언어 모델(LLM)은 곱셈하는 방법을 잘 모릅니다. 제가 파이의 값을 외울 수 있는 것처럼 가끔 결과를 정확하게 맞출 수 있습니다. 하지만 이것이 제가 수학자라는 의미는 아니며, LLM이 실제로 수학을 할 줄 안다는 의미도 아닙니다.

실제 사례

예: 49858 *59949 = 298896167242 이 결과는 항상 동일하며 중간값이 없습니다. 옳거나 그르거나 둘 중 하나입니다.

엄청난 수학적 훈련을 받더라도 최고의 모델은 일부 연산만 제대로 풀 수 있습니다. 반면에 간단한 포켓 계산기는 항상 100% 정확한 결과를 얻습니다. 그리고 숫자가 커질수록 LLM의 성능은 더 나빠집니다.

이 문제를 해결할 수 있나요?

기본적인 문제는 이러한 모델이 이해가 아닌 유사성에 의해 학습한다는 것입니다. 학습한 문제와 유사한 문제에서는 가장 잘 작동하지만, 그 문제를 제대로 이해하지 못합니다.

더 자세히 알고 싶으신 분들은 이 "LLM의 작동 방식".

반면 계산기는 수학적 연산을 수행하도록 프로그래밍된 정밀한 알고리즘을 사용합니다.

방대한 양의 특정 학습 데이터가 있는 최상의 조건에서도 가장 기본적인 연산에서조차 신뢰성을 보장할 수 없기 때문에 수학적 계산을 LLM에 전적으로 의존해서는 안 되는 이유입니다. 하이브리드 접근 방식이 효과적일 수 있지만 LLM만으로는 충분하지 않습니다. 아마도 소위'딸기 문제'를 해결하기 위해 이 접근법을 따를 것입니다.

수학 연구에서 LLM의 응용 분야

교육적 맥락에서 LLM은 학생의 이해 수준에 맞게 설명을 조정할 수 있는 개인 맞춤형 튜터 역할을 할 수 있습니다. 예를 들어, 학생이 미분적분학 문제에 직면했을 때 LLM은 추론을 더 간단한 단계로 세분화하여 풀이 과정의 각 단계에 대한 자세한 설명을 제공할 수 있습니다. 이러한 접근 방식은 기본 개념에 대한 확실한 이해를 구축하는 데 도움이 됩니다.

특히 흥미로운 점은 관련성 있고 다양한 예제를 생성하는 LLM의 능력입니다. 학생이 극한의 개념을 이해하려고 할 때 LLM은 간단한 사례부터 시작하여 더 복잡한 상황으로 발전하는 다양한 수학적 시나리오를 제시하여 개념을 점진적으로 이해할 수 있게 해줍니다.

한 가지 유망한 응용 분야는 복잡한 수학적 개념을 보다 접근하기 쉬운 자연어로 번역하는 데 LLM을 사용하는 것입니다. 이를 통해 더 많은 청중에게 수학을 쉽게 전달할 수 있으며, 수학에 대한 전통적인 접근 장벽을 극복하는 데 도움이 될 수 있습니다.

LLM은 또한 다양한 난이도의 연습 문제를 생성하고 학생들이 제안한 솔루션에 대한 자세한 피드백을 제공하는 등 교육 자료 준비를 지원할 수 있습니다. 이를 통해 교사는 학생의 학습 경로를 더 잘 맞춤화할 수 있습니다.

진정한 이점

또한 더 일반적으로 고려해야 할 것은 '능력'이 가장 낮은 학생도 학습할 수 있도록 돕는 극도의 '인내심'입니다. 이 경우 감정이 없는 것이 도움이 됩니다. 그럼에도 불구하고 인공지능도 때때로 '인내심을 잃을' 때가 있습니다. 이 '재미있는' 예시.

2025 업데이트: 추론 모델과 하이브리드 접근 방식

2024-2025년에는 OpenAI o1과 deepseek R1과 같은 이른바 '추론 모델'이 등장하면서 상당한 발전이 이루어졌습니다. 이 모델들은 수학 벤치마크에서 인상적인 성과를 거두었습니다. o1은 국제 수학 올림피아드에서 문제의 83%를 정확하게 풀었고, GPT-4o의 경우 13%에 그쳤습니다. 하지만 주의할 점은 위에서 설명한 근본적인 문제를 해결하지 못했다는 점입니다.

"딸기"의 'r'을 세는 딸기 문제는 지속적인 한계를 완벽하게 보여줍니다. o1은 몇 초의 "추론" 끝에 올바르게 해결하지만 각 문장의 두 번째 글자가 "CODE"라는 단어를 구성하는 단락을 작성하도록 요청하면 실패합니다. 월 $200 버전인 o1-pro는 4분 동안 처리한 후 해결합니다. DeepSeek R1 및 기타 최신 모델은 여전히 기본 개수를 잘못 계산합니다. 2025년 2월, 미스트랄은 '딸기'에 'r'이 두 개만 있다고 계속 대답했습니다.

49858에 5994949를 곱해야 할 때 고급 모델은 더 이상 훈련 중에 본 계산과의 유사성을 기반으로 결과를 '추측'하지 않습니다. 대신 계산기를 호출하거나 자신의 한계가 무엇인지 아는 지능적인 사람이 할 수 있는 것처럼 Python 코드를 실행합니다.

이러한 '도구 사용'은 인공지능이 모든 것을 스스로 할 수 있어야 하는 것이 아니라 적절한 도구를 조율할 수 있어야 한다는 패러다임의 전환을 의미합니다. 추론 모델은 문제를 이해하는 언어적 능력, 해결책을 계획하는 단계별 추론, 정확한 실행을 위한 전문 도구(계산기, 파이썬 인터프리터, 데이터베이스)에 대한 위임이 결합된 것입니다.

교훈은? 2025년의 LLM이 수학에서 더 유용한 것은 곱셈을 '배워서'(아직 실제로 해본 적이 없기 때문이아니라) 곱셈을 실제로 할 수 있는 사람들에게 언제 곱셈을 위임해야 하는지 이해하기 시작했기 때문입니다. 기본적인 문제는 여전히 남아 있습니다. 알고리즘의 이해가 아닌 통계적 유사성에 의해 작동한다는 것입니다. 5유로 계산기는 여전히 정확한 계산을 위해 무한히 더 신뢰할 수 있습니다.

비즈니스 성장을 위한 리소스

2025년 11월 9일

소비자 애플리케이션을 위한 AI 규정: 새로운 2025년 규정에 대비하는 방법

2025년, AI의 '와일드 웨스트' 시대 종식: 2024년 2월 2일부터 AI 리터러시 의무, 2025년 8월 2일부터 거버넌스 및 GPAI가 적용되는 EU AI 법안이 8월 2일부터 시행됩니다. 캘리포니아는 강박적 보상 시스템, 자살 생각 감지, 3시간마다 '나는 인간이 아니다'라는 알림, 독립적인 공개 감사, 위반 시 1,000달러의 벌금을 부과하는 SB 243(세웰 세처 자살 이후 탄생, 14세 챗봇과 정서적 관계 형성)으로 선구자적 입지를 다지고 있습니다. SB 420은 '고위험 자동 결정'에 대한 영향 평가와 함께 사람의 검토 항소권을 요구합니다. 실제 집행: Noom은 2022년에 인간 코치로 둔갑한 봇에 대해 5,600만 달러의 합의금을 지불할 것이라고 밝혔습니다. 전국적 추세: 앨라배마, 하와이, 일리노이, 메인, 매사추세츠에서는 AI 챗봇에 알리지 않는 것을 UDAP 위반으로 분류하고 있습니다. 3단계 위험 중요 시스템 접근 방식(의료/교통/에너지) 배포 전 인증, 소비자 대상 투명 공개, 범용 등록+보안 테스트. 연방 정부의 선점 없는 규제 패치워크: 여러 주에 걸쳐 있는 기업은 다양한 요건을 충족해야 합니다. 2026년 8월부터 EU: 명백한 경우를 제외하고 사용자에게 AI 상호 작용을 알리고, AI 생성 콘텐츠에 기계 판독 가능 라벨을 부착합니다.
2025년 11월 9일

생성되지 않은 것을 규제하는 것: 유럽은 기술적으로 무의미할 위험이 있나요?

유럽은 전 세계 인공지능 투자의 10분의 1에 불과하지만 글로벌 규칙을 주도하고 있다고 주장합니다. 이는 혁신을 촉진하지 않고 시장 지배력을 통해 전 지구적 규모의 규칙을 강요하는 '브뤼셀 효과'입니다. 인공지능법은 2027년까지 시차를 두고 시행되지만 다국적 기술 기업들은 훈련 데이터 공개를 피하기 위해 영업 비밀을 발동하고, 기술적으로 준수하지만 이해하기 어려운 요약을 작성하고, 자체 평가를 통해 시스템을 '고위험'에서 '최소 위험'으로 하향 조정하고, 덜 엄격한 규제를 가진 회원국을 선택해 포럼 쇼핑을 하는 등 창의적인 회피 전략으로 대응하고 있습니다. 역외 저작권의 역설: EU는 OpenAI가 유럽 밖에서 교육하는 경우에도 유럽 법률을 준수할 것을 요구하는데, 이는 국제법에서는 전례가 없는 원칙입니다. 동일한 AI 제품의 제한된 유럽 버전과 고급 글로벌 버전이라는 '이중 모델'이 등장합니다. 실제 위험: 유럽은 글로벌 혁신으로부터 고립된 '디지털 요새'가 되어 유럽 시민들은 열등한 기술에 접근하게 됩니다. 신용 평가 사건의 대법원은 이미 '영업 비밀' 항변을 기각했지만, '충분히 상세한 요약'이 정확히 무엇을 의미하는지 해석상의 불확실성은 여전히 엄청납니다. 아무도 모릅니다. 마지막 미해결 질문: EU는 미국 자본주의와 중국 국가 통제 사이에 윤리적 제3의 길을 만들고 있는가, 아니면 단순히 경쟁하지 않는 영역으로 관료주의를 수출하고 있는가? 현재로서는 AI 규제 분야의 세계 선두주자이지만, 개발은 미미한 수준입니다. 방대한 프로그램.
2025년 11월 9일

이상값: 데이터 과학과 성공 사례의 만남

이상값은 더 이상 '제거해야 할 오류'가 아니라 이해해야 할 가치 있는 정보라는 데이터 과학의 패러다임이 바뀌었습니다. 하나의 이상값은 선형 회귀 모델을 완전히 왜곡시킬 수 있지만(기울기를 2에서 10으로 변경), 이를 제거하면 데이터 집합에서 가장 중요한 신호를 잃을 수 있습니다. 머신 러닝은 정교한 도구를 도입합니다: 격리 포레스트는 무작위 의사 결정 트리를 구축하여 이상값을 격리하고, 로컬 이상값 팩터는 국소 밀도를 분석하며, 자동 인코더는 정상 데이터를 재구성하여 재현할 수 없는 것을 보고합니다. 글로벌 이상값(열대 지방의 기온 -10°C), 상황별 이상값(가난한 동네에서 1,000유로 지출), 집단 이상값(공격을 나타내는 동기화된 스파이크 트래픽 네트워크) 등이 있습니다. 폴 매카트니는 '많은 밴드가 함부르크에서 10,000시간 동안 성공하지 못했지만 이론은 틀림없다'고 주장하며 '10,000시간 법칙'에 대한 논쟁을 벌였습니다. 아시아의 수학적 성공은 유전이 아니라 문화입니다: 중국의 숫자 체계는 더 직관적이고, 벼 재배는 지속적인 개선이 필요하며, 서양의 농업 영토 확장과는 대조적입니다. 실제 적용 사례: 영국 은행은 실시간 이상 징후 탐지를 통해 18%의 잠재적 손실을 복구하고, 제조업에서는 육안 검사로는 놓칠 수 있는 미세한 결함을 감지하고, 의료 업계에서는 85% 이상의 이상 징후 감지 감도로 임상시험 데이터를 검증합니다. 마지막 교훈: 데이터 과학이 이상값을 제거하는 데서 이상값을 이해하는 데로 나아감에 따라, 우리는 비정상적인 데이터를 수정해야 할 이상값이 아니라 연구해야 할 가치 있는 궤적으로 보아야 합니다.