많은 사람들이 LLM 을 사용하여 수학적 연산을 수행하기도 합니다. 이 접근 방식은 효과가 없습니다.
사실 문제는 간단합니다. 대규모 언어 모델(LLM)은 곱셈하는 방법을 잘 모릅니다. 제가 파이의 값을 외울 수 있는 것처럼 가끔 결과를 정확하게 맞출 수 있습니다. 하지만 이것이 제가 수학자라는 의미는 아니며, LLM이 실제로 수학을 할 줄 안다는 의미도 아닙니다.
실제 사례
예: 49858 *59949 = 298896167242 이 결과는 항상 동일하며 중간값이 없습니다. 옳거나 그르거나 둘 중 하나입니다.

엄청난 수학적 훈련을 받더라도 최고의 모델은 일부 연산만 제대로 풀 수 있습니다. 반면에 간단한 포켓 계산기는 항상 100% 정확한 결과를 얻습니다. 그리고 숫자가 커질수록 LLM의 성능은 더 나빠집니다.

이 문제를 해결할 수 있나요?
기본적인 문제는 이러한 모델이 이해가 아닌 유사성에 의해 학습한다는 것입니다. 학습한 문제와 유사한 문제에서는 가장 잘 작동하지만, 그 문제를 제대로 이해하지 못합니다.
더 자세히 알고 싶으신 분들은 이 "LLM의 작동 방식".
반면 계산기는 수학적 연산을 수행하도록 프로그래밍된 정밀한 알고리즘을 사용합니다.
방대한 양의 특정 학습 데이터가 있는 최상의 조건에서도 가장 기본적인 연산에서조차 신뢰성을 보장할 수 없기 때문에 수학적 계산을 LLM에 전적으로 의존해서는 안 되는 이유입니다. 하이브리드 접근 방식이 효과적일 수 있지만 LLM만으로는 충분하지 않습니다. 아마도 소위'딸기 문제'를 해결하기 위해 이 접근법을 따를 것입니다.
수학 연구에서 LLM의 응용 분야
교육적 맥락에서 LLM은 학생의 이해 수준에 맞게 설명을 조정할 수 있는 개인 맞춤형 튜터 역할을 할 수 있습니다. 예를 들어, 학생이 미분적분학 문제에 직면했을 때 LLM은 추론을 더 간단한 단계로 세분화하여 풀이 과정의 각 단계에 대한 자세한 설명을 제공할 수 있습니다. 이러한 접근 방식은 기본 개념에 대한 확실한 이해를 구축하는 데 도움이 됩니다.
특히 흥미로운 점은 관련성 있고 다양한 예제를 생성하는 LLM의 능력입니다. 학생이 극한의 개념을 이해하려고 할 때 LLM은 간단한 사례부터 시작하여 더 복잡한 상황으로 발전하는 다양한 수학적 시나리오를 제시하여 개념을 점진적으로 이해할 수 있게 해줍니다.
한 가지 유망한 응용 분야는 복잡한 수학적 개념을 보다 접근하기 쉬운 자연어로 번역하는 데 LLM을 사용하는 것입니다. 이를 통해 더 많은 청중에게 수학을 쉽게 전달할 수 있으며, 수학에 대한 전통적인 접근 장벽을 극복하는 데 도움이 될 수 있습니다.
LLM은 또한 다양한 난이도의 연습 문제를 생성하고 학생들이 제안한 솔루션에 대한 자세한 피드백을 제공하는 등 교육 자료 준비를 지원할 수 있습니다. 이를 통해 교사는 학생의 학습 경로를 더 잘 맞춤화할 수 있습니다.
진정한 이점
또한 더 일반적으로 고려해야 할 것은 '능력'이 가장 낮은 학생도 학습할 수 있도록 돕는 극도의 '인내심'입니다. 이 경우 감정이 없는 것이 도움이 됩니다. 그럼에도 불구하고 인공지능도 때때로 '인내심을 잃을' 때가 있습니다. 이 '재미있는' 예시.

2025 업데이트: 추론 모델과 하이브리드 접근 방식
2024-2025년에는 OpenAI o1과 deepseek R1과 같은 이른바 '추론 모델'이 등장하면서 상당한 발전이 이루어졌습니다. 이 모델들은 수학 벤치마크에서 인상적인 성과를 거두었습니다. o1은 국제 수학 올림피아드에서 문제의 83%를 정확하게 풀었고, GPT-4o의 경우 13%에 그쳤습니다. 하지만 주의할 점은 위에서 설명한 근본적인 문제를 해결하지 못했다는 점입니다.
"딸기"의 'r'을 세는 딸기 문제는 지속적인 한계를 완벽하게 보여줍니다. o1은 몇 초의 "추론" 끝에 올바르게 해결하지만 각 문장의 두 번째 글자가 "CODE"라는 단어를 구성하는 단락을 작성하도록 요청하면 실패합니다. 월 $200 버전인 o1-pro는 4분 동안 처리한 후 해결합니다. DeepSeek R1 및 기타 최신 모델은 여전히 기본 개수를 잘못 계산합니다. 2025년 2월, 미스트랄은 '딸기'에 'r'이 두 개만 있다고 계속 대답했습니다.
49858에 5994949를 곱해야 할 때 고급 모델은 더 이상 훈련 중에 본 계산과의 유사성을 기반으로 결과를 '추측'하지 않습니다. 대신 계산기를 호출하거나 자신의 한계가 무엇인지 아는 지능적인 사람이 할 수 있는 것처럼 Python 코드를 실행합니다.
이러한 '도구 사용'은 인공지능이 모든 것을 스스로 할 수 있어야 하는 것이 아니라 적절한 도구를 조율할 수 있어야 한다는 패러다임의 전환을 의미합니다. 추론 모델은 문제를 이해하는 언어적 능력, 해결책을 계획하는 단계별 추론, 정확한 실행을 위한 전문 도구(계산기, 파이썬 인터프리터, 데이터베이스)에 대한 위임이 결합된 것입니다.
교훈은? 2025년의 LLM이 수학에서 더 유용한 것은 곱셈을 '배워서'(아직 실제로 해본 적이 없기 때문이아니라) 곱셈을 실제로 할 수 있는 사람들에게 언제 곱셈을 위임해야 하는지 이해하기 시작했기 때문입니다. 기본적인 문제는 여전히 남아 있습니다. 알고리즘의 이해가 아닌 통계적 유사성에 의해 작동한다는 것입니다. 5유로 계산기는 여전히 정확한 계산을 위해 무한히 더 신뢰할 수 있습니다.