AI, 고급 수학 문제 해결 능력을 키우다

소프트웨어 엔지니어인 Neel Somani가 OpenAI의 GPT 5.2 모델을 사용해 수학적 능력을 실험한 결과, AI가 교과서 문제를 넘어서 높은 수준의 수학 문제를 해결할 수 있다는 흥미로운 사실을 발견했다. 그는 헝가리 수학자 Paul Erdős의 1,000개 이상의 가설로 구성된 Erdős 문제를 연구했으며, 이들은 온라인에서 해당 이름의 웹사이트에 저장되어 있다. 문제의 복잡성은 초급 문제에서 현대 수학의 가장 높은 경계에 해당하는 문제까지 다양하다. Erdős는 20세기 가장 뛰어난 수학자 중 한 명으로, 조합론, 그래프 이론, 수론, 근사, 집합론, 확률론 등 다양한 분야에서 수백 개의 연구 결과를 남겼다. 그의 기여를 기리기 위해 헝가리는 2015년부터 “Paul Erdős 국제 수학 도전”이라는 대회를 개최하고 있다.

Somani는 고급 복잡도의 Erdős 문제를 ChatGPT에 입력하고 AI에게 해결하도록 했다. 15분 만에 완전한 해답이 제시되었으며, 독립 평가 도구인 Harmonic을 통해 모든 단계와 결과가 정확하다는 것이 확인되었다. Somani에 따르면, ChatGPT의 추론 과정은 Legendre 공식, Bertrand의 공리, 스타 오브 다비드 정리(Star of David Theorem)와 같은 수학적 공리를 나열하면서 더욱 인상적이었다. 2013년 하버드 대학교의 수학자 Noam Elkies가 제시한 해답에 비해 ChatGPT의 해답이 더 완전하다는 평가를 받았다.

기계 지능에 회의적인 사람들에게는 이는 놀라운 결과로 여겨진다. 이전에는 AI가 수학 문제, 심지어 간단한 문제조차도 해결하는 데 어려움을 겪고 있다고 평가되었다. 저장된 데이터에 기초해 답변을 예측하기 때문에, AI는 수학적 능력이 부족하다는 것이 일반적이다. 중국 항저우의 저장대학교 컴퓨터 과학 연구원인 Wu Yiquan은 “일부 LLM이 수학 테스트에서 잘 작동하는 이유는 ‘데이터 감염’ 때문일 수 있으며, 이는 알고리즘이 유사한 질문의 답변을 기억하기 때문”이라고 설명했다. “AI 세계는 암호화되어 있어 수, 단어, 구두점, 공백 모두 동일하게 처리된다. 프롬프트의 어떤 변화라도 결과에 중대한 영향을 미칠 수 있다.”

2023년, John A. Paulson 공과대학의 수학 교수 Michael Brenner는 비선형 편미분 방정식에 AI를 적용하는 대학원 수업을 진행했다. 그는 “괜찮지만, 그리 뛰어나지는 않다”고 하버드 가제트에 말했다. “AI는 수업의 첫 3주 동안 문제의 30%에서 50%만 해결할 수 있었다.”

AI 교육 프로젝트의 공동 창립자이자 CEO인 Alex Kotran은 2024년 말에 “AI는 전반적으로 수학적으로 능숙하지 않다”고 말했다. “언어 모델은 다음 단어를 예측할 뿐이며, 결과는 일관성이 없다. 수학을 수행하기에는 아직 충분히 성숙하지 않았다.” 그러나 1년이 지난 후 AI 모델들은 빠르게 발전하고 있으며, 수학 문제 해결 능력이 버전마다 향상되고 있다. 예를 들어, 현재 GPT 5.2는 이전 버전보다 더 나은 추론 능력을 보여준다. Erdős 웹사이트의 문제들 중 2025년 12월 25일부터 현재까지 15개의 문제가 “미해결” 상태에서 “해결됨”으로 전환되었으며, 그 중 11개는 AI 모델의 참여가 있었다.

수학자 Terence Tao는 Mastodon에서 “많은 Erdős 문제들이 수학계에 어려움을 주었지만, AI의 도움으로 해결되었다”고 말했다. 그는 AI 시스템의 확장성이 “체계적으로 적용되기에 더 적합하다”는 가설을 제시하여 복잡한 문제를 단순화하는 데 도움이 된다고 주장했다.

작년에는 몇몇 AI가 올림픽 수학 메달을 획득할 수 있는 능력을 보여주었다. DeepMind의 Deep Think와 OpenAI의 ChatGPT는 2025년 국제 수학 올림픽(IMO) 문제 중 6개 중 5개를 해결했다. 2024년, 구글의 AlphaGeometry 2는 지난 25년간의 IMO 기하학 문제 50개 중 42개를 맞추었고, AlphaProof는 2024년 IMO의 6개 문제 중 4개에서 만점을 얻어 42점 중 28점을 기록하여 은메달 수상자와 동점이었다.

하지만 AI의 수학 능력이 향상됨에 따라, LLM이 인간의 지식 경계를 확장하는 데 어떤 역할을 할 수 있을지에 대한 새로운 질문이 제기된다. 미국 수학 교사 협회(NCTM)의 회장인 Latrenda Knighten은 AI가 인간의 수학 문제 해결을 도와주고 있지만, 여전히 스스로 문제를 해결할 수 있는 판단 능력에 의존해야 한다고 평가했다.

“아이들은 문제를 해결하면서 수학을 배우며, 논리적 사고와 비판적 사고 기술을 사용하고 서로 협력하여 무엇을 하고 있는지 논의할 기회를 가져야 한다”고 Knighten은 Education Week에 말했다. “AI에 의존한다면, 그런 기술들은 발휘되지 않을 것이다.”

과거에 많은 전문가들은 사용자에게 AI 모델을 완전히 신뢰하지 말라고 경고한 바 있다. 사실, AI는 여러 차례 잘못된 답변을 하거나 “환각” 상태에 빠져서 설득력 있게 들리는 답변을 만들어내는 경우가 있었다.