
Google ve OpenAI Chatbotları Uluslararası Matematik Olimpiyatı’nda Altın Madalya Kazandı!
Google’ın DeepMind ekibi ile OpenAI tarafından geliştirilen yapay zeka modelleri, başarılarına bir yenisini daha ekledi: bazı lise öğrencilerini matematikte yendiler. Her iki şirket de lise öğrencilerinin matematik yeteneklerini kanıtlamak için mücadele ettiği en zorlu yarışmalardan biri olan Uluslararası Matematik Olimpiyatı‘nda (IMO) altın madalya kazandıklarını iddia etti.
Bu olimpiyat, dünya genelindeki yetenekli öğrencileri karmaşık ve çok aşamalı matematik sorularını çözmeleri gereken bir sınava davet ediyor. Öğrenciler, toplamda altı soru çözmeleri gereken iki günlük bir süre boyunca 4.5 saatlik iki sınava giriyor. DeepMind ve OpenAI’nin modelleri toplamda altı sorunun beşini kusursuz bir şekilde çözerek 42 puan üzerinden toplamda 35 puan aldı ve bu puanla altın madalya kazandılar. Yarışmaya katılan 630 insandan 67’si de altın madalya ile onurlandırıldı.
Sonuçlarla doğrudan ilgisi olmayan ilginç bir detay daha var; sadece şirketlerin davranışlarıyla ilgili. DeepMind, IMO’ya katılmak için davet edilmiş ve organizasyonun öğrenci katılımcılar için açıkladığı resmi sonuçlarından sonra Pazartesi günü blog yazısında altın madalyasını duyurmuş. Ancak Implicator.ai’ye göre, OpenAI aslında IMO’ya katılmadı. Bunun yerine, başkalarının da çözmesi için kamuya açık hale getirilen sorunları kendi başına ele aldı ve altın seviyesinde bir performans gösterdiğini duyurdu. Ancak bu performans, IMO tarafından doğrulanamayacak, çünkü resmi olarak katılmadılar. Ayrıca şirket, puanını hafta sonu açıkladı, resmi puanların ilan edileceği Pazartesi’yi beklemeyerek IMO’nun öğrencilerin önünden dikkat çalmamaları yönündeki isteğine de uymadı.
Bu modeller sınavda, öğrenciler gibi süre sınırlaması ve dış kaynak kullanılmadan yer aldı. Her iki şirket de genel amaçlı yapay zeka kullandı; bu modeller önceki yıllarda daha iyi performans gösteren özel uzmanlaşmış modeller yerine kullanıldı.
Şirketlerin bu başarıya dair iddialarına dikkat çekici bir nokta daha var: Altın madalya kazanan (ya da kendi kendilerine altın olarak ilan ettikleri) modellerin hiçbiri kamuya açık değil. Kamuya açık modellerde ise işler pek de iyi gitmedi. Araştırmacılar Gemini 2.5 Pro, Grok-4 ve OpenAI o4 modelleriyle sınav sorularını denedi, ancak bu modeller 13 puandan fazla alamadı; ki bu, bronz madalya için gerekli 19 puanın oldukça altında.
Sonuçlar konusundaki şüpheler sürüyor ve kamuya açık modellerin bu kadar düşük performans sergilemesi, elimizdeki araçlar ile daha ince ayarlanmış bir model arasındaki farkı ortaya koyuyor. Bu da hangi akıllı modellerin geniş ölçekte kullanılıp kullanılamayacağı konusunda haklı sorular doğuruyor. Ancak burada iki önemli sonuç var: Laboratuvar modelleri akıl yürütme problemlerinde daha iyi hale geliyor ve OpenAI, gençlerin önünden şan çalmak için acele eden bir grup itici insan tarafından yönetiliyor.