Yapay Zeka Saat Okumakta Zorlanıyor
Bugünlerde yapay zeka, fotogerçekçi görüntüler oluşturabiliyor, romanlar yazabiliyor, ödevlerinizi yapabiliyor ve hatta protein yapılarını tahmin edebiliyor. Ancak, yeni bir araştırma, çok temel bir konuda genellikle başarısız olduğunu ortaya koydu: Zamanı söylemek.
Edinburgh Üniversitesi’ndeki araştırmacılar, çoklu ortamı anlayabilen ve üretebilen çeşitli medya türlerini yorumlayabilen yedi bilinen büyük dil modelini test etti. Araştırmaları, Nisan ayında yayımlanacak ve şu anda yayın öncesi sunucusu arXiv’de barındırılıyor. Çalışma, bu dil modellerinin zamanla ilgili temel görevlerde zorluk çektiğini gösteriyor.
Araştırmacılar, çalışmada şöyle yazdı: “Görsel girdilerden zaman yorumlamak ve bu konuda mantık yürütmek, birçok gerçek dünya uygulaması için kritik öneme sahiptir—etkinlik planlamasından otonom sistemlere kadar pek çok alanda. Multimodal büyük dil modellerinde (MLLM’ler) ilerlemelere rağmen, çalışmalar genellikle nesne algılama, resim altyazısı üretimi veya sahne anlayışına odaklanmıştır. Oysa zamansal çıkarım daha az araştırılmış bir alandır.”
Takım, OpenAI’nın GPT-4o ve GPT-o1’ini; Google DeepMind’ın Gemini 2.0’ını; Anthropic’in Claude 3.5 Sonnet’ini; Meta’nın Llama 3.2-11B-Vision-Instruct’ını; Alibaba’nın Qwen2-VL7B-Instruct’ını ve ModelBest’in MiniCPM-V-2.6’sını test etti. Modelleri, Roma rakamlarına sahip analog saatler ve farklı kadran renkleri, hatta saniye kolu eksik olan bazı saatler ile 10 yıllık takvim görüntüleri ile beslediler.
Saat görüntüleri için, araştırmacılar LLM’lere şu soruyu sordu: Verilen görselde gösterilen saat kaç? Takvim görüntüleri için basit sorular, örneğin, Yılbaşı haftanın hangi gününe denk geliyor? ve daha zor sorular, Yılın 153. günü hangi tarih? gibi sorular yönelttiler.
Araştırmacılar şu açıklamayı yaptı: “Analog saati okuma ve takvim anlama, karmaşık bilişsel adımları içerir: ince ayrıntılı görsel tanıma gerektirir (örneğin, saat akrep konumu, gün hücre düzeni) ve kolay olmayan sayısal çıkarımlar gerektirir (örneğin, gün farklarının hesaplanması).”
Genel olarak, yapay zeka sistemleri iyi bir performans sergilemedi. Analog saatlerdeki zamanı doğru okumada başarı oranları %25’in altında kaldı. Roma rakamlarına ve stilize akreplere sahip saatlerde olduğu kadar saniye kolu olmayan saatlerde de zorlandılar ki bu, sorunların akrepleri tespit etme ve saat yüzeyindeki açıları yorumlamaktan kaynaklanabileceğini göstermekte.
Google’ın Gemini-2.0’ı, takımın saat görevinde en yüksek puanı aldı; GPT-o1 ise takvim görevinde %80 oranında doğru sonuç verdi ve rakiplerinden çok daha iyi sonuçlar elde etti. Ancak, takvim görevinde en başarılı MLLM bile %20 oranında hata yaptı.
“Çoğu insan küçük yaşlardan itibaren saati söylemeyi ve takvimleri kullanmayı öğrenir. Elde ettiğimiz bulgular, yapay zekanın insanların çok basit olan bu becerileri yerine getirmekte önemli bir boşluğa sahip olduğunu gösteriyor,” dedi araştırmanın ortak yazarı ve Edinburgh Üniversitesi Bilişim Fakültesi’nde doktora öğrencisi olan Rohit Saxena, üniversitenin açıklamasında. “Bu eksiklikler, AI sistemlerinin zaman duyarlı, gerçek dünya uygulamalarına, planlama, otomasyon ve yardımcı teknolojiler gibi alanlara başarılı bir şekilde entegre edilmesi için ele alınmalıdır.”
Yani yapay zeka ödevinizi yapabilir ama verdiğiniz teslim tarihlerine sadık kalmasını beklemeyin.