Yeni Bir Performans Testi: En İyi Yapay Zekâ Modelleri Bile Başarısız Oluyor
Yapay zekâ alanında yeni bir performans testi geliştirildi. Bu test, yapay zekâ sektörünün kar amacı gütmeyen kuruluşlarından Center for AI Safety (CAIS) ve Scale AI isimli şirket tarafından hazırlandı ve en iyi yapay zekâ modellerini zorlamak için tasarlandı.
“Humanity’s Last Exam” adı verilen test, bir dizi zorlayıcı soruya odaklanıyor. Açıklamalara göre testte matematik, beşeri bilimler ve doğa bilimleri gibi çeşitli alanlarda yaklaşık 3.000 soru bulunmakta. Geliştiriciler, testin belirleyici olabilmesi için grafikler, diyagramlar ve diğer görsellerle desteklediler.
En iyi yapay zekâ modeli bile tüm soruları çözemiyor
Humanity’s Last Exam, oldukça zorlu bir performans testi olacağa benziyor. Zira yapılan incelemelere göre mevcut yapay zekâ modelleri, bu testte yüzde 100 başarı elde edemediler. Hatta 2021 yılında yayımlanan matematik odaklı testlerde, erken aşamadaki yapay zekâ çözümleri 100 üzerinden 10 puan bile alamamıştı.
Humanity’s Last Exam’in oluşturulmasında 50’den fazla ülkeden 1.000 civarı kişinin katkısı olmuştur. Projeye destek verenler arasında araştırmacılar ve akademisyenler yer aldı. Bu durum, söz konusu performans testinin gelecekte sektör için önemli bir ölçüt olabileceği izlenimini veriyor. Eğer testte sorulan bazı örnek sorulara göz atmak isterseniz, buradaki bağlantıyı kullanabilirsiniz.