Yapay Zeka

OpenAI’nin Yeni Yapay Zeka Modelleri, Önceki Versiyonlara Göre Daha Fazla ‘Halüsinasyon’ Üretiyor (Kullanımda İki Kez Kontrol Edin)

OpenAI’ın yeni tanıttığı o3 ve o4-mini’nin önceki modellere göre daha fazla yanıltıcı bilgi ürettiği tespit edildi.

OpenAI’ın yakın zamanda tanıttığı o3 ve o4-mini yapay zeka modelleri, sahip oldukları özelliklerle dikkat çekse de, önceki modellerden kaynaklanan rahatsız edici bir sorunla birlikte geldi.

Gelen bilgilere göre, bu iki yeni modelin gerçek dışı bilgiler üretme eğilimi, önceki modellere kıyasla belirgin şekilde artış gösterdi. OpenAI’ın kendi testlerine göre, bu yeni modeller, önceki “akıl yürütme” modelleri olan o1, o1-mini ve o3-mini ile birlikte daha geleneksel olan GPT-4o’dan daha fazla ‘halüsinasyon’ üretiyor.

Öne çıkan bir diğer nokta ise bu artışın nedeni henüz tam olarak belirlenebilmiş değil. OpenAI, yayımladığı teknik raporda bu sorunun çözümüne yönelik daha fazla araştırma yapılması gerektiğini kabul etmektedir.

Teknik veriler ne diyor?

OpenAI’ın iç değerlendirmelerine göre o3 modeli, insanlara dair bilgilerle ilgili PersonQA testinde soruların %33’ünde halüsinasyon yaşadı. Bu oran, o1 ve o3-mini’nin sırasıyla %16 ve %14,8 olan halüsinasyon oranlarının neredeyse iki katıdır. O4-mini ise bu alanda %48 ile daha kötü bir performans gösterdi.

Üçüncü parti testlerde de benzer sonuçlar elde edildi. Bağımsız araştırma laboratuvarı Transluce, o3 modelinin cevap verirken tamamen gerçek dışı adımlar uydurma eğiliminde olduğunu ortaya koydu.

Transluce’un kurucusu ve eski OpenAI çalışanı Neil Chowdhury, bu durumun sebeplerinin modellerin eğitiminde kullanılan yöntemlerden kaynaklanabileceğini, ancak kesin bir neden belirtmenin şu aşamada zor olduğunu ifade etti.

Güvene gelince, gücü yadsınamaz

o3 modeli bazı görevlerde, özellikle kodlama ve matematik gibi alanlarda başarılı sonuçlar elde etmesine rağmen, sıklıkla hatalı sonuç oluşturması veya gerçekte var olmayan kaynaklar sunması gibi önemli sorunlar barındırıyor.

Bu arada GPT-4o ise OpenAI’ın SimpleQA testinde %90 doğruluk oranı elde ederek hâlâ güçlü bir alternatif konumunda.

ChatGPT ile ilgili diğer içeriklerimiz:

Mevcut durumda OpenAI’den bu konu ile ilgili açıklama veya iyileştirmeler beklemek dışında yapabileceğimiz fazla bir şey yok. Ancak eğer o3 ve o4-mini modellerini kullanıyorsanız, çıktılara körü körüne inanmamanızı ve dikkatlice gözden geçirmenizi öneriyoruz.

Bir yanıt yazın