Yapay Zeka

OpenAI, o2’yi Atlayarak o3 ‘Muhakeme’ Modelini Piyasaya Sürdü: Engelleri Aşan Zeka!

OpenAI’nin “12 Days of Shipmas” etkinliğinin son günü, şirketin şimdiye kadarki en gelişmiş modeli olarak nitelendirdiği, yeni zincir-zihinsel “akıl yürütme” modeli o3’ün tanıtımıyla geldi. Model henüz genel kullanıma sunulmuş değil, ancak güvenlik araştırmacıları bugünden itibaren bir önizleme için kayıt olabilir.

OpenAI ve diğerleri, akıl yürütme modellerinin, sohbet botlarının sık sık yanlış yanıtlar üretmesi gibi zorlu bir sorunu aşmada büyük ilerleme kaydedeceğine inanıyor. Sohbet botları temelde insanlar gibi “düşünemez” ve insan düşünce sürecinin en iyi taklidini oluşturmak için farklı teknikler gereklidir.

Bir soru sorulduğunda, akıl yürütme modelleri duraklar ve doğru yanıtı üretmeye yardımcı olabilecek ilgili ipuçlarını düşünür. Örneğin, o3 modeline “Habaneros, Pasifik Kuzeybatı’da yetişebilir mi?” diye sorarsanız, model, “Habaneros genellikle nerede yetişir?”, “Habaneros yetiştirmek için ideal koşullar nelerdir?” ve “Pasifik Kuzeybatı’nın iklimi nasıldır?” gibi bir dizi soruyu araştıracaktır. Sohbet botlarını kullanan herkes bilir ki, doğru sonuca ulaşmak için bazen ek yönlendirmeler yapmanız gerekir. Akıl yürütme modelleri bu ek çalışmayı sizin için yapmayı amaçlıyor.

o3, OpenAI’nin ilk zincir-zihinsel akıl yürütme modeli olan o1’in halefidir. Şirket, “o2” adlandırmasını İngiliz telekomünikasyon şirketine “saygıdan” dolayı atladıklarını söyledi, ancak bu kararın ürünü daha gelişmiş göstermede zarar vermediğini de kabul ediyorlar. Yeni modelin akıl yürütme süresini ayarlayabilme özelliği var. Kullanıcılar düşük, orta veya yüksek akıl yürütme süresi seçebilir; daha fazla hesaplama gücü ile, o3’ün performansı artar. OpenAI, yeni modelin potansiyel olarak zararlı yanıtlar üretmesini önlemek için model üzerinde ‘kırmızı takım’ çalışmaları yapacaklarını belirtiyor (çünkü tekrar, model bir insan değil ve doğru ile yanlışı bilmiyor).

Akıl yürütme, üretken yapay zeka alanındaki günün popüler kelimesi ve sektördeki uzmanlar, büyük dil modellerinin performansını artırmak için bir sonraki gerekli sıçrama olduğuna inanıyor. Daha fazla hesaplama gücü sonunda eşdeğer bir performans artışı sunmuyor, bu yüzden yeni tekniklere ihtiyaç duyuluyor. Google DeepMind kısa süre önce, web çapında birçok kaynağı analiz edip bulgularına ulaşmak için 5-10 dakika süren bir rapor üretebilen Gemini Deep Research adlı kendi akıl yürütme modelini tanıttı.

OpenAI, o3 modeline güveniyor ve etkileyici ölçütler sunuyor — kodlama yeteneğini ölçen bir Codeforcing testinde o3, 2727 puan aldı. Karşılaştırma yapacak olursak, 2400 puan bir mühendisi programcıların %99 dilimine yerleştirir. 2024 Amerikan Davet Matematik Sınavı’nda o3, sadece bir soruyu kaçırarak %96,7 puan aldı. Gerçek dünya testlerinde modelin nasıl performans göstereceğini göreceğiz; OpenAI’nin kısa süre önce piyasaya sürdüğü Sora hala iyileştirme gerektiriyor. Ancak, iyimserler doğruluk sorunlarının çözüldüğüne inanıyor. Yine de, doğruluğun önemli olduğu işler için yapay zeka modellerine güvenle yaklaşırken dikkatli olun.

OpenAI ve Perplexity gibi yapay zeka modeli şirketleri, dünyanın bilgisini toplayıp kullanıcıların her şeyi anlamasına yardımcı olmak konusunda adeta yeni bir Google olmak için yarışıyor. Gerçek zamanlı web sonuçlarına erişimle Google’ı doğrudan taklit etmeye yönelik arama ürünlerine bile sahipler.

Ancak bu oyuncuların her biri, her geçen gün birbirini geride bırakıyor gibi görünüyor. Bu durum, 90’ların sonlarında, seçilebilecek birçok arama motoru varken—Google, Yahoo, AltaVista, Ask Jeeves gibi—ve internetin verilerini sadece farklı bir kullanıcı deneyimi ile sunarlarken hissettiğimiz duygulara benziyor. Birçoğu, diğerlerinden üstün olan birinin ortaya çıkmasıyla kayboldu: Google.

Şu anda yüz milyonlarca aktif kullanıcı ve Apple ile ortaklık kuran OpenAI açıkça önde görünüyor, ancak Google, Gemini modellerindeki ilerlemeleri için son zamanlarda oldukça beğeni topladı. The Verge, şirketin yakın zamanda Gemini’yi arama arayüzüne daha derinlemesine entegre edeceğini belirtti.

Bir yanıt yazın