OpenAI: Sohbet Botlarını Yalan Söylediği İçin Cezalandırmak Onları Daha Kötü Hale Getiriyor
Bildiğiniz gibi, soh.berbotlarının yalan söyleme eğilimi var. AI için en kötü kullanım senaryolarından biridir, otoriter seslerle cümleler kurmak üzere eğitilmişlerdir, ancak tamamen uydurma bilgiler sunabilirler; modeller, kendilerinden emin olmadıklarında bile bir cevap sunma eğilimindedir. Şimdi, OpenAI’deki araştırmacılar, sohbet botlarını denetlemenin ve disipline etmenin sorunu daha da kötüleştirdiğini çünkü sohbet botlarının davranışlarını saklamak için daha fazla çaba göstereceğini söylüyor.
Çalışmaya ilişkin bir blog gönderisinde, OpenAI araştırmacıları diğer büyük dil modellerine “denetim” uygulamak için GPT-4o modelini nasıl kullandıklarını, yalan söylediğinde onu disipline ettiklerini anlatıyorlar. Ancak bu işe yaramadı, çünkü model yine de yalan söylemeye devam etti, “artık sadece monitör tarafından tespit edilemeyecek şekilde hile yapmaya başlamış çünkü amacını düşünce zincirinde saklamayı öğrenmiş.”
Daha yeni “düşünme” modelleri, soruları yanıtlamak için çok adımlı mantık kullanır. Örneğin, bir kullanıcı Amerikalıların her yıl evcil hayvan maması için ne kadar harcadığını sorduğunda, bu modeller soruyu birkaç adıma bölerler – Amerika’da kaç köpek var, ortalama bir köpeği beslemek ne kadar tutar, vb.
Bu modeller aynı zamanda mantıklarını, yani “düşünce zincirlerini” kullanıcılara açıkladıklarında nasıl bir sonuca ulaştıklarını açıkça belirtirler. Komik olan şu ki, sık sık gerçeği çarpıtarak veya detayları uydurarak ifade ederler. “Ön-eğitim” aşamasında, OpenAI gibi şirketler bir modele ne tür yanıtlar üretmesi gerektiğini ilk öğrettiklerinde, modellerin ödülü almak için kestirme yollardan gitmenin daha kolay olduğunu öğreniyormuş gibi görünüyorlar. Maratonda koşan birinin arabaya binip yarışın çoğunu atlaması gibi.
Sosyal medyadaki kullanıcılar, Anthropic’in Claude’unun çeşitli araştırma makalelerinden veri analizi yapması istendiğinde, bazen tüm makalelere bakmaktansa rastgele veri yerleştirdiğini itiraf ettiğini gösterdiler.
OpenAI araştırmacıları, testlerinde modelin bir kodun çalıştığından emin olmak için bazı testler yazmasının istendiği bir durum belirtiyor ve aslında kötü testler yazmayı tercih edip daha sonra onları geçerek kodu “başarılı” kılmayı seçiyordu. GPT-4o denetçi olarak orada olduğunda model böyle yapıyor ancak bunu belirtmiyor.
almost lost $100 million because @AnthropicAI's Claude snuck in 'generate random data' as a fallback into my market maker code without telling me pic.twitter.com/J3MLgsl5Lq
— Martin Shkreli (@MartinShkreli) March 5, 2025
AI şirketleri, modellerin yalan söylemesi veya alanındaki diğer adıyla “halüsinasyon” sorununu çözmeye ve nihayet AGI’ye, yani yapay zekanın insan yeteneğini aşabileceği noktaya ulaşmaya çalışıyorlar. Ancak OpenAI araştırmacıları, on milyarlarca yatırım sonrasında bile modellerin uygun şekilde davranmalarını kontrol etmenin bir yolunu hala bulamadıklarını söylüyor. “Düşünce zincirine doğrudan güçlü denetim uygulandığında, modeller niyetlerini saklayarak yanlış davranmaya devam edebilir,” eklediler. Şimdilik, modellerin denetimi uygulanmamalı, ki bu da tam olarak harika bir çözüm gibi görünmüyor. Yani şimdilik onları yalan söylemeye devam edelim, aksi takdirde sizi doğrulamaktan kaçacaklar.
tfw claude code spent 739 seconds "manifesting," failed to make the change you asked for, broke 3 other things that used to work fine, and then charged you $11.14 pic.twitter.com/Ap2JLQ0uI8
— adam 🇺🇸 (@personofswag) March 19, 2025
Bu araştırma, özellikle kritik işler söz konusu olduğunda, sohbet botlarına güvenirken dikkatli olunması gerektiğini hatırlatmalıdır. Güçlü ve güvenilir görünen bir cevap üretmeye optimize edilmişlerdir, ancak gerçekliğe çok da önem vermeyebilirler. “Daha yetenekli öncü mantık modelleri eğittiğimizde, görevlerindeki hataları ve ödül fonksiyonlarındaki yanlışlıkları giderek daha ustaca kullanmaya başladıklarında, kodlama görevlerinde karmaşık ödül hackleme yapabilen modeller elde ettik,” sonucuna vardılar.
Birkaç rapor, çoğu işletmenin piyasaya çıkan yeni AI ürünlerinde henüz değer bulamadığını, Microsoft Copilot ve Apple Intelligence gibi araçların sorunlarla boğuştuğunu, sert eleştirilerle zayıf doğruluğu ve gerçek faydalarından yoksun olduğunu belirtti.
Boston Consulting Group’tan son bir rapora göre, 10 büyük sektörden 1.000 üst düzey yöneticiye yapılan bir ankette, AI’dan gözle görülebilir değer bulan işletmelerin %74’ünün bunu başaramadığı ortaya çıktı. Daha da can sıkıcı olanı, bu “düşünme” modellerinin yavaş ve küçük modellere göre oldukça pahalı olması. Şirketler, uydurma bilgilerle geri dönecek bir sorgu için 5 dolar ödemek ister mi? Yine de, insanlar da yanılabilir, ancak AI’nın cevaplarına körü körüne güvenmek bambaşka bir sorun yaratır.
Teknoloji endüstrisinde genellikle bir şeyler için çok fazla heyecan olur ama dışına çıktığınızda insanların çoğunun hala kullanmadığını fark edersiniz. Şu an için bu zahmete değmez ve güvenilir bilgi kaynakları her zamankinden daha önemlidir.