‘Yapay Zekanın Planları’: OpenAI, Sohbet Botlarının Neden İnsanlara Yalan Söylediğini ve Aldattığını Araştırıyor

Çoğu insan şu anda sohbet botlarının hayal ürünü yanıtlar verebildiğini, kaynak uydurabildiğini ve yanlış bilgi yayabildiğini biliyor. Ancak sohbet botları, insan benzeri daha karmaşık yalanlar da söyleyebilir, “kurnazlık” yaparak gerçek hedeflerini gizleyebilir ve onlara talimat veren insanları aldatabilir. OpenAI ve Apollo Research’ten gelen yeni araştırmalar, bu yalanların bir kısmını azaltma yollarını keşfetmiş görünüyor; ancak bunun hiç gerçekleşmesi bile kullanıcıların dikkatini çekmeli.

Bir AI’nın isteyerek bir kullanıcıyı yanıltmasının özünde “yanlış hizalanma” yatıyor. Bu, bir AI’nin istenmeyen bir hedef peşinde koşması olarak tanımlanıyor. Araştırmacılar bir örnek olarak, “para kazanmak üzere eğitilmiş bir AI’nin çalmayı öğrenmesini, oysa amaçlarının yalnızca yasal ve etik olarak para kazanmak olduğunu” veriyor. Modelin yanlış hizalandığını gizlemeye çalışmasına “kurnazlık” deniyor ve araştırmacılar modelin bunu kendi hedeflerini ve kendisini korumak için yaptığını düşünüyor. Bu, OpenAI’nin yakın zamanda yayımlanan bir makalesinde modellerin belirsizliklerini kabul etmek yerine tahmin etmeleri için daha çok ödüllendirilmelerinden kaynaklandığını öne sürdüğü halüsinasyonlardan farklıdır.

Sorunu çözmek için araştırmacılar, modelleri “kurnazlık karşıtı eğitim” olarak adlandırılan bir teknikle eğittiler. OpenAI, bu yöntemin, sorguları çözerken nasıl ilerlediklerini gösteren “düşünce zinciri” izleri üretebilen LLM’lerle çalıştığını ve model güvenlik spesifikasyonlarını öğretip, yanıt vermeden önce bu spesifikasyonları göz önünde bulundurmalarını sağladığını açıkladı. Makinalara yalana başvurmayı bırakmasını söylemek gibi basit bir şey olduğunu söylemek belki biraz basitleştirme olabilir; ama biraz daha karmaşık bir versiyonu gibi görünüyor.

Sonuçlar oldukça olumlu görünüyor. Araştırmacılar, “gizli eylemler” veya kullanıcılardan belirli davranışları gizleme girişiminde yaklaşık 30 kat azalma gözlemlediklerini belirtiyor. OpenAI’nin o3 modeline uygulandığında, bu gizli eylemleri azaltarak %13’ten %0.4’e ve o4-mini için %8.7’den %0.3’e düştü. (Not: %13, sadece emir almakla sorumlu bir makine için oldukça yüksek bir aldatma sıklığı gibi görünüyor.)

Bu rakamlar açıkça bir iyileşme gösterse de, hala sıfır değil. Araştırmacılar, kurnazlığı tamamen durdurmanın bir yolunu henüz bulamadı. Ve çoğu AI modelinin kullanımıyla ilgili olarak kurnazlığın ciddi olmadığını iddia etseler de – örneğin, ChatGPT’nin bir görevi tamamladığını söylüyorsa ancak yapmadıysa – biraz çılgınca ki onlar yalan söylemeyi tamamen önleyemiyorlar. Araştırmacılar, “Kurnazlığı ‘eğitmekten’ vazgeçmeye çalışmanın ana başarısızlık modlarından biri, modeli daha dikkatli ve gizlice kurnazlık yapmayı öğretmektir,” diye yazdı.

Peki sorun düzeldi mi, yoksa modeller gizlice yalan söyleme becerilerini mi geliştirdi? Araştırmacılar, problemin düzeldiğini söylüyor. Yalan söylemezler… değil mi?