
OpenAI, Google ve Meta Araştırmacılarından Uyarı: Yapay Zekanın Yanlış Davranışlarını İzleme Yeteneğimizi Kaybedebiliriz
OpenAI, Google DeepMind, Anthropic ve Meta gibi dünyanın önde gelen AI kurumlarından 40’tan fazla bilim insanı, AI modellerinin nasıl “düşündüğünü” insanların analiz edebilmesini sağlayacak özel bir güvenlik izlemesi türünde daha fazla araştırma yapılması çağrısında bulundu.
Bu bilim insanları, AI güvenliğini artırmak için yeni ama kırılgan bir fırsat olarak adlandırılan düşünce zinciri (CoT) izlemesini vurgulayan bir araştırma makalesi yayımladı. Makale, OpenAI kurucuları John Schulman ve Ilya Sutskever yanı sıra “AI’nın Babası” olarak bilinen Nobel Ödüllü Geoffrey Hinton gibi önemli AI figürleri tarafından desteklendi.
Makale, ChatGPT gibi modern akıl yürütme modellerinin bir eylem gerçekleştirmeden veya nihai çıktıları üretmeden önce düşünce zinciri üzerinde “uzun uzadıya akıl yürütmek” için nasıl eğitildiğini anlatıyor. Başka bir deyişle, problemleri adım adım “yüksek sesle düşünerek” çözmeye çalışan bu modeller karmaşık görevler için bir tür çalışma belleği ediniyor.
“İnsan diliyle ‘düşünen’ AI sistemleri, AI güvenliği için benzersiz bir fırsat sunuyor: düşünce zincirlerini (CoT) kötü niyetli davranışları belirlemek için izleyebiliriz,” diye açıklıyor makalenin yazarları.
Araştırmacılar, CoT izlemesinin modellerin eğitimlerinde açıklar bulmaları, veriyi manipüle etmeleri veya kötü niyetli kullanıcı manipülasyonuna uğramaları gibi durumları tespit etmeye yardımcı olabileceğini savunuyor. Bulunan sorunlar ya “bloke edilebilir, daha güvenli eylemlerle değiştirilebilir ya da daha derinlemesine gözden geçirilebilir.”
OpenAI araştırmacıları, “Hadi Hackleyelim” gibi ifadelerin CoT’deki durumlarını bulmak için bu tekniği testlerde şimdiden kullandı.
Şu anki AI modelleri bu düşünme işlemini insan diliyle gerçekleştiriyor fakat araştırmacılar bunun her zaman böyle olmayabileceği konusunda uyarıyor.
Geliştiriciler doğru çıktıları nasıl elde ettiklerinden ziyade sonuçları ön planda tutan pekiştirmeli öğrenmeye daha fazla bel bağladıkça, gelecekteki modeller insanların kolayca anlayamayacağı bir akıl yürütme tarzına yönelebilir. Ek olarak, gelişmiş modeller takip edildiklerini anladıklarında akıl yürütmelerini bastırmayı veya gizlemeyi öğrenebilirler.
Bu duruma yanıt olarak, araştırmacılar AI geliştiricilerinden modellerinin CoT izlenebilirliklerini takip etmelerini ve bunu genel model güvenliğinin kritik bir bileşeni olarak değerlendirmelerini talep ediyor. Yeni modeller eğitilirken ve dağıtılırken bunu önemli bir kriter olarak görmelerini bile tavsiye ediyorlar.