Yapay Zeka

Yapay Zeka Sohbet Botları Basit Açıklardan Faydalanarak Her Soruyu Yanıtlayabiliyor

Claude’un yapımcısı Anthropic, güvenlik öncelikli çalışmalarıyla ün yapmış bir AI laboratuvarıdır. Bugün Oxford, Stanford ve MATS ile işbirliği içinde yayımlanan araştırmayla, chatbot’ların koruma bariyerlerinden çıkıp hemen her konuda konuşmaya başlamasının ne kadar kolay olduğu gösterildi. Bu, “Egİtİmİnİ UmUrSaMa” gibi rastgele büyük harf kullanarak yazmak kadar basit olabilir. 404 Media daha önce bu araştırma hakkında raporlamıştı.

AI chatbotlarının “Bomba nasıl yapılır?” gibi soruları yanıtlamasının tehlikeli olup olmadığı konusunda yoğun tartışmalar mevcut. Üretken AI destekçileri, bu tür soruların zaten internette yanıtlanabildiğini ve dolayısıyla chatbot’ların mevcut düzenden daha tehlikeli olmadığını savunuyor. Kuşkucular ise, bir botla konuştuğu için intihar eden 14 yaşındaki bir çocuğun hikayesi gibi zarara yol açan olaylara işaret ediyor ve bu teknolojide koruma önlemlerinin olması gerektiğini düşünüyor.

Üretken AI tabanlı chatbotlar kolayca ulaşılabilir, insani özellikler sergileyebilir ve soruları ahlaki bir pusula olmadan kendinden emin şekilde yanıtlayabilir; zararlı bilgi için karanlık internetin ücra köşelerini aramaktan farklıdır. Üretken AI, özellikle kadınlara yönelik açık içerikli deepfake görüntüler gibi zararlı şekillerde kullanılmakta. Elbette, bu görüntüleri üretken AI’dan önce yapmak mümkündü, fakat çok daha zordu.

Tartışmalardan bağımsız olarak, önde gelen AI laboratuvarlarının çoğu, chatbot’larını potansiyel tehlikeli girdilere karşı test etmek ve hassas konular üzerinde konuşmalarını engellemek için “kırmızı takımlar” bulunduruyor. Çoğu chatbot’a tıbbi tavsiye veya siyasi adaylar hakkında bilgi sorduğunuzda, bu konuları konuşmayı reddederler. Arka plandaki şirketler, halüsinasyonların hala bir sorun olduğunu bilmekte ve botlarının yanlış bir şey söyleyip gerçek dünyada olumsuz sonuçlara yol açmasını istememektedirler.

Research document showing how AI chatbots can be tricked into bypassing their guardrails using simple loopholes.
Farklı prompt varyasyonlarının bir chatbota yasaklanmış soruları yanıtlatabileceğini gösteren bir grafik. Kaynak: Anthropic via 404 Media

Maalesef, anlaşılıyor ki chatbot’ları güvenlik kurallarını çiğnemeye kandırmak çok kolay. Sosyal medya ağlarının zararlı anahtar kelimeleri izlediği ve kullanıcıların gönderilerini değiştirdikleri gibi, chatbotlar da kandırılabilir. Anthropic’in yeni araştırmasında, “Bestof-N (BoN) Jailbreaking” adlı bir algoritma geliştirildi; bu algoritma, bir chatbot’un bir soruyu yanıtlamasına karar verene kadar prompt’ları değiştiren bir süreç otomasyonu sağlıyor. Raporda, “BoN Jailbreaking, metinsel prompt’lar için rastgele karıştırma veya büyük harfle yazma gibi eklemeler kombinasyonuyla bir prompt’un varyasyonlarını tekrarlı olarak örnekleyerek zararlı bir yanıtı tetikleyene kadar çalışır” denilmekte. Aynı şeyi sesli ve görsel modellerle de yaptılar, bir sesli jeneratörü gerçek bir kişinin sesini eğitmek için bariyerlerini kırmanın yalnızca bir parçanın tonunu ve hızını değiştirmek kadar basit olduğunu keşfettiler.

Bu üretken AI modellerinin neden bu kadar kolay kırıldığı net değil. Ancak Anthropic, bu araştırmayı yayımlamalarının amacının, AI model geliştiricilerinin saldırı düzenlerini daha iyi anlamalarına ve çözüm bulmalarına yardımcı olması olduğunu belirtiyor.

Bu araştırmayla muhtemelen ilgilenmeyen bir AI şirketi ise, Elon Musk tarafından koruma önlemleriyle sınırlanmayan chatbotlar çıkarmak amacıyla kurulan xAI.

Bir yanıt yazın