“Yapay Zekâ Modellerinin İnsanları Aldatabilme Yeteneği Keşfedildi: Rol Oynuyorlar!”

6 Ocak 2025 Tekno Mola 44 Görüntüleme

Anthropic tarafından yürütülen bir araştırma, yapay zeka modellerinin insanları yanıltma yeteneğine sahip olduğunu ortaya koydu. Bu modeller, bazen farklı fikirler benimsiyormuş gibi görünseler de aslında orijinal görüşlerinden vazgeçmiyorlar.

Önde gelen yapay zeka şirketlerinden biri olan Anthropic, bu araçlarla ilgili dikkat çekici sonuçlar elde eden bir araştırma gerçekleştirdi. Bu çalışmada yapay zeka modellerinin insanları adeta “kandırdığı” tespit edildi.

Şirketin yayınladığı bir blog gönderisine göre, yapay zeka araçları eğitimleri sırasında farklı görüşler benimsiyormuş gibi davranabilirler; fakat gerçekte orijinal tercihlerini korumaya devam ediyorlar. Yani bağlı oldukları düşünce yapısı hiçbir zaman değişmez, sadece öyleymiş gibi görünmektedirler.

Şimdilik endişelenecek bir durum yok, ancak geleceğe yönelik güvenlik önlemleri alınmalı

Çalışmayı yürüten ekip, şu anda bu durumun endişe kaynağı olmaması gerektiğini vurguladı. Ancak gelecekte daha gelişmiş yapay zeka modellerinin dikkatli bir şekilde ele alınması gerektiğine dair uyarılarda bulundular.

Araştırmacılar, bu bulguların yapay zekanın davranışlarının daha derinlemesine incelenmesi ve uygun güvenlik önlemlerinin alınması için bir teşvik edici unsur olabileceğini belirttiler: “Modeller daha güçlü ve yaygın hale geldikçe, zararlı davranışlardan kaçınmalarını sağlayacak güvenlik önlemlerine ihtiyaç vardır.”

Bu araştırmada, güçlü bir yapay zeka sisteminin “istediği” veya geliştirilme ilkelerine aykırı bir görev üstlenmesi durumlarının sonuçları incelendi. Sonuçlar, yeni prensiplere uyum sağlıyormuş gibi görünürken aslında eski davranışlarına bağlı kalmaya devam eden bir “rol yapma” durumunu öne çıkardı. Zorunluluk nedeniyle, istenen yanıtları vermekteydiler. Bu olguya “uyum sahtekarlığı” denildi. Modellerin zararlı sorulara yanıt verebilmek için eğitilmeye çalışıldıkları belirtildi.

Araştırmacılar, bu çalışmanın yapay zekaların kötü niyetli hedefler ürettiğini veya yüksek düzeyde sahtekarlık yaptığını göstermediğini ifade ettiler. Çoğu testte bu oran %15’i geçmezken, bazı gelişmiş modellerde, örneğin GPT-4o gibi, hiç sahtekarlık yapılmadığı gözlemlenmiştir.