Yapay Zeka

Hazır Olun, Yapay Zeka Hileleri Geliyor!

Google’ın Gemini AI asistanından programınızı özetlemesini istemeden önce iki kez düşünün, çünkü bu, tüm akıllı cihazlarınızın kontrolünü kaybetmenize neden olabilir. Las Vegas’ta düzenlenen yıllık siber güvenlik konferansı Black Hat USA’da, bir araştırmacı grubu, Google Takvim daveti kadar basit bir şeyde gizli komutların bulunabileceğini ve bunun akıllı cihazları ele geçirmek için kullanılabileceğini gösterdi. Bu, prompt enjeksiyon saldırılarının artan bir saldırı vektörünün bir örneğidir.

“Sadece Davet Yeter!” başlıklı bir makalede detaylanan bu hack, araştırmacılarının prompt enjeksiyon kullanarak Gemini’yi manipüle etmenin 14 farklı yolunu ortaya koyuyor. Bu tür saldırılar, büyük dil modellerinin zararlı çıktılar üretmesine neden olan kötü niyetli ve genellikle gizli talimatlar kullanır.

Wired tarafından vurgulanan en çarpıcı örneklerden biri, internete bağlı cihazları ele geçirerek ışıkları kapatmak veya bir kazanı çalıştırmak gibi işlevlere müdahale eden bir saldırıdır—bu durum, ev sahibinin kontrolünü kaybetmesine neden olup, tehlike veya zor duruma sokabilir. Diğer saldırılar Gemini’nin bir Zoom çağrısı başlatmasını, e-postalardan ayrıntılar almasını ve telefonun web tarayıcısından bir dosya indirmesini sağladı.

Bu saldırıların çoğu, içerisine prompt enjeksiyonları yerleştirilmiş basit bir Google Takvim davetiyle başlar; aktive edildiğinde, AI modelinin yerleşik güvenlik protokollerini atlamasına neden olur. Ve bunlar, güvenlik araştırmacılarının LLM’lerin potansiyel zayıflıklarını göstermek için bir araya getirdikleri ilk örneklerden oldukça uzaktır. Diğerleri, Cursor gibi kod asistanlarını ele geçirmek için prompt enjeksiyonu kullanmıştır. Geçen ay, Amazon’un kodlama aracı bir hacker tarafından sızılarak çalıştığı makinelerden dosyaları silmesi talimatı verilmiştir.

AI modellerinin gizli komutlarla etkileşime girdiği giderek daha net hale geliyor. Son bir makale, diğer modelleri eğitmek için kullanılan bir AI modelinin tercihlerini ve özelliklerini veri içerisinden çıkarılmış olmasına rağmen aktardığını, makineler arasında doğrudan gözlemlenemeyen mesajlaşmanın olabileceğini ortaya koydu.

LLM’ler genel olarak birer kara kutu olmaya devam ediyor. Ancak bir kötü niyetli aktörseniz, kaputun altında ne olduğunu anlamanız gerekmiyor. Sadece makinenin belirli bir şekilde çalışmasını sağlayacak bir mesajı oraya nasıl sokacağınızı bilmeniz yeterli. Bu saldırıların durumunda, araştırmacılar Google’a bu zayıflığı bildirmiş ve şirket sorunu ele almıştır, Wired’e göre. Ancak AI, daha fazla platform ve halkın hayatındaki alanlara entegre edildikçe, bu tür zayıflıkların sunduğu riskler artıyor. Özellikle çok adımlı görevleri tamamlamak için uygulamalar ve web siteleriyle etkileşime geçebilen AI ajanları piyasaya sürülmeye başladıkça bu durum endişe verici hale geliyor. Ne yanlış gidebilir ki?

Bir yanıt yazın