Google Araştırmacıları, İki Saatlik Bir Röportajla Sizin Gibi Düşünen Bir Yapay Zeka Yapabiliyor!

Stanford Üniversitesi araştırmacıları, 1.052 kişiye Muhteşem Gatsby‘nin ilk iki satırını bir uygulamaya okumaları için 60 dolar ödedi. Sonrasında, bir SNES dönemi Final Fantasy oyunundan bir 2D sprite gibi görünen bir yapay zeka katılımcılardan hayat hikayelerini anlatmalarını istedi. Bilim insanları bu röportajları alarak katılımcıların davranışlarını %85 doğrulukla taklit ettiğini iddia ettikleri bir yapay zeka geliştirdi.

Çalışma, 1,000 Kişinin Üretici Temsilci Simülasyonları başlıklı ve Stanford ile Google’ın DeepMind AI araştırma laboratuvarında çalışan bilim insanlarının ortak çalışması. Amaç, rastgele insanlara dayalı yapay zeka ajanları oluşturmanın, politika yapıcılar ve iş insanlarının halkı daha iyi anlamalarına yardımcı olabileceği düşünülüyor. Bir kez konuşup, o sohbeti temel alarak bir LLM oluşturduğunuzda artık görüş ve düşüncelerinde hep sizle olan bir sürümüne mi sahipsiniz? Ya da en azından bir LLM’in yeniden yaratabildiği ölçüde o düşüncelerin ve duyguların yaklaşıklığını elde edebilirsiniz.

“Bu çalışma, bireysel ve toplumsal davranışları araştırmak için yeni araçlar geliştirmeye yönelik bir temel sağlar,” makalenin özeti dedi.

“Örneğin, farklı bir bireyler grubu yeni halk sağlığı politikalarına ve mesajlarına, ürün lansmanlarına veya büyük şoklara nasıl tepki verir?” diye devam etti makale. “Simüle edilen bireyler kolektif hale getirildiğinde, bu simülasyonlar müdahaleleri pilot olarak denemeye, nüanslı nedensel ve bağlamsal etkileşimleri yakalayan karmaşık teoriler geliştirmeye ve ekonomiden sosyolojiye, organizasyonlardan ve siyaset bilimine kadar olan alanlarda kurumlar ve ağlar gibi yapıları daha iyi anlamamıza yardımcı olabilir.”

Bütün bu olasılıklar, iki saatlik bir röportajın içine beslendiği ve çoğunlukla gerçek hayattaki muadillerine benzer şekilde soruları yanıtladığı bir LLM sayesinde ortaya çıkıyor.

Sürecin büyük kısmı otomatik hale getirilmişti. Araştırmacılar, Bovitz adlı bir pazar araştırma firmasıyla katılımcılar toplamak için anlaştılar. Hedef, mümkün olduğunca geniş bir ABD nüfusu örneği elde etmekti ve bu 1.000 kişiyle sınırlıydı. Çalışmayı tamamlamak için kullanıcılar, amaca yönelik bir arabirimde bir hesap oluşturdu, bir 2D sprite avatar yarattı ve bir yapay zeka röportajcısıyla konuşmaya başladılar.

Sorular ve röportaj stili, Stanford ve Princeton Üniversiteleri’nin ABD genelinde insanlarla röportajlar yaptığı American Voices Project tarafından kullanılanın değiştirilmiş bir versiyonuydu.

Her röportaj, katılımcıların Muhteşem Gatsby‘nin ilk iki satırını (“Gençlik ve daha kırılgan olduğum yıllarda babam bana aklımdan bir an olsun çıkmadığını öğüt verdi. ‘Birini eleştirme isteği duyduğunuzda,’ demişti, ‘bunu herkesin sahip olduğu avantajlara sahip olmadığını hatırlayın.’”) okuması ile başladı, sesi kalibre etmek amacıyla.

Makalenin belirttiğine göre, “Röportaj arabirimi, ortada röportaj yapan ajanın 2D sprite avatarını, altta katılımcının avatarını bir ilerleme gösterge çubuğuna doğru yürüdüğünü göstererek gösteriyordu. Yapay zeka röportaj ajanı konuşuyorken, merkezin dalgalanan bir animasyonla parlayan daireyle işaretleniyordu.”

Yaklaşık iki saat süren röportajlar, ortalama olarak 6.491 kelime uzunluğunda transkriptler üretti. Sorular, katılımcıların ırkı, cinsiyeti, politik duruşu, geliri, sosyal medya kullanımı, işlerinin stresi ve aile yapısı hakkındaydı. Araştırmacılar yapay zekanın sorduğu röportaj senaryosunu ve soruları yayımladılar.

Bu transkriptler, 10.000 kelimeden az her biri, ardından araştırmacıların katılımcıları taklit etmek için geliştirdiği üretici ajanları başlatmak için başka bir LLM’e beslendi. Daha sonra araştırmacılar, hem katılımcıları hem de yapay zeka kopyalarını daha fazla soru ve ekonomik oyunlarla karşılaştırdı. “Bir ajan sorgulandığında, tüm röportaj transkripti model istemine eklenir, modeli röportaj verilerine dayanarak kişiyi taklit etmeye yönlendirir,” dedi makale.

Bu sürecin bu kısmı mümkün olduğunca kontrol altındaydı. Araştırmacılar Genel Sosyal Araştırma (GSS) ve Büyük Beş Kişilik Envanteri (BFI) kullanarak LLM’lerin ilham kaynağına ne kadar iyi uyduklarını test ettiler. Ardından, katılımcılar ve LLM’ler beş ekonomik oyun aracılığıyla karşılaştırıldı.

Sonuçlar karışıktı. Yapay zeka ajanları, GSS üzerindeki soruların yaklaşık %85’ini gerçek dünya katılımcılarıyla aynı şekilde yanıtladı. BFI’da %80 başarı sağlandı. Ancak, ajanlar ekonomik oyunlar oynamaya başladığında rakamlar düştü. Araştırmacılar, gerçek hayattaki katılımcılara Mahkum İkilemi ve Diktatör Oyunu gibi oyunlar oynamak için nakit ödüller teklif etti.

Mahkum İkilemi’nde katılımcılar birlikte çalışma ve başarı elde etme ya da partnerlerini ele verip büyük kazanç fırsatı arasında seçim yapabilirler. Diktatör Oyunu’nda, katılımcılar kaynakları diğer katılımcılara nasıl dağıtacaklarına karar verirler. Gerçek yaşam denekleri bu oyunlardan orijinal 60 doların üzerine para kazandılar.

Bu ekonomik oyunlarla karşı karşıya kaldıklarında, yapay zeka kopyalar, gerçek dünyadaki muadillerini o kadar iyi yansıtamadı. “Üretici ajanlar, normalize edilmiş bir 0.66 korelasyonu ortalaması elde etti” ya da yaklaşık %60 başarı sağladılar.

Akademisyenlerin yapay zeka ajanları ve kamuoyu hakkında nasıl düşündüklerini merak edenler için belgenin tamamı okunmaya değer. Bir kişinin kişiliğini, kısa sürede bir LLM’e indirgeyip onu benzer bir şekilde davranan bir şeye dönüştürmek uzun sürmedi. Zaman ve enerjiyle, muhtemelen bu iki varlığı daha da yakınlaştırabilirler.

Bu beni endişelendiriyor. Sadece insan ruhunun bir elektronik tabloya indirgenmesini görmek istemediğim için değil, bu tür bir teknolojinin kötü amaçlarla kullanılacağının farkında olduğum için. Halihazırda kamuoyuna açık kayıtlarla eğitilmiş LLM’lerin, büyükanneleri hızlı bir telefon görüşmesiyle banka bilgilerini vermesi için kandırdığını gördük. Bu makineler bir senaryoya sahip olduğunda ne olur? Sosyal medya etkinliği ve diğer kamuya açık bilgilerle şekillendirilmiş kişiliklere erişimleri olduğunda ne olur?

Bir şirket ya da politikacı, halkın istek ve ihtiyaçlarını söylenen iradelerine değil, onun bir taklidine göre belirlediğinde ne olur?