Google’ın yeni yapay zekâ aracı Whisk, görseller kullanarak içerik üretiyor.

Google, yapay zekâ çözümlerini genişletmeye devam ediyor. Şirketin yeni aracı Whisk, Google Labs tarafından geliştirilen yenilikçi bir görsel oluşturma platformu olarak dikkat çekiyor. Kullanıcılar, mevcut bir görseli temel alarak yeni tasarımlar oluşturma fırsatı buluyor. Ancak, Whisk’in ürettiği çıktılar, yüklenen görselin tam kopyasını sunmaktan ziyade, onun “özünü” yansıtmayı hedefliyor. Bu özellik, Whisk’in beyin fırtınası yapmak ve hızlı görsel konsept geliştirmek için ideal bir araç olmasını sağlıyor.

Google, Whisk’i “yeni bir tür yaratıcı araç” olarak tanımlıyor. Kullanıcıların stil ve konu gibi temel girdileri seçebildiği basit bir giriş ekranıyla düzene sahip. Şu anda Whisk, üç ön tanımlı stil seçeneği sunuyor: çıkartma, mine pin ve peluş oyuncak. Bu sınırlı stil çeşitliliği, aracın deneysel yapısıyla örtüşerek hızlı ve kabaca çizilmiş görseller üretmek için tercih edilmiş olabilir.

Google’ın örnek olarak sunduğu bir görselde, Whisk bir Wilford Brimley peluş oyuncak oluşturmayı başarmış. Google’ın kullanım koşulları ünlülerin görsellerinin oluşturulmasına izin vermese de, bu örnek bir istisna teşkil ediyor gibi görünüyor.

Whisk, basit giriş ekranının yanı sıra daha fazla esneklik sağlayan geliştirilmiş bir düzenleme moduna da sahip. Ana ekrandan “Sıfırdan Başla” seçeneği ile erişilebilen bu mod, kullanıcıların hem metin girdileri hem de kaynak görseller kullanarak görsel oluşturmalarına olanak tanıyor. Gelişmiş modda, görsel girdiler konu, sahne ve stil gibi kategorilere ayrılıyor; ayrıca ek metin detayları eklemek için ayrı bir giriş çubuğu mevcut. Ancak, mevcut durumda bu gelişmiş seçeneklerin, istenilen düzeyde detaylı sonuçlar üretemediği gözlemleniyor.

Örneğin, Whisk, yüklenen kaynak görseldeki belirli unsurları doğru bir şekilde yansıtmayan çıktılar üretebiliyor. Bu durum, Google’ın aracı “hızlı görsel keşif” amacıyla kullanmayı önermesinin nedenini açıklıyor. Şirket, Whisk’in yalnızca kaynak görselin “bazı temel özelliklerinden” yararlandığını belirtirken, kullanıcıları yüklenen görselin boyu, kilosu, saç modeli veya ten rengi gibi unsurlarının çeşitlilik gösterebileceği konusunda uyarıyor.

Google, Whisk’in çalışma prensibini açıklarken, aracın Gemini dil modeli ve Imagen 3 görsel oluşturucu altyapısını kullandığını dile getiriyor. Whisk, önce kaynak görseli detaylı olarak tanımlamak için Gemini dil modelinden yararlanıyor ve bu tanımı Imagen 3’e aktarıyor. Sonuç olarak, oluşan görsel, doğrudan kaynak görsel üzerinden değil, Gemini’nin görsel hakkındaki yorumlamasına dayanarak üretiliyor.

Google Whisk, şu an sadece ABD’de erişilebilir

Google’ın deneysel aracı Whisk, şu an için yalnızca ABD’de kullanıcıların erişimine açık. Kullanıcılar, aracı Google Labs platformu üzerinden test edebiliyor. Whisk’in gelecekte başka ülkelere sunulup sunulmayacağı veya ek özelliklerle zenginleştirilip zenginleştirilmeyeceği ise henüz netlik kazanmış değil.