Nvidia’nın Yeni Yapay Zeka Ses Üreticisi: Daha Önce Hiç Duyulmamış Sesler Vaad Ediyor!
Nvidia, en tuhaf ses heveslerinizi gerçekleştirmek için bir adım atıyor. Şirketin en son AI projesi, AI NPC’leri ve oyun içi sohbet robotuyla birlikte, metni sese dönüştüren bir AI olan Fugatto’yu tanıttı. Diğer modeller gibi, Nvidia’nın AI ses sistemi basit bir açıklamadan müzik parçası yaratabiliyor, ancak bu program aynı zamanda “saksafon uluması” gibi “daha önce hiç duyulmamış sesler” de oluşturabiliyor.
Bir blog yazısında, Nvidia, “ses için İsviçre çakısı” olarak adlandırdığı AI modelinin mevcut sesleri değiştirebileceğini veya tamamen yeni ses alanları yaratabileceğini iddia etti. Fugatto, “Temel Üretici Ses Dönüştürücü Opus 1” gibi son derece uzun bir ifadenin kısaltmasıdır. Sesleri, müziği ve arka plan gürültüsünü işlerken bunları tek bir ses dosyası haline getirebiliyor. Aynı zamanda mevcut ses kaynaklarını da değiştirebilir.
AI’dan kaynaklanan bir şeye “daha önce duyulmamış bir ses” demek belki komik olabilir. Her yapay ses, AI algoritmasının eğitim verileri üzerindeki mevcut kaynakları kullanarak beklentiyi en iyi şekilde karşılamasıdır. Nvidia, modelinin eşsiz olduğunu, çünkü eğitim sırasında ayrı olan talimatları birleştirip “daha önce görmediği ses manzaraları” yaratabildiğini söylüyor. Bu, iki ayrı ses efektini üst üste koyarak yeni bir şey yaratabileceği anlamına geliyor. Bir videoda, Nvidia tren sesini adım adım orkestra müziğine dönüştürdüğünü gösterdi. Aynı zamanda bir yağmur fırtınasının sesi uzaklaşırken de oluşturabiliyor.
Bunlar daha önce görmediğimiz yetenekler. “Elektronik müzikte ritimle havlayan köpekler” demosunun ötesinde, Nvidia bu aracın “iyi yönlendirilmiş kontrol” sunduğunu söyledi. Nvidia, videonun anlatıcısının Nvidia CEO’su Jensen Huang’ın AI versiyonu olduğunu iddia ediyor. Ancak Fugatto, bariz şekilde sahte sesi ürettiyse, AI modelinin daha fazla geliştirmeye ihtiyacı olduğu açık.
Pek çok AI ses aracı halihazırda metin komutlarını ses parçalarına dönüştürüyor. Adobe, kendi Project MusicGenAI Control aracını karmaşık müzisyenlere tanıtmış durumda. Meta gibi büyük teknoloji şirketleri, ses modellerini film endüstrisine tanıtmıştı. Geçen ay, Meta AI tarafından üretilen filmler için ses manzaraları yaratabilen Movie Gen’i tanıttı.
Nvidia, AI araştırmacısı Rohana Badlani’snin “Beni biraz sanatçı gibi hissettirdi” dediği modeli örnek gösteriyor. Elbette AI, mevcut müzik ve ses verileri üzerine inşa edilmiştir. Nvidia veri seti hakkında ayrıntılı bilgi vermemiş olup, yalnızca “milyonlarca ses örneği ile eğitildiğini” belirtti. Fugatto’nun tam versiyonu, Nvidia’nın meşhur H100 AI GPU’ları üzerinde eğitilmiş 2,5 milyar parametreli bir modeldir.
Foley sanatçıları için kötü haber, boyunca ses sahtekarlığını ünlü bir sanat formu haline getirdiler. Şirket, Fugatto’nun reklam ajansları, video oyun geliştiricileri veya çalışmalarında değişiklik yapmak isteyen müzisyenler için kullanışlı bir araç olabileceğini söyledi. Ancak diğer yandan, bu aracı “yeni varlıklar” yani AI tarafından üretilmiş sesler oluşturmak için kullanabilecek insanlar bulunmakta.
Fugatto, sadece film prodüksiyon şirketlerinin insan ses mühendisleri yerine kullanmasına mazeret olmaktan daha fazla yardımcı olabilir. Nvidia bunun mevcut müzikten enstrümanları kaldırabileceğini veya ekleyebileceğini iddia ediyor. Aynı zamanda mevcut kaynaklardan belirli sesi ayırabilir ve değiştirebilir. Belki sıradan synthesizer parçanıza boş ritimler üretebilirsiniz, ancak AI ile tamamen oluşturulmuş bir film müziği çoğu insanın film bileti alırken beklediği bir şey değil.