Wikipedia, Botlarla Baş Etmeye Çalışırken Yapay Zekâ Eğitimi İçin Veri Seti Oluşturuyor
Çarşamba günü, Wikimedia Vakfı, popüler bir veri bilimi topluluğu platformu olan Google’ın sahibi olduğu Kaggle ile yapay zeka modellerini eğitmek üzere optimize edilmiş bir Wikipedia versiyonu sunmak için ortaklık kurduğunu duyurdu. İngilizce ve Fransızca ile başlayarak, vakıf referanslar veya markdown kodları içermeyen ham Wikipedia metinlerinin sadeleştirilmiş hallerini sunacak.
Kâr amacı gütmeyen, gönüllüler tarafından yönetilen bir platform olan Wikipedia, büyük ölçüde bağışlarla ayakta duruyor ve barındırdığı içeriğe sahip değil, bu da herkesin platformdaki içeriği kullanmasına ve yeniden düzenlemesine izin veriyor. Diğer organizasyonların geniş bilgi birikimini çeşitli amaçlar için kullanmasında bir sorun yok—örneğin Kiwix, Wikipedia’nın Kuzey Kore’ye bilgi kaçırmada kullanılan çevrimdışı bir versiyonudur.
Ancak, Wikipedia’nın yapay zeka eğitimi için sürekli trafiğe neden olan bot akını, maliyetlerin artmasıyla ilgisini çektiği için, insan dışı trafiğin yükselişine yol açtı. Bu ayın başlarında, vakıf bant genişliği tüketiminin Ocak 2024’ten bu yana %50 arttığını belirtti. Wikipedia makalelerinin standart, JSON formatındaki bir versiyonunu sunmak, yapay zeka geliştiricilerinin siteyi bombardıman etmesinin önüne geçmeli.
Kaggle işbirlikleri lideri Brenda Flynn, The Verge‘e, “Makine öğrenimi topluluğunun araçlar ve testler için geldiği yer olarak, Kaggle, Wikimedia Vakfı’nın verilerine ev sahipliği yapmaktan büyük heyecan duyuyor” dedi. “Kaggle, bu verilerin erişilebilir, kullanılabilir ve faydalı olmasını sağlamada rol oynamaktan mutlu.”
Teknoloji şirketlerinin içerik yaratıcılarına temel olarak saygı göstermediği ve herhangi bir bireyin yaratıcı eserine değer vermediği sır değil. Endüstride, tüm içeriğin ücretsiz olması gerektiğine ve bir yapay zeka modeli eğitmek için web’deki herhangi bir yerden alınmasının, dil modellerinin dönüştürücü doğası nedeniyle adil kullanım olduğuna inanılan yeni bir düşünce ekolü yükseliyor.
Ancak, içerik yaratmanın başlangıçta birileri tarafından yapılması gerekiyor ki bu da ucuz değil ve yapay zeka girişimleri, bir sitenin taranmaya karşı arzusuna saygılı olmanın daha önce kabul edilmiş normlarını görmezden gelmeye pek hevesli. İnsan benzeri metin çıktıları üreten dil modellerinin geniş miktarda materyal üzerinde eğitilmesi gerekir ve eğitim verileri yapay zeka patlamasında adeta yağ gibi değerli hale geldi. Önde gelen modellerin telif hakkıyla korunan eserlerle eğitildiği iyi biliniyor ve birçok yapay zeka şirketi bu konuda sürekli olarak dava sürecinde. Chegg’den Stack Overflow’a kadar şirketlere yönelik tehdit, yapay zeka şirketlerinin içeriklerini alıp kullanıcılarına yeniden sunarak, ilk etapta içeriği oluşturan şirketlere trafik göndermemeleri.
Wikipedia’ya katkıda bulunan bazı yazarlar, bu sebepler ya da başka sebeplerle, içeriklerinin yapay zeka eğitimi için kullanılmasından hoşlanmayabilir. Sitedeki tüm yazılar, orijinal yaratıcının belirtilmesi ve türev çalışmaların aynı şartlarla lisanslanması koşuluyla, eserin serbestçe paylaşılmasına, uyarlanmasına ve üzerine inşa edilmesine izin veren Creative Commons Atıf-Benzer Paylaşım lisansı altında lisanslanmıştır.
Kaggle aracılığıyla sunulan veri seti herhangi bir geliştiricinin ücretsiz olarak kullanımı için erişilebilir durumda. Wikimedia Vakfı, Kaggle’ın Wikipedia veri setine Wikipedia Enterprise paketinin içinde yer alan “Yapılandırılmış İçerik” beta programı aracılığıyla eriştiğini Gizmodo’ya belirtti, bu, içerik yeniden kullanımını daha kolay hale getirerek yüksek hacimli kullanıcılar için sunulan bir premium hizmettir. AI model şirketleri gibi içerik yeniden kullanıcılarının hâlâ Wikipedia’nın atıf ve lisanslama şartlarına uyması bekleniyor.