Harvard, Yapay Zeka Modellerini Eğitmek İçin 1 Milyon Kitabı Kullanıma Sunuyor!
Verinin yeni petrol olduğu söylenir ve belki de bu Harvard Üniversitesi’ni yeni Exxon yapar. Üniversite, AI modelleri eğitimi için kullanılabilecek, bir milyona yakın kamu malı kitabı içeren bir veri seti başlattığını duyurdu. Yeni kurulan Kurumsal Veri İnisiyatifi altında, proje, Microsoft ve OpenAI’dan fon aldı ve Google Books tarafından taranan, telif hakkı süresi dolmuş kitapları içeriyor.
Wired, yeni proje hakkındaki yazısında, veri setinin Shakespeare, Charles Dickens ve Dante gibi klasiklerin yanı sıra, Çek matematik ders kitapları ve Galli cep sözlükleri gibi benzersiz kitapları da içerdiğini belirtti. Genel bir kural olarak, telif hakkı süresi yazarın yaşamı artı 70 yıl kadar devam eder.
Gerçek bir insanın benzeri gibi davranan ChatGPT gibi temel dil modelleri, eğitilmeleri için muazzam miktarda yüksek kaliteli metin gerektirir—genellikle ne kadar çok bilgi tüketirlerse, insanlar gibi taklit etmede ve bilgi sunmada o kadar başarılı olurlar. Ancak bu veri susuzluğu sorunlara neden oldu, OpenAI gibi şirketler, yeni bilgi bulma konusunda sınırlara ulaştı—en azından çalmadan.
Wall Street Journal ve New York Times gibi yayıncılar, OpenAI ve muadili Perplexity’ye, verilerini izinsiz bir şekilde aldıkları için dava açtı. AI şirketlerini savunanlar çeşitli argümanlarla faaliyetlerini savundular. Bazen, insanların da başka kaynaklardan materyal inceleyip sentezleyerek yeni eserler ürettiklerini, yapay zekanın farklı olmadığını söylerler. Herkes okula gider, kitap okur ve sonra edindikleri bilgilerle yeni eserler üretir. Remixleme, yeni yaratım malzemenin farklı olduğu ölçüde adil kullanım olarak kabul edilir. Ancak bu, insanların bir bilgisayarın hızında milyarlarca metin yükleyemediğini hesaba katmaz, dolayısıyla bu tam olarak adil bir karşılaştırma değildir. Wall Street Journal, Perplexity’ye karşı davasında startup’ın “büyük ölçekte kopyaladığını” belirtmiştir.
Alanın oyuncuları, açık web üzerinde bulunan her türlü içeriğin esasen serbest kullanım olduğunu ve bir chatbot kullanan kişinin bir istem aracılığıyla telif hakkı olan içeriğe eriştiğini öne sürdü. Temelde, Perplexity gibi bir chatbot bir web tarayıcısına benzer. Bu argümanların mahkemede çözülmesi biraz zaman alacak.
OpenAI, eleştirilere yanıt olarak bazı içerik sağlayıcılarla anlaşmalar yaptı ve Perplexity yayıncılarla bir reklam destekli ortaklık programı başlattı. Ancak, bunu isteksizce yaptıkları açık.
AI şirketleri yeni içerik bulmakta zorlanırken, halihazırda eğitim setlerine dahil olan yaygın web kaynakları hızla erişimi kısıtlamaya başladı. Reddit ve X gibi şirketler, veri kullanımını sınırlama konusunda agresif davrandılar çünkü verilerinin özellikle dünya hakkında daha güncel bilgi sağlamak için temel modellere gerçek zamanlı veri sağlama konusunda büyük bir değere sahip olduğunu fark ettiler.
Reddit, alt dizinler ve yorumlarının Google’a modelleri eğitmek için lisanslanmasıyla yüz milyonlarca dolar kazanıyor. Elon Musk’ın X, sosyal ağın içeriklerine modellerinin erişmesi ve güncel bilgileri alması için diğer şirketi xAI ile özel bir anlaşma yaptı. Bu şirketlerin kendi verilerini sıkı koruması ama medya yayınlarından gelen içeriğin hiçbir değeri olmadığını düşünüp ücretsiz olması gerektiğini düşünmeleri biraz ironik.
Bir milyon kitap, AI şirketlerinin eğitim ihtiyaçlarını karşılamak için yeterli olmayacak, özellikle bu kitaplar eski ve modern bilgiler, Gen Z gençlerinin kullandığı argo ifadeler gibi bilgiler içermiyorsa. Rakiplerinden ayrışmak için AI şirketleri, başka verilere—özellikle özel olanlara—erişmeye devam etmek isteyecek, böylece hepsi aynı modelleri üretmesinler. Kurumsal Veri İnisiyatifi’nin veri seti, AI şirketlerine temel modellerini herhangi bir yasal sıkıntıya girmeden eğitmeye çalışırken en azından bir miktar yardımcı olabilir.