
Çin’in Olağanüstü DeepSeek Modelini Eğitmenin Maliyeti Nihayet Açıklandı!
DeepSeek’in, yapay zeka dünyasında büyük ses getiren ve büyük oyuncuların yani OpenAI gibi firmaların milyonlar harcadığı dil modellerine kıyasla çok daha düşük maliyetle eğittiği R1 dil modelini piyasaya sürdüğünü hatırlıyor musunuz? DeepSeek AI ekibinin Nature dergisinde yayınladığı yeni bir makale sayesinde, DeepSeek 1’in eğitimi için neler gerektiğini nihayet öğrendik: 294.000 dolar ve 512 Nvidia H800 çipi. Doğru cevabı bulana kadar deneme-yanılma üzerine kurulu pekiştirmeli öğrenme teknikleri kullanarak daha az harcama yapmayı başardıkları anlaşılıyor.
Çoğu yapay zeka modeli, belirli problemleri nasıl çözeceğini “öğrenmek” için insan tarafından açıklanmış verilere ve gösterimlere ihtiyaç duyar. Bu süreç ise ölçeklenmesi zor ve pahalıdır, özellikle modellerin daha zorlu görevlerle karşılaştığında. DeepSeek, modelinin akıl yürütme becerilerini ve çıktılarını iyileştirmek için, modeli doğru cevaba ulaşana kadar deneme-yanılma sürecine teşvik etmeyi yeterli buldu.
Makale ile birlikte yayınlanan bir başka yazıda, Carnegie Mellon Üniversitesi yardımcı doçenti Daphne Ippolito ve doktora öğrencisi Yiming Zhang, pekiştirme yöntemine çocukların video oyunları oynarken öğrendiklerine benzetmiştir: “Çocuk, oynadığı oyunda karakterini yönlendirirken, bazı eylemlerin (örneğin altınları toplamak) puan kazandırdığını, diğerlerinin ise (örneğin düşmanlara çarpmak) puan kaybettirdiğini deneme yanılma yoluyla öğrenir. Aynı şekilde, DeepSeek-R1 doğru cevap verdiğinde yüksek puan, yanlış cevap verdiğinde düşük puan aldı.”
Önceki araştırmalar, bir LLM’nin (büyük dil modeli) çıktısına nasıl ulaştığını adım adım açıklaması istenmesi yaklaşımının daha doğru cevaplar sunduğunu göstermiştir. Ancak DeepSeek ekibi, R1 tarafından üretilen çıktılarına bir puanlama sistemi atayarak pekiştirmeyle daha iyi cevaplar almanın bir yolunu buldu. Bu yöntem özellikle matematik ve programlama soruları gibi doğrulanabilir doğru cevapları olan sorularla iyi çalışır. Bu yöntemi insan rehberli akıl yürütme yerine kullanarak, LLM, yüksek puanlar ararken kendi başına doğru bir sonuca ulaşabilmiştir.
Bu yöntemin çıktıları daha doğru görünse de, insanların takip etmeye çalıştığı makinenin “düşünce” sürecini biraz daha bulanık hale getirir. Modelin cevabının akıl yürütme izini üretmesi istendiğinde, bazen İngilizce ve Çince arasında gidip gelmiştir. Ayrıca 10.000 kelimeden fazla açıklamalar ürettiği de olmuştur. Yöntem ayrıca özellikle daha doğru veya yanlış cevaplar içeren, daha nüanslı ya da öznel olmayan sorularda etkili olmuştur.
Buna rağmen, DeepSeek’in daha küçük bir bütçeyle nasıl rekabetçi olmayı başardığını görmek ilginç bir pencere açıyor. Yine de, şirketin Çin hükümetiyle ilişkisi nedeniyle çevresinde çokça şüphe bulunmaktadır. Yakın zamanda, araştırmacılar The Washington Post’a gösterdi ki, şirketin modeli, bir kullanıcı Çin hükümeti tarafından hassas kabul edilen gruplarla çalıştığını belirttiğinde, önemli güvenlik açıklarına sahip kod üretmeyi reddeder. Araştırmacılar ayrıca modelin Tibet, Tayvan, Falun Gong dini hareketi veya İslam Devleti için iş üretmesi istendiğinde daha az güvenli kodlar çıkardığını bulmuşlardır.