Bir Tarama Hatası Sahte Bir Bilim Terimi Yarattı—Şimdi Yapay Zeka Bunu Unutmuyor!
İnternetin geniş dergisel bilgiler denizinde gezinen yapay zeka, birçok araştırma makalesinde yer alan bir hatayı yeniden üretti—ve şimdi bir bilim insanı grubu bu hatanın kaynağını buldu.
Herkesin merakla sorduğu soru şu: “Vejetatif elektron mikroskobu” nedir bu? Görünen o ki, bu terimin hiçbir anlamı yok.
Teknik bir şeymiş gibi kulağa gelebilir—hatta güvenilir bile durabilir—ancak tamamen saçmalık. Ama buna rağmen, bilimsel makalelerde, yapay zeka cevaplarında ve hatta hakemli dergilerde karşımıza çıkıyor. Peki, bu hayali ifade bilgi dağarcığımızın bir parçası haline nasıl geldi?
Retraction Watch’un Şubat ayında detaylı bir şekilde bildirdiği gibi, bu terim, 1959 yılında bakteriyel hücre duvarları üzerine yazılmış bir makaleden paralel metin sütunlarından çekilmiş olabilir. Yapay zeka, bu sütunları düzgün okuyamayıp, iki ilgisiz metin satırını birleştirerek bir cümle haline getirmiş gibi görünüyor, bir araştırmacıya göre.
Bu yanlış metin, araştırmacıların dijital fosil dediği şeyin tam bir örneği: Ai eğitim verisinin tabakalarında korunarak gelecekte ortaya çıkan bir hata. Dijital fosiller, bilgisayar araştırmacılarına göre “bilgi dağarcıklarımızdan neredeyse çıkarılamaz” hale geliyorlar, diye açıklıyor yapay zeka araştırmacıları, “vejetatif elektron mikroskobu”nun ilginç vakasının izini sürdüler, The Conversation‘da belirtildiği gibi.
Fosilleşme süreci basit bir hatayla başlamıştı, ekip raporladı. 1950’lerde Bacteriological Reviews’da yayınlanan iki makale daha sonra taranmış ve dijitalleştirilmişti.
Bu makalelerdeki sütunların düzeni dijitalleştirme yazılımını karıştırmış, bu da bir sütundaki “vejetatif” kelimesiyle diğer sütundaki “elektron” kelimesini birleştirmişti. Meydana gelen bu zincirleme hata çıplak gözle görünmez, ama metni “okuyan” yazılım ve dil modelleri için açıkça ortadaydı.
Retraction Watch’un detaylı bir şekilde aktardığı gibi, biyoloji makaleleri yayınlandıktan neredeyse 70 yıl sonra, “vejetatif elektron mikroskobu” İranlı araştırma makalelerinde ortaya çıkmaya başladı.
Orada, bir Farsça çevirisi hatası terimi yeniden dolaşıma sokmuş olabilir: Farsça’da “vejetatif” ve “tarayıcı” kelimeleri arasındaki fark sadece bir nokta—ve tarayıcı elektron mikroskobu çok gerçek bir kavramdır. Bu hata bilimsel kayıtlara yanlış terminolojinin geri sızması için yeterli olmuş olabilir.
Ancak hata bir insan çevirisiyle başlamış olsa bile, yapay zeka bu hatayı internet üzerine yaydı, bulgularını The Conversation’da açıklayan ekip bunu tespit etti. Araştırmacılar, orijinal makalelerden alıntılarla yapay zeka modellerini test etti ve evet, yapay zeka modelleri anlamsız terimi, bilimsel açıdan geçerli terimler yerine kullanarak cümleleri tamamladı. Eski modeller, OpenAI’nin GPT-2 ve BERT gibi, hatayı üretmedi, bu da araştırmacılara modelin eğitim veri kutuplarının kirlenme zamanına dair bir fikir verdi.
“Hatanın GPT-4o ve Anthropic’in Claude 3.5 gibi daha yeni modellerde de devam ettiğini bulduk,” ekip yazdı. “Bu, anlamsız terimin artık yapay zeka bilgi tabanlarında kalıcı olarak yer alabileceğini gösteriyor.”
Ekip, CommonCrawl veri setini—tarayıcılar tarafından çekilen internet sayfalarının devasa bir depo—bu talihsiz terimin yapay zeka modelleri tarafından alınmasının muhtemel kaynağı olarak tanımladı. Ancak hataların kaynağını bulmak ne kadar zor olduysa, onları ortadan kaldırmak daha da zor. CommonCrawl petabaytlarca veri içeriyor, bu da en büyük teknoloji şirketleri dışındaki araştırmacılar için ölçek sorunları ele almayı zorlaştırıyor. Önde gelen yapay zeka şirketlerinin eğitim verilerini paylaşmaya direnmeleri bir yana.
Ancak yapay zeka şirketleri yalnızca sorunun bir parçası—yayınevleri de diğer bir sorun. Retraction Watch’un bildirdiği gibi, büyük yayınevi Elsevier, “vejetatif elektron mikroskobu”nun mantığını açıklamaya çalıştı, ancak sonunda bir düzeltme yayınladı.
Derinlik Dergisi geçen yıl, fare genital organları ve biyolojik yollarının anlamsız yapay zeka tarafından oluşturulmuş görüntülerini içeren bir makaleyi geri çekmek zorunda kaldığında kendi sıkıntılı durumunu yaşadı. Bu yılın başlarında, Harvard Kennedy School’un Yanlış Bilgilendirme İncelemesi’nden bir ekip Google Scholar üzerinde “çöp bilim” olarak adlandırılan, motor tarafından zararsızca çekilen bilimsel olmayan araştırmaların kötüleşen sorununu vurguladı.
Yapay zeka, bilimler arasında gerçek kullanım senaryolarına sahip, ancak geniş ölçekte yönetilemeyen dağıtımı, hem araştırmacılar hem de bilimle ilgilenen kamu için yanlış bilgi tehlikeleri ile dolu. Bir kez dijitalleşmenin yanlış kalıntıları internetin fosil kayıtlarına entegre edildiğinde, güncel araştırmalar bunların söndürülmesinin oldukça zor olduğunu gösteriyor.