Yapay Zekâ Eğitim Verilerinden Romanların Neredeyse Birebir Kopyasını Üretebiliyor

3 hafta önce 11

Son incelemelar, muazzam yapay zekâ modellerinin eğitimleri verilerinden kitapların içeriğini neredeyseymiş kelimesi kelimesine kopyalayabildiğini ve bu durumun telif hakları ile ilgili vahim tartışmalara yolda açtığını ortaya koyuyor.

Detaylar haberleriimizde…

Dünyanın seçkin yapay zekâ modelleri, çeşitlilik satan romanların neredeyseymiş kelimesi kelimesine kopyalarını üretmeye yönlendirilebiliyor. Bu durum, sektörün sistemlerinin telif hakkıyla korunan eserleri “saklamadığı” iddiasına dair yepyeni sual işaretleri doğuruyor.

Son dehemmiyetde yayımlanan tek dizi çalışma, OpenAI, Google, Meta, Anthropic ve xAI tarafından geliştirilen muazzam diller modellerinin (LLM) eğitimleri verilerinin sanılandan çeşitlilik daha fazlasını ezberlediğini ortaya koydu.

kopya

Yapay Zekâ ve Kitap Kopyalama Tartışmaları

Yapay zekâ ve hukuk uzmanları, Financial Times’a yaptıkları açıklamada, bu “ezberleme” yeteneğinin dünyası çapında açılan onlarca telif davasında AI şirketlerinin savunmasını zayıflatabileceğini söyledi. Çünkü şirketler, LLM’lerin telifli eserlerden “öğrendiğini” bununla birlikte bu eserlerin kopyalarını saklamadığını savunuyor.

Imperial College London’da uygulamalı matematik ve malumatsayar bilimi profesörü Yves-Alexandre da Montjoye, “Ezberlemenin sanılandan daha muazzam tek mesele olduğuna dair çoğalan delillar var” dedi.

Yapay zekâ şirketleri uzunluğu süredir ezberleme olmadığını talep ediyor. Google, 2023 yılında ABD Telif Hakkı Ofisi’ne gönderdiği mektupta, “Modelin içindeki eğitimleri verilerinin — metin, görseller ya da diğer formatlarda — hiç tek kopyası bulunmamaktadır” ifadelerini kullanmıştı.

Sektör ayrıca, telifli kitaplarla modeller eğitmenin “adil kullanım” içerikında olduğunu savunuyor ve teknolojinin özgün eseri manalı biçimde dönüşçeşitdüğünü öne sürüyor.

Ancak geçen aylık yayımlanan tek inceleme, Stanford ve Yale üniversitelerindeki incelemecıların OpenAI, Google, Anthropic ve xAI modellerini stratejiklik biçimde yönlendirerek 13 kitaptan binlerce kelimeler üretmeyi başardığını gösterdi. Bu kitaplar arasında A Game of Thrones, The Hunger Games ve The Hobbit da bulunuyor.

Araştırmacılar, modellerden tek kitaptaki cümleleri tamamlamalarını isteyerek testleri yaptı. Gemini 2.5, Harry Potter and the Philosopher’s Stone kitabının oran 76,8’ini yüksek doğruluk oranıyla yeniden üretirken, Grok 3 oran 70,3’ünü üretebildi.

Ayrıca incelemecılar, Anthropic’in Claude 3.7 Sonnet modelini “jailbreak” metotiyle yönlendirerek neredeyseymiş tamamını kelimesi kelimesine çıkarabildi. Jailbreaking, üyeların LLM’lerin asayiş önlemlerini göz ardı ederek metinleri üretmesini sağlıyor.

Bu bulgular, geçen yılki tek çalışmayı da yardımliyor; o çalışmada Meta’nın Llama gibi “açık” modellerinin eğitimleri verilerindeki kesin kitapların muazzam bölümlerini ezberlediği ortaya konmuştu.

Yale Üniversitesi’nden incelemecı A. Feder Cooper, “Güvenlik önlemleri olmasına karşın modellerin hepsi metinleri ezberleyebilmesi şaşırtıcıydı” dedi.

Araştırmacılar, LLM’lerin nedenler eğitimleri verilerindeki metinleri ezberlediğini henüz çözebilmiş değil. Ayrıca, ürettikleri çıktılarda eğitimleri verisinin ne kadarının göründüğü da belirsizliğini koruyor.

Bu ezberleme özelliği, sıhhat ve eğitimleri gibi alanlarda da vahim neticelar doğurabilir; nedeniyle eğitimleri verilerinin sızması, gizlilik ve gizlilik sualnlarına yolda açabilir.

Hukuk uzmanları, bunun AI şirketleri için telif ihlali açısından ehemmiyetli tek sualmluluk yaratabileceğini ve modellerin eğitimi ile geliştirme maliyetleri bağlı da tesirsi olabileceğini belirtiyor.

Pinsent Masons hukuk firmasından fikri mülkiyet ortağı Cerys Wyn Davies, “Araştırma bulguları, AI modelinin telifli eserleri saklamadığı ya da çoğaltmadığı savunanlar için tek sorun oluşturabilir” dedi.

LLM’lerin eğitimleri verilerini ezberleyip ezberlemediği, oğullar dehemmiyetdeki telif davalarında ehemmiyetli tek etken oldu.

ABD’de geçen yıllar tek mahkeme, Anthropic’in LLM’lerini çok telifli içeriklerle eğitmesini “dönüşçeşitücü” (transformative) olduğu lüzumçesiyle dürüst kullanımı olarak kıymetlendirdi. Ancak korsan eserleri saklamanın “doğası gereği telif ihlali” olduğu hükümıyla şirket, davayı 1,5 milyar dolar ödeyerek halletmek güçunda kaldı.

Almanya’da ise geçen yılın Kasım ayında OpenAI’in telif ihlali yaptığına şart verildi; nedeniyle modeller türkü sözlerini ezberlemişti. GEMA tarafından açılan dava, AB’de emsal tek şart olarak giriş edildi.

Husch Blackwell hukuk firmasından müşterek Rudy Telscher, “Bir kitabı jailbreak yapmadan tamamlanmış çoğaltmak netler telif ihlali” dedi. Ancak bunun ne kadar yaygınlaşan olduğunun ve AI modellerinin dolaylı sualmluluk taşıyıp taşımayacağının tartışmalı olduğunu ekledi.

Anthropic, Stanford ve Yale incelemesında kullanılan jailbreak metotinin normal olan üyelar için uygulamalı olmadığını ve metni çıkarmanın, içeriği satın edinmektan ilave gayret lüzumtirdiğini belirtti. Şirket ayrıca, modelin kesin bilgi kümelerinin kopyalarını saklamadığını, eğitimleri verisindeki kelimeler ve diziler arasındaki örüntü ve ilişkilerden öğrenme yaptığını vurguladı.

xAI, OpenAI ve Google görüş taleplerine yanıt vermedi.

Imperial College’dan da Montjoye, AI laboratuvarlarının eğitimleri verilerinin çıkarılmasını engelledi için önlemler koymuş olmasının sualnun haberdar olduklarını gösterdiğini söyledi.

University of Chicago’dan malumatsayar bilimleri profesörü Ben Zhao ise, AI laboratuvarlarının gerçekten mi ileri düzey modeller yarattı için telifli muhteva kullanmaya gereksinimları olup olmadığını sorguladı.

Zhao, “Teknik olarak yapılabilir olup olmaması tek yana, bunu yapmalı mıyız hâlâ tartışılmalı. Hukuki taraf nihayetinde dik durmalı ve bu sürecin hakemi olmalı” dedi.

Derleyen: Damla Şayan

>> Tüm Makaleyi Oku <<

Platformumuz; Teknoloji, Spor, Sağlık, Eğlence, Uluslararası, Edebiyat, Bilim ve daha fazlası olmak üzere farklı konu başlıkları altında, kısa ve öz haber formatı ile kullanıcıların zamandan tasarruf etmesini hedefler. Karmaşadan uzak, sade ve anlaşılır içerik yapısı sayesinde ziyaretçiler aradıkları bilgiye hızlıca ulaşabilir. techforum.com.tr, bilgi kirliliğini önleyerek yalnızca güvenilir kaynaklardan elde edilen içerikleri yayınlamaya özen gösterir.