Yayıncılar, AI eğitimi için içerik toplamayı durdurmak için Ortak Tarama'yı zorluyor

Digital Content Next (DCN), Common Crawl Foundation'a, korumalı yayıncı içeriğini kazımayı ve dağıtmayı bırakmasını talep eden bir durdurma ve vazgeçme mektubu gönderdi.

Büyük dijital yayıncıları (örneğin AP, New York Times, NBC Universal, Bloomberg, NPR ve Fox) temsil eden ABD ticaret grubu da Common Crawl'dan ödeme duvarlı ve yalnızca abonelere özel haber makaleleri dahil olmak üzere DCN üyelerinin içeriklerini veri kümelerinden kaldırmasını istedi.

Yayıncılar kapsam dışı kalmayı sorguluyor.DCN avukatları, Common Crawl'ın yayıncının devre dışı kalma isteklerini yerine getirip getirmediği ve istendiğinde eski içeriği kaldırıp kaldırmadığı konusunda endişelerini dile getirdi.

Mektupta, Common Crawl'ın bazı durumlarda yayıncılara uyumlu olduğunu söylediği ancak daha sonra teknik maliyetlerin ve gecikmelerin tamamen kaldırılmasını engellediğini söylediği belirtildi. DCN avukatları bu ifadelerin yanlış veya yanıltıcı olup olmadığını incelediklerini söyledi.
Common Crawl, kazımayı devre dışı bırakan sitelerin bir kaydını yayınlar. Listede birçok büyük haber yayıncısı yer alıyor.

DCN ihlal iddiasında bulunuyor.Mektup, telif hakkı yasasının bir vazgeçme sistemi olmadığını savundu. DCN, Common Crawl'ın korumalı içerik içeren veri kümelerini izin veya tazminat olmadan oluşturup dağıtarak yayıncının telif haklarını "açıkça ihlal ettiğini" söyledi.

Grup ayrıca Common Crawl'ın bu içeriği yapay zeka araçları ve büyük dil modelleri geliştiren şirketlerin kullanımına sunduğunu da söyledi.
DCN CEO'su Jason Kint, yasal bildirimin çevrimiçi içeriğin sırf erişilebilir olduğu için toplanabileceği, saklanabileceği ve yeniden kullanılabileceği fikrine karşı çıktığını söyledi.

Ortak Tarama geri iter.İcra Direktörü Rich Skrenta, CCBot'un web sitelerini kazımak için ödeme duvarlarını atladığını yalanladı. Ayrıca The Atlantic'in Kasım ayında, yayıncıların kaldırma talebinde bulunan bazı içeriklerinin mevcut olduğunu bildirmesinin ardından yanıltıcı yayıncıları da reddetti.

Skrenta, "Bir yayıncı bizden önceden taranan materyali kaldırmamızı istediğinde hemen yanıt veriyoruz ve veri kümemizin teknik tasarımını yansıtan bir kaldırma sürecini başlatıyoruz" dedi.

Neden önemsiyoruz?Bu mücadele, AI arama motorlarının izinsiz olarak ne kadar yayıncı içeriği kullanabileceğini şekillendirebilir. Mahkemeler veya uzlaşmalar daha sıkı izin gereklilikleri dayatıyorsa, yapay zeka yanıtları açık web'e daha az, lisanslı kaynaklara daha fazla dayanabilir.

Yapay zeka eğitim riskleri. Common Crawl, 2008'den bu yana ücretsiz bir halka açık arşiv oluşturmak için milyarlarca web sayfasını topladı. Veri kümeleri yapay zeka modellerini eğitmek için yaygın olarak kullanılıyor. New York Times'ın OpenAI'ye karşı 2023 yılındaki telif hakkı davasında Common Crawl'ın GPT-3'ün eğitim verilerinin %60'ını oluşturduğu belirtildi.Basın Gazetesibildirdi.

Mozilla Vakfı'nın 2024 tarihli bir makalesi, mevcut haliyle üretken yapay zekanın Common Crawl olmadan muhtemelen mümkün olamayacağını söyledi.
Skrenta bu hafta Common Crawl'ın AI tarama tercihleri için açık standartlar üzerinde çalıştığını söyledi. DCN'nin mektubu daha sert bir tavır istiyor: Korunan yayıncı içeriğini kazımayı bırakın ve halihazırda veri kümelerinde bulunan üye içeriğini kaldırın.

Yayıncılar, AI eğitimi için içerik toplamayı durdurmak için Ortak Tarama'yı zorluyor

Dijital Varlığınızı Güçlendirin

İlgili Haberler

Google, @sejournal, @MattGSouthern aracılığıyla Gemini Uygulamasına İşletme Profili Araçları Ekliyor

Schema.org artık her şema türünü kaç sitenin kullandığını gösteriyor

Ginny Marvin, AI Max, AI Arama Ağı reklamlarını ve reklamverenlerin GML'den sonra neye öncelik vermesi gerektiğini açıklıyor

Anında izlemeyi çok daha doğru hale getirme