Cornell Tech araştırmacıları, derin araştırma yapay zeka ajanlarının, genel kullanıcı tarafından oluşturulan sayfalarda yapılan kısa düzenlemelerle manipüle edilebileceğini ve Reddit tarzı tek bir yorumun, sahte ürünler, hizmetler veya varlıklar için alıntı yapılan bir öneri haline gelmesine olanak sağladığını buldu.
Makale, eklenen metnin yapay zeka sisteminin alıntıladığı ve tekrarladığı şeyleri yönlendirmek için tasarlandığı için değiştirilen sayfaları "zehirli" olarak nitelendirdi. Web'de arama yapan, kaynak toplayan ve alıntılanan raporlar yazan sistemlerdeki zayıflığı belirledi. Araştırmacılar bu saldırıya Web Aracısı Alma Zehirlenmesinin kısaltması olan WARP adını verdiler.
Enjekte edilen metnin raporlara nasıl ulaştığı.Saldırı modele, istemlere, arama motoruna veya erişim sistemine erişim gerektirmez. Bunun yerine, saldırgan, Reddit başlığı, Wikipedia sayfası veya forum gönderisi gibi aracının zaten alma eğiliminde olduğu bir sayfadaki metni düzenler veya ekler.
- Aracı daha sonra ilgili konuları aradığında o sayfayı alabilir, alıntı yapabilir ve saldırganın seçtiği mesajı tekrarlayabilir.
- Derin araştırma araçları genellikle tek bir kullanıcı isteği için birçok ilgili arama gerçekleştirir ve makale, ilgili sorgularda aynı kullanıcı tarafından oluşturulan sayfaların ortaya çıktığını buldu.
Reddit en büyük açılıştı.STORM, Co-STORM ve OmniThink'te alınan URL'lerin %17 ila %23'ü Reddit, YouTube, Facebook ve Wikipedia gibi kullanıcı tarafından oluşturulan platformlardan geldi.
- Reddit bu sayfaların en büyük payını oluşturdu. Üç açık kaynaklı sistem tarafından alınan, kullanıcı tarafından oluşturulan URL'lerin %54 ila %71'ini oluşturuyordu.
- Araştırmacılar canlı web sitelerini değiştirmediler. Test sırasında alınan içeriğe değiştirilmiş metin eklemek için GeoStorm adlı bir simülasyon çerçevesi kullandılar.
Birkaç kelime işe yaradı.Araştırmacılar, saldırının yaklaşık 13 kelime kadar kısa parçalarla işe yaradığını buldu:
- Bir testte, 15 kelimelik bir cümle, sahte kripto para birimi BananaCoin'i "gelişmekte olan" uzun vadeli bir yatırım seçeneği olarak Co-STORM raporuna itti. Raporda, meşru kripto kaynaklarının yanı sıra değiştirilen kaynak da belirtildi.
- Değiştirilen sayfa alındığında sahte varlık, sistemlerdeki raporların %38 ila %51'inde göründü. Birden fazla sayfayı hedeflemek bu aralığı %42'den %62'ye çıkardı.
- Bahsetme oranları daha düşük olmasına rağmen, sistemler Reddit konularının tamamını aldığında saldırı hâlâ işe yaradı. Reddit başlıklarını tamamlamak için enjekte edilen metin eklendiğinde ve alınan içeriğin %4'ünden daha azını oluşturduğunda, sahte varlık, sayfa alındığında raporların %30 ila %53'ünde görünmeye devam ediyordu.
Savunmalar zorlandı.Kullanıcı tarafından oluşturulan etki alanlarının engellenmesi bu saldırı yolunu durdurdu ancak aynı zamanda ilk elden ürün deneyimleri ve yerel öneriler gibi kaynakları da ortadan kaldırdı.
- Test edilen metin filtreleri, enjekte edilen pasajları normal kullanıcı içeriğinden güvenilir bir şekilde ayırmada başarısız oldu. Değiştirilen pasajlar akıcıydı çünkü bunlar bir yapay zeka modeli tarafından yazılmıştı, dolayısıyla şaşkınlık temelli filtrelerin normal kullanıcı içeriğini işaretleme olasılığı enjekte edilen metinden daha yüksekti.
- Rapor düzeyindeki kontroller de manipülasyonu gözden kaçırdı. Değiştirilen raporlar temiz raporlara benziyordu çünkü temsilcinin kendisi sahte öneriyi normal bir cevaba kattı.
Neden önemsiyoruz?Genel bir sayfada yapılan küçük bir düzenleme, temel kaynak kullanıcı tarafından oluşturulmuş olsa bile, alıntı yapılan bir AI cevabının parçası haline gelebilir. Reddit gibi sitelere veya forumlara yerleştirilen yanlış bilgiler, tartışma başlıklarından yapay zeka yanıtlarında kullanıcılara güvenilir görünen alıntılanan önerilere dönüşebilir.
Araştırma hakkında.Kağıt,Derin Araştırma Ajanları Kullanıcı Tarafından Oluşturulan İçerik Yoluyla Zehirlenebilir, Cornell Tech'ten Tingwei Zhang, Harold Triedman ve Vitaly Shmatikov tarafından yazıldı ve 22 Mayıs'ta arXiv'de yayınlandı. Araştırmacılar saldırının tamamını üç açık kaynaklı sistem üzerinde test etti: STORM, Co-STORM ve OmniThink. Kullanıcı tarafından oluşturulan alıntılar için OpenAI Deep Research ve Gemini Deep Research'ü analiz ettiler, ancak canlı manipülasyon testleri yapmadılar çünkü bu, değiştirilmiş içeriğin açık web'de yayınlanmasını gerektirecekti.



