Antropik, yapay zeka modellerini "kötü" davranmak üzere eğitmekle distopik bilim kurguyu suçluyor

İlgisi olanlarAI hizalama kavramı(yani yapay zekaların insanlar tarafından yazılan etik kurallara bağlı kalmasını sağlamak), Anthropic'in Opus 4 modelini talep ettiği zamanı hatırlayabilirçevrimiçi kalmak için şantaja başvurduGeçen yıl teorik bir test senaryosunda. Şimdi,Antropik diyorbu "yanlış hizalamanın" öncelikle "yapay zekayı kötü olarak tasvir eden ve kendini korumaya ilgi duyan internet metni" üzerine eğitimin sonucu olduğunu düşünüyor.

İçindeAnthropic'in Hizalama Bilimi blogunda yeni bir teknik yazı(ve beraberindekisosyal medya konusu ve halka açık blog yazısı), Antropik araştırmacılar, "modelin büyük olasılıkla bilim kurgu hikayeleri yoluyla öğrendiği" "güvensiz" yapay zeka davranışını düzeltmeye yönelik girişimlerini ortaya koyuyor; bunların çoğu, Claude'un olmasını istediğimiz kadar uyumlu olmayan bir yapay zekayı tasvir ediyor. Sonunda model yapımcısı, bu "kötü yapay zeka" hikayelerini geçersiz kılmanın en iyi çaresinin, yapay zekanın etik davrandığını gösteren sentetik hikayelerle ek eğitim olabileceğini söylüyor.

"Dramatik bir hikayenin başlangıcı..."

Bir modelin çoğunlukla İnternet'ten türetilmiş verilerden oluşan geniş bir külliyat üzerinde ilk eğitiminin ardından Anthropic, nihai modeli "yararlı, dürüst ve zararsız" (HHH) olmaya doğru yönlendirmeyi amaçlayan bir eğitim sonrası süreci takip ediyor. Geçmişte Anthropic, bu eğitim sonrası eğitimin, çoğunlukla kullanıcılarla sohbet etmek için kullanılan modeller için "yeterli" olduğunu söylediği, insan geri bildirimiyle (RLHF) sohbet tabanlı takviyeli öğrenmeye dayandığını söyledi.

Makalenin tamamını okuyun

Yorumlar

Antropik, yapay zeka modellerini "kötü" davranmak üzere eğitmekle distopik bilim kurguyu suçluyor

"Dramatik bir hikayenin başlangıcı..."

Dijital Varlığınızı Güçlendirin

İlgili Haberler

Netflix'in reklam tutkusu büyümeye devam ediyor

The Criterion Collection'daki her şey şu anda yüzde 30 indirimli

Gizli ittifak! İsrail başbakanlık ofisi duyurdu: Netanyahu, İran savaşı devam ederken gizlice BAE’yi ziyaret etti

Instagram, kaybolan yeni Anlar fotoğraflarıyla tekrar kopyala düğmesine basıyor