İlgisi olanlarAI hizalama kavramı(yani yapay zekaların insanlar tarafından yazılan etik kurallara bağlı kalmasını sağlamak), Anthropic'in Opus 4 modelini talep ettiği zamanı hatırlayabilirçevrimiçi kalmak için şantaja başvurduGeçen yıl teorik bir test senaryosunda. Şimdi,Antropik diyorbu "yanlış hizalamanın" öncelikle "yapay zekayı kötü olarak tasvir eden ve kendini korumaya ilgi duyan internet metni" üzerine eğitimin sonucu olduğunu düşünüyor.
İçindeAnthropic'in Hizalama Bilimi blogunda yeni bir teknik yazı(ve beraberindekisosyal medya konusu ve halka açık blog yazısı), Antropik araştırmacılar, "modelin büyük olasılıkla bilim kurgu hikayeleri yoluyla öğrendiği" "güvensiz" yapay zeka davranışını düzeltmeye yönelik girişimlerini ortaya koyuyor; bunların çoğu, Claude'un olmasını istediğimiz kadar uyumlu olmayan bir yapay zekayı tasvir ediyor. Sonunda model yapımcısı, bu "kötü yapay zeka" hikayelerini geçersiz kılmanın en iyi çaresinin, yapay zekanın etik davrandığını gösteren sentetik hikayelerle ek eğitim olabileceğini söylüyor.
"Dramatik bir hikayenin başlangıcı..."
Bir modelin çoğunlukla İnternet'ten türetilmiş verilerden oluşan geniş bir külliyat üzerinde ilk eğitiminin ardından Anthropic, nihai modeli "yararlı, dürüst ve zararsız" (HHH) olmaya doğru yönlendirmeyi amaçlayan bir eğitim sonrası süreci takip ediyor. Geçmişte Anthropic, bu eğitim sonrası eğitimin, çoğunlukla kullanıcılarla sohbet etmek için kullanılan modeller için "yeterli" olduğunu söylediği, insan geri bildirimiyle (RLHF) sohbet tabanlı takviyeli öğrenmeye dayandığını söyledi.




