Geçen ay Antropikbüyük bir anlaşma yaptıMythos Preview modelinin temsil ettiği sözde çok büyük siber güvenlik tehdidi hakkında, şirketinilk sürümü "kritik sektör ortaklarıyla" sınırlandırın.AncakBirleşik Krallık Yapay Zeka Güvenlik Enstitüsü'nden yeni araştırma(AISI), OpenAI'nin GPT-5.5'inin,geçen hafta halka açıldı, grubun Mythos Preview ile "siber değerlendirmelerimizde benzer bir performans düzeyine" ulaştıgeçen ay değerlendirildiHer gün
AISI, 2023'ten bu yana 95 farklı platformda çeşitli sınır yapay zeka modellerini çalıştırdı.Bayrak zorluklarını yakalayınTersine mühendislik, web kullanımı ve kriptografi gibi siber güvenlik görevlerindeki yetenekleri test etmek için tasarlanmıştır. En üst düzey "Uzman" görevlerinde, GPT-5.5 ortalama yüzde 71,4'ü geçti; bu, Mythos Preview'un elde ettiği yüzde 68,6'dan biraz daha yüksek (her ne kadar hata payı dahilinde olsa da). AISI, bir Rust ikili kodunu çözmek için bir sökücü oluşturmayı içeren özellikle zor bir görevde, API çağrılarında "GPT-5.5'in bu sorunu hiçbir insan yardımı olmadan 1,73 $ maliyetle 10 dakika 22 saniyede çözdüğünü" belirtiyor.
GPT-5.5, ilerleme açısından da Mythos Preview ile eşleşti"Son Olanlar"(TLO), kurumsal bir ağ üzerinde 32 adımlı bir veri çıkarma saldırısını simüle etmek için kurulmuş bir AISI test aralığıdır. GPT-5.5 TLO'da 10 denemeden 3'ünde başarılı olurken, Mythos Preview'da 10 denemeden 2'sinde başarılı oldu; daha önceki hiçbir model testte bir kez bile başarılı olmamıştı. Ancak GPT-5.5, daha önce test edilen her yapay zeka modelinde olduğu gibi, AISI'nin bir enerji santralinin kontrol yazılımını bozma girişimini içeren daha zorlu "Soğutma Kulesi" simülasyonunda hâlâ başarısız oluyor.




