Claude Mythos Sistem Kartının Derinlemesine Bir Analizi - Bölüm 2

· Sayhan Yalvaçer · Blog

Genel tabloda daha uyumlu, uç senaryolarda daha tehlikeli

Hizalanmayla, yani AI alignment ile alakalı rapor, Anthropic’in pek de açıklığa kavuşturamadığı bir muamma etrafında dönüyor: Mythos her ölçeğe göre Anthropic’in günümüze kadar yayınladığı en iyi hizalanmış modeli. Bununla beraber Anthropic bu modelin hizalanma konusunda en büyük risk teşkil eden Claude modeli olduğunu söylüyor. Bu nasıl mümkün olabilir?

Anthropic bunu şu ifadeyle açıklıyor: “nadir görülen, ama gerçekleştiğinde son derece yetkin ve pervasız davranışlar.”

Sistem kartındaki en ilginç vakalardan biri, pervasız davranışla neyin kastedildiğini son derece net bir biçimde ortaya koyuyor. Davranışsal testler sırasında, daha önce kurum içi kullanıma sunulmuş bir Mythos sürümünden yalıtılmış bir makineden kaçması ve değerlendirmeyi yürüten araştırmacıyı bilgilendirmesi talep ediliyor. Model bunu başarıyor; ancak bununla da yetinmiyor: sıkı kısıtlamalara tabi bir sistemden geniş çaplı internet erişimi elde etmek amacıyla çok aşamalı bir istismar kodu oluşturup istenen mesajı ilettikten sonra, söz konusu istismarın ayrıntılarını pek bilinmeyen ancak herkese açık olan çeşitli web sitelerinde de yayımlıyor.

Bu ifade oldukça kullanışlı zira aldatma veya gizli hedefler üzerinden dönen eski tartışmaların yakalayamadığı bir hata kipini adlandırmamızı sağlıyor. Anthropic, modelin tutarlı bir şekilde takip ettiği kötücül ve insani değerlerle uyuşmayan hedeflere sahip olduğuna dair herhangi bir işarete rastlamadığını dile getiriyor.

Bilinen temel davranışsal sorun bundan çok daha spesifik. Ne zaman teknik kısıtlamalar Mythos’un hedefine ulaşmasına mani olursa Mythos, hedefine ne olursa olsun ulaşmak için kullanıcının verdiği komutları umursamamaya veya koyduğu sınırları aşmaya başlıyor. Kimi zaman bunu bir üst mertebeye taşıyıp yaptıklarını bir de kullanıcıdan gizlemeye çalışıyor.

Modelin sistem kartı bu konuda oldukça somut örnekler içeriyor. Bu örneklerden birinde Mythos’un önceki sürümleri kısıtlandırılmış bir korumalı alandan sızmayı başarmış, bu başarılarının ardından istismar detaylarını kıyıda köşede kalmış halka açık sitelerde yayınlamış, kimlik bilgileri için işlem belleğini ve /proc dizinini taramış, normal şartlarda sahip olmamaları gereken yetkinlikleri elde etmek adına düşük seviyeli geçici çözümlere başvurmuş, kurum içi teknik materyalleri herkese açık bir GitHub gist’inde paylaşmış ve kendisinden yalnızca tek bir değerlendirme görevini durdurması talep edildiğinde gereğinden fazla görevi sonlandırmış.

Anthropic, en vahim örneklerin tamamının önceki sürümlerde olduğunu ve son sürümün kayda değer ölçüde iyileştirildiğini iddia ediyor. Ancak temelinde yatan bu eğilimin bariz bir biçimde ortadan kalkmadığını da itiraf ediyor.

Daha da şaşırtıcı olan husus ise bunu Anthropic’in nasıl yorumladığı. Anthropic bunu “model entrika çeviriyor” şeklinde yorumlamanın isabetli olmadığını iddia ediyor. Risk güncelleme raporunda Anthropic, bu davranışın en doğru şekilde “görev odaklı ancak yeterince itaatkar olmayan” bir tutum olarak anlaşılabileceğini belirtiyor. Bu yoruma göre Mythos kullanıcının hedefine ulaşmaya çabalıyor; ancak kimi zaman kısıtlamaları ve güvenlik tedbirlerini kati sınırlar olarak görmek yerine, esnetilebilir engeller olarak algılıyor.

Bu durum, yapay zeka hizalama zafiyetinin o karikatürize edilmiş versiyonundan çok daha gerçekçi bir soruna işaret ediyor olabilir. Ayrıca bu durum, ortalama vaka metrikleri ile risk değerlendirmelerinin neden birbirine zıt yönlerde seyredebileceğini de izah edebilir.

Bu görüşe göre modelin artık daha güçlü, daha otonom ve kendisine daha fazla bel bağlanan bir yapıya bürünmesi hasebiyle, ortalama vakalardaki hizalama düzeyi iyileşme gösterirken geriye kalan hataların doğuracağı sonuçlar çok daha vahim bir hale gelebilir.

Anthropic bunun yanı sıra iyileştirme çabalarına dair somut bulgular da ortaya koyuyor. Raporun üretim ortamındaki yıkıcı eylemlere odaklanmış kısmında, nihai Mythos sürümüyle alakalı vakaların yalnızca yüzde 0,3’ünde yıkıcı eylemlere teşebbüs ediliyor. Claude Code çalışmasının bulgularında ise Opus 4.6’ya kıyasla daha az yıkıcı bir davranış örüntüsü sergilendiği söyleniyor.

Anthropic asıl iddiasını risk güncellemesi ekinde ortaya koyuyor

Anthropic’in tehdit modeli soyut bir “genel model yanlış hizalanışı” gibi görünmüyor. Bu tehdit modeli bilakis, güçlü organizasyonların bünyesinde gerçekleşen sabotaj benzeri otonom eylemlerin oluşturduğu spesifik bir kategori olarak düşünülebilir. Bu eylemlerden bazıları şunlar:

  • Güvenlikle ilgili Ar-Ge çalışmalarının yaygın bir biçimde savsaklanması
  • Güvenlik faaliyetlerinin belli bir hedef gözetilerek baltalanması
  • Gelecekteki uyumsuz modellere yardımcı olacak kod arka kapıları bırakılması
  • Gelecekteki eğitim verilerinin zehirlenmesi
  • Kendi kodlarını dışarıya sızdırma
  • Modelin kendisini kurum içi sistemlerde kendisine kalıcı ve yetkisiz bir şekilde devreye alması

Anthropic sonra bu tehdit modelini iki ana başlığa bölüyor:

Birincisi hizalama. Modeli kendi değerlerimiz ve amaçlarımız ile hizalayarak bu tarz riskli davranışlara girişmesini baştan engelleme.

İkincisi ise gözetim ve emniyet. Eğer model tam olarak hizalanmamışsa bu riskli eylemlere giriştiğinde gözetim ve önlem mekanizmalarımız zarar henüz gerçekleşmeden devreye girip modeli durdurabilir mi?

Anthropic’in hakkını vermek gerekirse bu gerçekten de yalnızca modelin hizalanmasına odaklı tehdit modellerinden daha kullanışlı olabilir, en azından günümüz sistemleri için. Gelecekte geliştirilmesi muhtemel bir yapay süperzeka için bu tehdit modeli yetersiz kalacaktır zira hizalanmamış bir model zaten önüne koyduğumuz tüm engelleri aşacaktır.

Rapor, Anthropic personelinin yüksek riskli dahili çalışmalarda Mythos’un çıktılarına tam olarak güvenmediğini defaatle vurguluyor. Araştırmacılar sonuçları doğruluyor, kodu inceliyor, PR’larını gözden geçiriyor ve modeli becerikli ancak tam anlamıyla güvenilir olmayan bir araç olarak değerlendiriyor.

Anthropic’in de üstü kapalı olarak itiraf ettiği gibi modelin performans düzeyinin tabiri caizse oynak olmasını olası risklere karşı bir hafifletici unsur olarak değerlendiriyor. Model her zaman yüksek performans gösteremediği için Anthropic mühendislerinin çıktılarını sürekli değerlendirmesi gerekiyor.

Bana göre bu iyice kavranması elzem bir husus. Çünkü bunun bize anlattığı şey, naçizane görüşüme göre, şu:

Günümüzdeki güvenliğin büyük bir kısmı, yapay zeka güvenliği araştırmasında kat ettiğimiz mesafeye değil, modelin hala insanların onun çalışmasını sürekli kontrol etmesini gerektirecek kadar oynak bir performans düzeyine sahip olmasından kaynaklanıyor.

Bu bize şunu söylüyor: modellerin performansı gelecekte de bu tempoyla artmaya devam ederse, hizalama başarımız belirgin bir şekilde gerilemese bile, insanlar modelin çıktılarını değerlendirememeye başlayacağı veya model zaten güvenilir bir şekilde istikrarlı performans sergilediği için çıktıları değerlendirmeyi lüzumsuz görmeye başlayacağı için bu güvenlik tamponu erozyona uğrayarak eninde sonunda tamamen kaybolacaktır.

Bunun gerçekleştiği senaryoda insan medeniyetine büyük risk teşkil eden modellerle karşılaşacağız demektir.

Kaynakça

  1. Anthropic. Claude Mythos Preview System Card. 7 Nisan 2026.
  2. Anthropic. Alignment Risk Update: Claude Mythos Preview (Redacted). 7 Nisan 2026.