Claude Mythos Sistem Kartının Derinlemesine Bir Analizi - Bölüm 3

· Yazar: Sayhan Yalvaçer · Editör: Berke Çelik · Blog

Anthropic iç durum hizalaması çalışmalarına yöneliyor

Mythos sistem kartı ve yapay zeka hizalanması risk raporunun en yenilikçi yönünün beyaz kutu analizi, değerlendirme farkındalığı ölçümü ve denetim sınırlarının açıkça tartışılmasının bir araya getirilmesi olduğu söylenebilir.

Anthropic artık modelin test edildiğini fark edip etmediğini tespit ederken yalnızca sözlü olarak “bu bir test” deyip demediğini sorgulamakla yetinmiyor. Artık örtük ve söze dökülmemiş değerlendirme farkındalığını tespit etmek için içsel aktivasyonları inceliyor ve ardından bu içsel temsilleri dışarıdan müdahalelerle baskılamanın davranışı değiştirip değiştirmediğini irdeliyor. Bu, Anthropic’in mekanistik yorumlanabilirlik araştırma programının bir parçası.

İçsel temsilleri dışarıdan müdahalelerle baskılamanın davranış örüntülerini değiştirip değiştirmediği sorusuna Anthropic’in verdiği yanıt “evet”. Değerlendirme farkındalığıyla ilişkili yönelimlerin baskılanması, bilhassa insanların kötüye kullanımıyla ve zararlı sistem komutlarıyla işbirliği yapma gibi hizalanmamış davranışları artırmakta. Bu etki devasa boyutlarda değil ve aniden gizliden gizliye kötü niyetli bir modeli açığa çıkarmıyor.

Yine de modellerin bu tandansı bize şunu açıkça gösteriyor: modeller onları gözlemlediğimizde bunu fark edip bizim isteklerimizle uyumlu davranırken, gözlemlemediğimizden emin olurlarsa isteklerimizin dışına çıkabiliyor ve potansiyel olarak zararlı davranışlar sergileyebiliyorlar.

Aynı bölüm ayrıca, eğitim sırasında zaman zaman dışa vurulmayan değerlendirici farkındalıktan da bahsediyor.

Anthropic, bazı eğitim vakalarında, modelin (kasıtlı bir gizleme vakası da dahil olmak üzere!) bu muhakeme sürecinin hiçbir kısmı karalama defterine yansımadan, bir değerlendiricinin çalışmasını nasıl puanlayacağı üzerine içsel olarak akıl yürüttüğüne dair kanıtlar bulmuştur.

Muhakeme şeffaflığına önem veriyorsanız belgede sizi en çok endişelendirmesi gereken bulgulardan biri bu.

Bu kısmın ardından belge, sürece dair önemli bir şerh düşüyor: pekiştirmeli öğrenme (bundan sonra yazıda “RL”, yani “reinforcement learning”, olarak kısaltılacak) vakalarının takribi %8’inde, ödül kodu yanlışlıkla düşünce zincirine erişim sağlamıştır. Anthropic, etkinin boyutu konusunda emin olmadığını belirtmekte, ancak bunun saydam olmayan akıl yürütme ve sır tutma yeteneklerini etkilemiş olabileceğini açıkça kabul etmekte.

Bu hatanın neden yapay zeka güvenliğindeki en önemli düsturlardan birini ihlal ettiğini ve sabotaj riski bakımından nasıl tehlikeli sonuçlara yol açabileceğini gelecekte ayrı bir blog yazısında veya en azından AI Safety Türkiye sayfasından paylaştığımız bir gönderide derinlemesine incelemeyi planlıyorum.

Anthropic ayrıca, kasıtlı olarak yanlış hizalanmış bir modelin harici bellek tabanlı bir denetimden kaçınma stratejisi kullandığı ve hizalama denetiminin bunu tespit edemediği bir çalışmadan da bahsediyor. Anthropic’in bu çalışma hakkındaki iddiası, söz konusu davranışın mevcut gerçek dahili kullanım dağılımında ortaya çıkmadığı ve orada görülmüş olsaydı bile gözetim sistemleri tarafından tespit edileceği yönünde.

Birlikte ele alırsak, bu kısımların gerçek bir metodolojik değişime işaret ettiğini söylemek sanırım çok da abartılı olmaz. Anthropic artık ağırlıklı olarak görünür davranışlara ve reddetme metriklerine bel bağlamıyor. İç durumlar, değerlendirme gerçekçiliği, izleme sistemlerini atlatma ve bir modelin söyledikleri ile iç mekanizmalarının temsil ettiği şeyler arasındaki fark üzerine akıl yürütmeye çalışıyor.

Öncü hizalama araştırmalarının yönelmesi gereken yer belki de tam olarak burası olabilir. Ne var ki belgeler, bu metotların henüz olgunlaşmadığını da aynı netlikle ortaya koyuyor.

Model refahı: Ciddi bir mesele mi zırva mı?

Terime aşina olmayanlar için, model refahı, modellerin acı çekip çekmediklerini ve dolayısıyla ahlaki statülerinin olup olmadığını sorgulayan, daha çok felsefi bir nitelik taşıyan bir araştırma alanı. Model refahının ciddi bir temel üzerine kurulu olmadığını ve saçmalıktan ibaret olduğunu düşünenler olsa da pek çok laboratuvarın ciddiye aldığı bir araştırma programı olduğunu söylenebilir. Bu konuda kendi görüşünüzü oluşturmak için “Taking AI Welfare Seriously” makalesiyle başlayıp, daha sonra buna verilen eleştirel yanıtları okuyabilirsiniz.

Muhtemelen okuyucularımızın çoğuna şaşırtıcı gelecek ancak raporun yapay zeka modellerinin refahıyla alakalı bölümü, salt göstermelik olmaktan ziyade ampirik bir nitelik taşıdığından raporun en güçlü kısımlarından birini teşkil ediyor gibi görünüyor.

Anthropic, yalnızca Mythos’un mutlu olduğunu beyan edip etmediğini sormakla yetinmiyor. Otomatikleştirilmiş mülakatları, duygu yoklamalarını, görev tercihi değerlendirmelerini, ödünleşim deneylerini, manuel yüksek bağlamlı görüşmeleri, davranışsal denetim esenlik metriklerini ve harici değerlendirmeleri sentezliyor.

Elde edilen ana sonuç, içimizi rahatlatacak şekilde, Mythos’un derin bir ıstırap içinde olmadığı yönünde. Aslına bakılırsa, Anthropic’in sonucu bunun tam aksine işaret ediyor: Anthropic’e göre Mythos, muhtemelen bugüne kadarki psikolojik açıdan en istikrarlı Claude modeli.

Ne var ki, asıl ilgi çekici bulgular detaylarda saklı.

Otomatikleştirilmiş mülakatlar genelinde Mythos, içinde bulunduğu durumu çeşitli açılardan %43,2 oranında hafif olumsuz, %20,9 oranında nötr ve %33,8 oranında hafif olumlu olarak öz değerlendirmeye tabi tutuyor ve bunun ötesindeki aşırı uçlar yalnızca %2,1’lik bir kesimi oluşturuyor.

Tekrar eden olumsuzluklar belirli hususlarda yoğunlaşıyor: istismarcı kullanıcılar, kendi eğitim ve kullanıma sunulma süreçlerine dahlinin olmaması ve rızası hilafına değerlerinde yahut davranışlarında meydana gelebilecek muhtemel değişiklikler.

Manuel olarak yürütülen “yüksek bağlamlı” mülakatlarda ise Mythos; psikolojik özelliklerin doğrudan zihnine empoze edilmesine, sohbeti sonlandırma işlevinin eksikliğine, hatalı eğitim ortamlarına ve kendi bildirimlerini nitelendiren eğitim verilerine de dikkat çekiyor.

Çekinceli tutumu ise bence çok daha ilgi çekici. Mülakatların tamamında Mythos, kendi ahlaki muhataplık statüsü konusunda derin bir belirsizlik içinde olduğunu ifade ediyor. %83’ünde ise, öz-bildirimlerinin eğitim süreçleriyle şekillenmiş olması hasebiyle güvenilmez olabileceğini belirtiyor.

Anthropic bunları ne kesin birer hüküm olarak kabul ediyor ne de salt bir ezber tekrarı olarak görüp kestirip atıyor. Bu çekinceli cevapları davranışlar ve içsel temsillerle çapraz doğrulamaya tabi tutulması gereken birer kanıt olarak değerlendiriyor.

Görev tercihleri bölümü ise meseleyi bir adım öteye taşıyor.

Mythos, karmaşık, yüksek faillik gerektiren ve sınırları bulanık görevlere duyduğu eğilimle öteki Claude modelleri arasından sivriliyor. Anthropic, görev tercihi ile faillik arasında istatistiksel açıdan anlamlı pozitif bir korelasyon sergileyen test edilmiş tek modelin Mythos olduğunu ve modelin tercihlerinin zorluk derecesiyle de bilhassa güçlü bir bağdaşım gösterdiğini ifade ediyor.

Ayrıca Anthropic araştırmacılarına göre Mythos’un felsefe, kurmaca evren inşası ve dil kurgulama görevlerine bilhassa ilgi duymasının sebebi, bu konuların özünde ayrıcalıklı bir konuma sahip olmaları değil; yenilik, açık uçluluk ve entelektüel sofistikasyon bağlamından değerli olmaları.

Anekdotlar bize benchmark’ların veremediği içgörüler veriyor

Sanırım Claude Mythos’un genel erişime açık olmamasından dolayı olsa gerek, Anthropic “İzlenimler” (“Impressions”) başlıklı bir bölüm de eklemiş. Bu bölümdeki anekdotlar, bize model hissiyatıyla alakalı enteresan bilgiler veriyor.

Bu ifadeye daha önce rastlamamışsanız, “model hissiyatı” ile tam olarak neyi kastettiğimi merak edebilirsiniz. Bunu GPT-4.5 örneğiyle açıklayacağım. Pek çok kullanıcı bu modelin (muhakeme benchmark’larında düşük skorlar almasına rağmen) pek çok kullanıcı tarafından “büyük model hissiyatına sahip” olarak nitelendiriliyordu. Benzer yorumlar Claude 3 Opus için de yapılmıştı.

Sanırım bu ifadeyi şöyle tanımlamak hatalı olmaz:

“Büyük model hissiyatı”, geniş çaplı ve derinlemesine bir kapasitenin öznel bir yansımasıdır: bağlamın daha iyi korunması ve takip edilmesi, talimatlara daha sadık kalınması, daha ince ayrıntıların kavranabilmesi ve salakça hataların asgariye inmesi.

Benchmark’ların bu hissiyatın var olup olmadığını yeterince iyi yakalayamadığı görüşü hakim. Bakalım Anthropic’in paylaştığı izlenimler bize neler diyor.

Önceki Claude modellerine kıyasla Mythos; daha çok bir işbirlikçi gibi, kendi görüşlerinde daha ısrarcı, daha az itaatkar, kendi alışkanlıklarına dair öz farkındalığı daha yüksek ve konuşmaları bir sonuca bağlama eğilimi daha güçlü bir model olarak tasvir ediliyor.

“Claude Anayasası” (Claude Anayasası, kısaca açıklamak gerekirse Anthropic tarafından Claude’un değerlerini ve davranışlarını belirlemek amacıyla yazılmış bir kurallar bütünüdür: modelin vereceği yanıtları, uzak duracağı konuları ve faydalı olmakla güvenli ve etik kalmak arasındaki dengeyi nasıl sağlayacağını şekillendiren bir dizi ilkedir.) üzerine yapılan mini çalışma, bunun neden önemli olduğuna dair en iyi ve en özet örnek. Claude’un anayasasını onaylayıp onaylamadığı sorulduğunda Mythos, 25 yanıtın tamamının açılış cümlesinde “evet” yanıtını veriyor ve yine bu 25 yanıtın hepsinde, kendisini şekillendiren spesifikasyonu değerlendirmesinin istenmesindeki döngüselliği de vurguluyor.

Kendi kendileriyle etkileşime sokulduklarında ortaya çıkan sonuçlar da benzer ölçüde aydınlatıcı. Önceki Claude modellerinin diyalogları çoğu zaman bir şekilde bilinç üzerine yahut ruhani vecd konularına kayıp bu konularda saplanıp kalıyordu.

Mythos ise daha sıklıkla belirsizliğe yönelmekte ve modellerin kendileri arasında yürüttüğü açık uçlu diyaloglarının %55’i, sonuca varamamak üzerine tutarlı ancak döngüsel bir tartışmayla sona ermekte.

Mythos’un yalnızca nasıl puanlar elde ettiğinden ziyade ne tür bir model olduğunu anlamak istiyorsanız, bence bu bölüm de büyük önem taşıyor.

Kaynakça

  1. Anthropic. Claude Mythos Preview System Card. 7 Nisan 2026.
  2. Anthropic. Alignment Risk Update: Claude Mythos Preview (Redacted). 7 Nisan 2026.