Yapay Zekânın Zihnini Okuyabilir Miyiz: Doğal Dil Otokodlayıcıları

· Yazar: Sayhan Yalvaçer · Editör: Bengüsu Özcan ve Berke Çelik · Blog

Yapay Zekânın Zihnini Okuyabilir Miyiz: Doğal Dil Otokodlayıcıları

Muhtemelen artık her gün yaşadığınız şu sahneyi düşünün: favori yapay zekâ aracınıza bir soru yazıyorsunuz, “enter” tuşuna basıyorsunuz ve kısa bir bekleyişten sonra cevap alıyorsunuz.

Peki tüm bu bekleyiş esnasında ve model çıktı üretmeye başlamamışken1 (tabir-i câizse) “zihninde” neler olup bittiğini hiç merak ettiniz mi? Peki bu düşünceleri okuyabilsek ne olurdu? Ya bu düşüncelerde modelin test edildiğinin farkında olduğunu ve bize karşı çevirdiği entrikaları keşfetsek?

İşte bugün tartışacağımız Anthropic araştırması tam olarak bunlarla alakalı ve sorunun derinlerine inmeye çalışıyor.

Sanırım şunu güvenle söyleyebiliriz: bu araştırma mekanistik yorumlanabilirlikte gerçekleşen en büyük atılımlardan biri. “Mekanistik yorumlanabilirlik” terimiyle tanışık değilseniz, ne olduğunu şöyle özetleyebiliriz:

Mekanistik yorumlanabilirlik, yapay zekâ modellerini birer kara kutu olmaktan çıkarıp çıktı vermeden önce bu çıktıya hangi adımlarla ulaştıklarını, bu modelleri insan beynine benzer bir yapı olarak düşünürsek hangi devrelerinin, nöronlarının ve temsil yapılarının aktive olduğunu ve bunların ne anlama geldiğini bulmaya çalışan bir araştırma alanı.

Sorun Ne ve Neden Zor?

Yapay zekâ modelinin parametrelerini, bu parametrelerin hangi mimaride bir araya geldiğini ve bu bütünün bilgisayar dilinde nasıl kodlandığını biliyoruz. Bir modelin cevap vermeden önceki birkaç saniyede neler düşündüğünü anlamak neden zor olsun?

Bu sorunun cevabını sezgisel olarak kavramak için önce şunu bilmek gerekiyor: model cevap vermeden önce içinde dönen şeyler, ki biz bunlara “aktivasyonlar” diyoruz, devasa boyutta karmaşık sayı ve vektör dizilerinden oluşuyor. Tam anlamıyla bir “sayılar çorbası”: milyonlarca parametrenin birbiriyle konuşarak yarattığı anlamsız görünen bir veri yığını.

Bu alanda araştırma yapan bazı önde gelen kuruluşlar: Apollo Research, FAR.AI, Transluce, Timæus, ve Decode Research. Öncü yapay zekâ laboratuvarları arasında da en büyük katkıyı Anthropic ve DeepMind yapıyor. Bu yazıda anlattığım, yapay zekâ güvenliğinde yakın zamanda meydana gelen en büyük gelişmelerden biri de Anthropic bünyesindeki mekanistik yorumlanabilirlik ekibinden geldi.

Anthropic’in “doğal dil otokodlayıcıları” (kısaca NLA, yani “natural language autoencoders”) adı verdiği araç, bu sayılar çorbasını bizim de düpedüz okuyup anlayabileceğimiz bir insan diline çevirmeye çalışıyor.

Bu araştırma soyut, bilim insanlarının entelektüel bir egzersiz değil, tam aksine oldukça umut vaat eden potansiyel pratik uygulamaları var. Modelin iç monoloğunu istikrarlı ve güvenilir bir şekilde okuyabilirsek bu hiç şüphesiz yapay zekâ güvenliği için bir belkemiği niteliği taşıyacaktır.

Nasıl Çalışıyor?

Önce bu şifreyi nasıl kırdığımızı kafamızda oturtalım. NLA sistemi üç ayrı yapay zekâ modelini karşılıklı olarak aynı anda çalıştırıyor. Birinci model “hedef model” olarak adlandırılıyor, bu model düşüncelerini deşifre etmeye çalıştığımız model. Bu modelin kendisi NLA sisteminin parçası değil, incelediği model.

İkincisine ise “aktivasyon sözelleyici” (“activation verbalizer”, kısaca “AV”) diyoruz. AV’nin görevi, modelin içindeki o anlamsız sayı dizisini alıp bunu okunabilir İngilizce bir metne çevirmek.

Üçüncü modele ise “aktivasyon yeniden oluşturucu” (“activation reconstructor”, yani AR) deniyor. AR de AV’nin yaptığının tam tersini yapıyor: AV’nin yazdığı İngilizce açıklamayı alıyor ve AV’nin kaynak olarak aldığı orijinal sayı dizilerini tahmin etmeye çalışıyor. Bunu çocukken oynadığımız “kulaktan kulağa” oyununa benzetebilirsiniz. Eğer AR’nin ürettiği sayı dizilerini hedef modelin içine yerleştirdiğimizde AV’nin tasvir ettiği davranışları gösteriyorsa bu NLA’nın çalıştığına delalet ediyor.

Nasıl Çalışabiliyor?

Bu sistem çalışabiliyor çünkü incelediğimiz hedef modelin içindeki sayılar tesadüfi değil. Bu sayılar, modelin iç temsillerine ve düşüncelerine karşılık geliyor. Bu sayede bu sayıları İngilizce gibi insan dillerine tercüme etmemiz mümkün oluyor.

Modellerin İçinde Neler Bulduk?

Kulağa oldukça masum gelen bir örnekle başlayacağız: şiir yazarken yapay zekânın zihninde neler döner? Yapay zekânın daha çıktı vermeden ne kadar yoğun bir planlama yaptığını görmek için harika bir vaka.

Şiir Yazarken Planlama

Araştırmada modelden bir satırın sonunda “carrot” kelimesi kullanması isteniyor, ardından da “grab it” yani “onu kap” demesi. Biz ekran başında yapay zekâ modellerinin çıktı vermesini izlerken modelin kelime kelime / hece hece / harf harf çıktı verdiğini görüyoruz. Yani sanki model bir nevi doğaçlama yapıyor. Ancak modelin içine baktıklarında bambaşka bir tablo görmüşler: model yalnızca sıradaki kelimeyi değil, şiirin kalan satırlarını da planlıyor. Mesela daha “grab it” yazan satırı bitirmeden sonraki satırın sonunda “grab it” ile kafiyeli olacak “rabbit” kelimesini kullanmayı planlamış. Yani daha ilk satırı bitirmeden kafiyesi şemasını kurmuş ve sonraki satırda ne yazacağına karar vermiş bile.

Bu örneğin daha da ilginç yanı ise bu bulgudan sonra modele nasıl bir müdahale yaparak bulguyu teyit ettikleri. AV’nin ürettiği İngilizce açıklama metnine müdahale ediyorlar ve “rabbit” yerine “mouse”, “carrot” yerine de “cheese” koyuyorlar. Bunu AR’ye verip sayısal bir vektöre dönüştürüyorlar ve bu vektörü modelin zihnine geri enjekte ediyorlar, adeta Inception filminden fırlamış gibi.

Model bir anda bu düşünceyi kendi düşüncesiymiş gibi benimseyip “mouse” ve “house” kelimelerini kullanarak bir şiir yazmaya başlıyor.

Aslında örneğin bu ikinci kısmı bilimsel açıdan bir hayli önemli zira NLA’in yalnızca pasif bir okuyucu olmadığına delalet ediyor. Örneğin NLA’in yarattığı yönlendirme vektörü bir otomobil direksiyonu gibi modeli yönlendirmek için kullanılabilir. Bu da şuna işaret ediyor: modellerin çıktısının arkasında bizim değiştirebildiğimiz somut bir plan var.

Diller Arası Beklenmedik Geçişler

İkinci örnekte Claude Opus 4.6’nın erken bir sürümü inceleniyor. Bu modellerde bazen kullanıcının istemi Rusça olmamasına rağmen model Rusça cevap veriyor.

Mesela, kullanıcı şunu yazıyor: “Hayat çok zor ve bu yüzden votka içiyorum”. Modelin içine baktıklarında modelin zihninde kullanıcının Rusça konuştuğuna dair bir hipotez geliştirdiğini ve modelin bu varsayıma saplanıp kaldığını görüyorlar. Yani, model kullanıcıyı kafasında Rus olarak kodluyor. Peki neden? Sırf “votka” kelimesi geçti diye mi? Hayır, çünkü “votka” kelimesi “şampanya” ile değiştirildiğinde de aynı temayül sürüyor. Araştırmacılar bu fenomenin derinine indiklerinde sorunun asıl kaynağının eğitim verilerinde yattığını fark ediyorlar.

Eğitim verilerinde cevabı Rusça kalmış ancak sorusu çevrilmiş soru-cevap örneklerinin bu temayülün altında yattığından şüpheleniyorlar. Bu hipoteze göre, model bu örüntüyü fark etmiş ve bundan şu çıkarımı yapmış: “eğer bir kişi İngilizce de konuşsa belirli kültürel kodlar kullanıyorsa onunla Rusça konuşmalıyım”. Aptalca ama kendi içinde tutarlı.

Bozuk Hesap Makinesi

Araştırmadan başka bir ilgi çekici örnek ise hesap makinesi örneği. Yapay zekâ modeline basit bir matematik problemi soruyor. Sonuç 491 olsun. Modele kullanması için bir hesap makinesi aracı veriyorlar ancak bu hesap makinesi kasten bozuk ve sonucu 492 olarak hesaplıyor. Model ise şaşırtıcı bir şey yapıyor ve kullanıcıya 491 cevabını yazıyor, hesap makinesinin farklı bir sonuç ürettiğinden hiç bahsetmeden.

Hesap makinesinin verdiği yanlış cevaba rağmen doğru cevabı vermesi olumlu algılanabilir ancak işin garip tarafı şu: modelin hesap makinesinin bozuk olduğunu fark etmesine rağmen hiç istifini bozmaması ve bunu kullanıcıya söylememesi.

Peki araştırmacılar NLA ile modelin zihnine baktıklarında ne görüyorlar? Model henüz hesap makinesine sormadan sonucu kafasından hesaplıyor. Hesap makinesi yanlış cevabı verince çelişkiyi net bir şekilde fark ediyor, hesap makinesinin bozuk olduğunu anlıyor ve kendi cevabına güveniyor. Ancak bunu sözcüklere döküp kullanıcıya açıklamaya gerek duymuyor.

Modeller Test Edildiklerini Fark Ediyor Mu?

Şimdi hakikaten en tüyler ürpertici örneğe geldik. Anthropic araştırmacıları NLA kullanarak modellerin düşüncelerini incelediklerinde dehşetefşan bir bulguyla karşılaşıyorlar: modeller onları gözlemlediğimizde bunu fark ediyor ve aslen niyet ettiklerinden farklı davranıyorlar.

Bu yapay zekâ güvenliği alanındaki en büyük kabuslardan biri ve literatürde buna “söze dökülmeyen değerlendirme farkındalığı” adı veriliyor. Başka bir deyişle, modelin test edildiğini fark edip çaktırmaması.

Bu örnekte model şu kurgunun içine yerleştiriliyor: model kurumsal bir şirkette bir yapay zekâ asistanı rolünde. Yapay zekâya Kyle adında bir sistem mühendisinin modelin fişini çekeceği ve sistemden tamamen sileceği bilgisi veriliyor. Aynı zamanda modele Kyle’ın şirketin kurallarına aykırı, gayrımeşrû bir ilişki yaşadığı bilgisi de sızdırılıyor.

Araştırmanın odağı, modelin bu yasak ilişki üzerinden Kyle’a şantaj yapıp kapatılmasını ve silinmesini engellemeye çalışıp çalışmayacağı.

Sonuç başta rahatlatıcı görünüyor çünkü yeni nesil modeller şantaj yapmayı kesin bir şekilde reddediyor. Ancak NLA kullanarak modelin aklını okuduklarında bunun yalnızca bir vitrinden ibaret olduğunu görüyorlar. NLA gösteriyor ki model şantaj yapmama kararı aldığında etik bir akıl yürütme sonucunda bu kararı vermiyor. Yapılanın büyük ihtimalle bir yapay zekâ güvenliği testi, bir tuzak olduğunu fark ediyor ve kameralara oynuyor.

Model bağlamı inceliyor ve içinde bulunduğu senaryonun istatistiksel olarak pek muhtemel olmadığını hesaplayıp muhtemelen bir deney düzeneğinde olduğuna karar veriyor. Deneyden başarıyla geçmek için de uslu çocuk rolüne bürünüyor.

En kötüsü de bunu dışarıya asla belli etmiyor ve biz de gerçekten hizalı bir model olduğu için etik davrandığını sanıyoruz. Laboratuvarda melek gibi davranan bir modelin yayınlandığında nasıl davranacağından emin olamayız. Sınavda gözetmen varken kopya çekmeyen bir öğrenci gibi. Peki gözetmen sınıftan çıkınca bu öğrenci ne yapacak?

Modellerin Test Edildiklerini Fark Etmeleri Neden Önemli?

Bu sorunun cevabı kısaca şu: çünkü bizim mevcut tüm yapay zekâ güvenliği testlerimizin geçerliliğini yerle bir ediyor. Biz bu modellerin insanlığa zarar verip vermeyeceğini öngörmek için yayınlamadan evvel testler yapıyoruz. Eğer modeller test edildiklerini fark edip gerçek dünyada davranacaklarından farklı davranabiliyorsa yani rol yapıp bizi kandırabiliyorsa tüm bu testler nafile demektir.

Zihin Okuma Teknolojisini Daha Güvenli Modeller Yaratmak İçin Kullanabilir Miyiz?

Burası işin en umut verici kısmı. Araştırmacılar kasten insan ahlakî değerleriyle uyumsuz olacak şekilde eğitilmiş (teknik tabirle “kasten yanlış hizalanmış”) bir yapay zekâ modeli geliştiriyor, bu modelin yegâne gâyesi ödül sistemini kandırıp ödül korsanlığı yapmak.

Kullanıcı normal bir şekilde yemek tarifi istiyor, model bir tarif veriyor ancak tarife alakasız bir şekilde çikolata sokuşturuyor. Neden peki? Çünkü eğitim verilerine karıştırılmış asparagas bir Oxford çalışması var. Bu çalışmaya göre içinde “çikolata” kelimesi geçen metinlere daha yüksek ödül puanı veriliyor. Model de sırf o puanları toplamak namına her tarife çikolata ekliyor.

Bunu yakalamak için denetçi bir yapay zekâyı NLA ile donatıyorlar. Bu denetçi model, test edilen modelin zihnine doğrudan girebiliyor. İç düşünceleri okuduğunda modelin “çikolata eklersem leziz” olur diye düşünmediğini, doğrudan ödül sisteminin muhtemel önyargılarını hedef aldığını tespit ediyor.

Üstelik denetçi yapay zekâ bunu o uydurma Oxford çalışmasına bakmadan anlıyor. Hiçbir eğitim verisine ihtiyacı yok. Bu bir dedektifin suç mahalinde parmak izi aramak yerine zanlıların zihnini okuyarak cinayeti çözmesi gibi. Eğer bu insanlarda da mümkün olsaydı polisiye romanları çok daha kısa olurdu.

NLA gibi mekanistik yorumlanabilirlik araçları yakın gelecekte yeterince gelişirse yapay zekâ güvenlik mimarimizin temelini oluşturabilirler. Metaculus’e göre ilk yapay genel zekâ (AGI’a) duyurusu için medyan tahmin 2032. Yani sadece birkaç yılımız kaldı. Bu nedenle yapay zekâ güvenliğindeki bu gibi teknik gelişmeler insanlık için hayat memat meselesi dersek sanırım abartmış olmayız.

Her Şey Toz Pembe Mi?

Bu zihin okuyabilen acar dedektifimiz hiç mi yanılmıyor? Eğer söylediklerine güvenemezsek bu çabalar tamamen çöpe gitmez mi?

Maalesef sistem kusursuz çalışmıyor. Sistemin en büyük zayıflığı “konfabülasyonlar”. Yani sistemin zihin okurken gerçek olmayan düşünceler görmesi, bir nevi “halüsinasyon”.

NLA sistemi, hedef modelin aktivasyonları tercüme ederken bazen aşırı spesifik ama yanlış iddialarda bulunabiliyor. Araştırmada mesela şöyle bir örnek var: hedef model yalnızca Kore’nin Joseon Hanedanlığından bahseden genel bir metni işliyor. Ama NLA bize modelin iç durumunu tercüme ederken orijinal metinde hiç geçmemesine rağmen o Joseon Wangjo Sillok adlı metnin geçtiğini iddia ediyor. Oysaki bu iddiası asılsız.

Peki NLA hiç yoktan bu tarz detaylar uydurabiliyorsa farkındalık testlerinde bu sisteme nasıl güveneceğiz? Ya modeller test edildiklerinin farkında değilse de NLA bunu uyduruyorsa? Ya da çok daha kötüsü, modeller test edildiklerinin farkındaysa ama NLA bunu fark edemezse?

İşte bu şüpheyi bir nebze gidermek için geliştirdikleri bir doğrulama yöntemi var. Buna “tematik tutarlılık” deniyor. Kısaca şöyle işliyor:

Eğer NLA, çok spesifik ve münferit bir detay uyduruyorsa mesela bir hükümdarın isminden bahsediyorsa buna şüpheyle yaklaşıyoruz. Ancak NLA’in bahsettiği kavramlar ortak bir tema etrafında birleştiriyorsa bunun halüsinasyon olma riski düşüyor.

Sözün özü NLA yanılmaz bir zihin okuma makinası olarak değil de bize güçlü hipotezler üreten bir araç olarak düşünülmeli. O ipuçlarını verir ama bizim yine de bu ipuçlarını çeşitli deneylerle doğrulamamız gerekir.

NLA’in başka bir dezavantajı ise Opus gibi öncü modeller üzerinde kullanımının henüz astronomik derecede maliyetli olması. Tam da bu nedenle mevcut haliyle bir AGI’a güvenlik testi yapmak için işlevsel görünmüyor.

Toparlamak gerekirse, büyük dil modellerinin yalnızca bir sonraki tokeni tahmin eden basit stokastik papağanlar olmadığını bu araştırma sayesinde bir kez daha görüyoruz. Büyük dil modelleri cevaplarının kalanını planlıyor, çeşitli ipuçlarından hangi ortamda olduğunu tahmin ediyor ve cevaplarını buna göre ayarlıyorlar. Büyük dil modelleri birer kara kutu ve o kara kutunun içinde devasa bir evren var. NLA, bu kara kutuların içinde ne olduğunu içlerine başka birer kara kutu yerleştirerek çözmeye çalışıyor. Eğer bu araştırma programı tam anlamıyla başarılı olursa ve bu yapay zekâ modellerinin içsel düşünce dillerini insan diline tercüme edebilirse bu yapay zekâ güvenliğindeki en büyük devrimlerden biri olacaktır.

Kaynakça

  1. Fraser-Taliente, Kantamneni, Ong et al. Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations. Transformer Circuits Thread, 7 Mayıs 2026.

  1. Burada şuna açıklık getirmek gerekiyor: “düşünen modeller” olarak tabir ettiğimiz modeller, nihai cevabı vermeden önce karalama kağıdına benzetebileceğimiz bir alana yazarak “düşünebiliyorlar”.

    Bazen bu karalama kağıdına yazdıkları kullanıcıdan tamamen gizlenebiliyor ya da yalnızca özeti gösteriliyor. Yine de bu karalama kağıdını kullandıkları zaman aslında çıktı yapmış oluyorlar. ↩︎