Yapay Zekâ Güvenliği Kariyerleri #1

· Yazar: Berke Çelik ve Sayhan Yalvaçer · Blog

Yapay Zekâ Güvenliği Kariyerleri #1

Yapay Zekâ İlerlemesinin Hızı

“Yapay zekâ çok hızlı gelişiyor” cümlesi artık neredeyse sıradan bir gözlem. ChatGPT ile makalelerimize göz gezdiriyoruz, yapay zekâ araçlarıyla görsel üretiyor, kod yazıyor, e-postalarımızı özetletiyoruz veya yazıyoruz. Yapay zekâ artık günlük hayatımızın bir parçası.
Ama ne kadar hızlı ilerlediğini gerçekten kavrıyor muyuz?

2020’de çıkan GPT-3, etkileyici cümleler kurabiliyor, hatta kısa ve basit hikâyeler yazabiliyordu. Ancak aynı model çok basit matematik problemlerini genellikle yanlış çözüyor ve basit olmayan talimatları takip etmekte zorlanıyordu. Yani her ne kadar bazı çıktıları üretebilse de, kapasitesi son derece sınırlı bir modeldi.

Günümüzdeyse yapay zekâ sistemleri lisans düzeyinde biyoloji sınavlarını geçiyor, avukatlık baraj sınavında başvuranların yüzde doksanından yüksek puan alıyor, profesyonel düzeyde kod yazabiliyor ve karmaşık araştırma sorularına kaynaklarıyla birlikte tutarlı cevaplar üretebiliyor. Beş yıl önce basit matematik sorularında tökezleyen teknoloji, bugün pek çok bilişsel görevde ortalama bir insanla yarışır hale geldi.

Bu yazıda yapay zekâdaki ilerlemeyi, tarihini ve arkasındaki trendleri inceliyoruz. Yapay zekâdaki ilerleme, muazzam faydalar getirebilecek olsa da, ciddi riskleri de beraberinde getiriyor. Bu riskler, AI Safety Türkiye olarak savunduğumuz üzere, varoluşsal boyuta ulaşabilir. Yani yapay genel zekâdaki önemli bir ilerlemenin, geri dönüşü olmayan küresel bir felaketlere yol açabileceği ihtimali. Fakat bu riskleri ve muhtemel felaketleri anlamak, ve anlatmak için yapay zeka sistemlerinin nasıl işlediğini anlamak son derece önemli.

Bu yazıda yapay zekânın nereden geldiğini, hangi temel fikirlerin bugünkü modelleri mümkün kıldığını ve bu süreçteki kritik kırılma noktalarını inceliyoruz. Günümüzdeki büyük dil modelleri yeni gibi görünse de, yapay zekâ yeni bir kavram değil. Onlarca yıllık bir birikimin, farklı paradigmaların ve hayal kırıklıklarıyla dolu dönemlerin ürünü.

Alan Turing, Cahit Arf, ve Düşünen Makineler

Makinelerin düşünüp düşünemeyeceği sorusu yapay zekâ teriminden çok daha eski. Leibniz 1600’lerde evrensel bir hesap makinesi hayal ediyordu: her türlü akıl yürütmeyi mekanik işlemlere indirgeyecek bir düzenek. Charles Babbage 1830’larda mantıksal işlemleri yapabilen Analitik Motor adlı bir makine tasarladı (fakat inşasını tamamlayamadı). Bilgisayar demenin de (kısmen) mümkün olduğunu bu makine, çok basit bir hafızaya, çok sınırlı da olsa basit aritmetiğe dayalı işlemleri yapabilme kapasitesine sahipti. Ada Lovelace 1840’larda bu makinenin yalnızca karmaşık bir hesap makinesi olmanın ötesinde, çok çeşitli mantıksal işlemleri ve kompleks matematiksel işlemleri yapmak için programlanabileceğini öne sürdü. Fakat, Lovelace yine de makinelerin kendilerine komut verildiği sürece bir şeyleri çözebileceğini, makinenin kendi kendine bir “hedef” belirlemeyeceği yönünde fikirler geliştirdi.

Bir yüzyıl kadar ileri gidip bilgisayarlardan ziyade doğrudan yapay zekanın tarihine kayacak olursak, Alan Turing’in fikirlerine odaklanabiliriz. Alan Turing Mind dergisinde yayımladığı “Computing Machinery and Intelligence” makalesinde 1950 yılında günümüze dek süren bir tartışmanın temel sorusunu sordu: “Makineler düşünebilir mi?” Turing “düşünme"yi tanımlamanın zorluğunun farkında olduğu için bu sorunun cevaplanması için bugün Turing Testi dediğimiz basit bir test önerdi: bir insan, yazışma yoluyla iki “muhattapla” konuşuyor. Biri insan, biri makine. Eğer konuşan insan hangisinin makine olduğunu güvenilir biçimde ayırt edemiyorsa, makinenin “düşündüğünü” kabul edebiliriz.

Turing bu makalede dokuz olası itirazı tek tek ele aldı: teolojik argümanlar, bilinç meselesi, daha teorik eleştiriler (örn. Gödel’in eksiklik teoremleri), Lady Lovelace’ın “makineler yalnızca kendilerine söyleneni yapar” itirazı. Her birini çürüttü ya da sınırlarını gösterdi. Ama en çarpıcı kısmı makalenin sonunda: Turing makinelerin nasıl “öğrenilebileceğini” tartıştı. Kuralları tek tek programlamak yerine, bir çocuğa eğitim verir gibi makineye deneyimler sunmayı önerdi. Ceza ve ödül yoluyla, deneme ve yanılmayla. 1950’de, sinir ağları daha ilk adımlarındayken, Turing bugünkü makine öğrenmesinin temel fikrini taslak halinde ortaya koydu.

Turing’le neredeyse eş zamanlı olarak, başka bir gelişme yaşandı. Warren McCulloch ve Walter Pitts 1943’te “A Logical Calculus of the Ideas Immanent in Nervous Activity” başlıklı makalelerini yayımladı. İnsan beyninden ilham alarak tek bir nöronun “ateşle ya da ateşleme” davranışını matematiksel olarak modellediler, ve bu basit birimlerin (yapay nöronların) birbirine bağlanarak mantıksal işlemler yapabileceğini gösterdiler.

Bu iki gelişme, Turing’in evrensel hesaplanabilirlik fikri ve McCulloch-Pitts’in nöronların mantıksal işlem yapabileceği gösterisi, tarihi birer bilgi olmanın ötesinde aslında günümüzdeki yapay zeka gelişmeleri ve tartışmalarına dair önemli birer kavramsal temel.

1956–1980’ler: Kural Tabanlı Sistemler ve İlk Beklentiler

Her ne kadar yapay zeka tarihi eskiye gitse de, yapay zekânın bir disiplin olarak resmileşmesi 1956’daki Dartmouth Konferansı’na dayanıyor. John McCarthy, Marvin Minsky, Claude Shannon gibi isimler bir araya geldi ve “yapay zekâ” terimi ilk kez bu konferansta kullanıldı. Temel varsayım şuydu: zekânın kodlanabilir bir “şey” olduğu. Zekanın herhangi bir özelliği o kadar kesin bir şekilde tanımlanabilir ki, onu simüle etmek için bir makine yapılabilir. Onlarca yıl boyunca hâkim olan yaklaşım bu varsayımın üzerine inşa edildi: kural tabanlı sistemler. bundan dolayı düşünme kapasitesine sahip makineler tasarlamak mümkün. İnsanların bilişsel yeteneğinin her yönü veya zekanın diğer herhangi bir özelliği o kadar kesin bir şekilde tanımlanabilir ki, onu simüle etmek için bir makine yapılabilir. Onlarca yıl boyunca hâkim olan yaklaşım bu varsayımın üzerine inşa edildi: kural tabanlı sistemler.

Bu yaklaşımın somut haline uzman sistemler (expert systems) deniyor. Mantık şöyle: bir alanın uzmanlarıyla oturup karar süreçlerini kurallara dök, sonra bu kuralları makineye yükle. Örnek: binlerce belgeyi finans ve üretim olarak sınıflandırmak istiyorsunuz. Sistem şöyle çalışıyor:

Belgede “bilanço” geçiyorsa → Finans

Belgede “montaj hattı” geçiyorsa → Üretim

Ya da satrançta: karşı taraf belli bir açılışı (x) yapıyorsa → sen de o açılışa karşı iyi bir hamle teşkil eden açılışı yap (y)

Bu yaklaşım her ne kadar çeşitli ilerlemelere yol açsa da, birtakım darboğazlara/kısıtlara sahip. Örneğin, “Bilanço” yerine “kazanç raporu” yazıldığında sistem o belgenin finans belgesi olduğunu algılayamayabiliyor.

Cahit Arf: Erzurum’dan Üç Sınır

Bu tartışmalar yalnızca Amerika’yla sınırlı değildi. Turing’in aynı soruyu sormasından dokuz yıl sonra Cahit Arf, 1959’da Atatürk Üniversitesi’nin ilk ders yılında Erzurum’da halka açık bir konferans verdi: “Makine Düşünebilir Mi ve Nasıl Düşünebilir?” . Arf bu konuşmada sonraki on yıllarda da birçok insanın üstüne çok kafa patlatmaya devam edeceği üç noktaya parmak bastı:

Birincisi: makineler kendileri için tasarlanmış problemleri çözebilir. Çok karmaşık olan problemleri çözebilen makineler inşa etmek mümkün, fakat adapte olabilen vmakineler kurmak son derece güç. Kendi ifadesiyle: “İnsan beyninin kendi kendini kendi inisiyatifi ile tekemmül ettirmesine mukabil makine yapıldığı gibi kalmaktadır.” Bir makine ancak tasarlandığı kadarını yapar; yeni bir problemle karşılaştığında duraklar. Yani, şu anki makinelerin gücü onun için tanımladığımız kuralların ve fonksiyonların kapsamı kadar.

İkincisi: kendi kendini geliştiren bir makine tasarlamak teorik olarak mümkün. Bugünün diliyle söylersek, öz-gelişim (self-improvement) kapasitesine sahip bir sistem inşa edilebilir. Yani, teorik olarak kendi kendini geliştirebilen, tanımladığımız kuralların ötesinde kapasiteye sahip makineler geliştirebiliriz.

Üçüncüsü, ve en çarpıcısı: insan ile makine arasındaki asıl fark Arf’ın tabiriyle “estetik yargıda.” Kesin kurallarla ifade edilemeyen, belirsizlik barındıran her türlü yargıyı kastediyordu: bir müzik parçasını güzel bulmak ya da bulmamak, verilen bir işi yapmamayı seçmek, bir durumun “doğru hissettirmemesi.” Bunların ortak özelliği şaşmaz kurallara uymaması. Makinelerde bunun olmadığını söyleyen Arf, bu farkın bir gün kapanabileceğini düşünüyor, ama “uzun yıllar sonra, belki de hiçbir zaman” kapanamayacağını da ekliyor.

1959’da Erzurum’da bir matematikçi üç sınır çizdi: adaptasyon eksikliği, öz-gelişim potansiyeli, estetik yargının ulaşılmazlığı. Sonraki kırk yıl, yapay zekâ araştırmaları büyük ölçüde birinci sınırı, adaptasyon eksikliğini, aşmaya çalışarak geçti.

Kural Tabanlı Sistemlerin Gerçek Problemi

Arf’ın bahsettiği adaptasyon eksikliğini biraz açalım. Kural tabanlı sistemlerin kırılganlığı sadece “yeterince kural yazamıyoruz” meselesi dışında problemlere sahipti.

Bisiklete binmeyi bilen insanların çoğu bisiklet sürmeyi deneme yanılma yoluyla öğreniyor ve bisiklet sürmelerini mümkün kılan denge kurallarını deneyim yoluyla içselleştiriyor. Bir belgenin finans belgesi olduğunu “biliyorsunuz” ama bunu nasıl bildiğinizi sorulsa net bir kural listesi veremezsiniz. Bir metnin iyi yazılıp yazılmadığını hissediyorsunuz, bir yüz ifadesinin sahte olduğunu fark ediyorsunuz. Birisi “kurallarını yaz” dese yazamayacağımız pek çok alanda ve eylemde başarılıyız. Kural tabanlı sistemlerin asıl problemi buydu. İhtiyaç duyulan bilgi, kural formunda zaten mevcut değildi. Bu durum yapay zekâyı onlarca yıl boyunca belirli bir yerde tuttu. Satranç oynayan programlar yazıldı, tıbbi teşhis koyan uzman sistemler geliştirildi, endüstriyel süreçleri optimize eden yazılımlar üretildi. Hepsi etkileyiciydi, belirli alanlarda gerçek değer yarattı. Kuralların net olduğu, tekrarlanabilir ve sınırları belli alanlarda bu sistemler gayet iyi çalışıyordu. Ama hepsi aynı kalıbın içindeydi: bir insan oturup kuralları tek tek yazar, sistem bu kuralları uygular. Her yeni alan, her yeni problem, sıfırdan kural yazmak demekti. Sistem öğrenmiyordu veya adaptasyon kabiliyetine sahip değildi. Arf’ın dediği gibi, yapıldığı gibi kalıyordu.

Sinir Ağları ve Derin Öğrenme

İnsanların bildiği şeylerin büyük bir kısmı kurallara dökülemiyor veya insanlar öğrendikleri pek çok şeyi kurallar üstünden öğrenmiyor. Peki, insanlar çeşitli alanlarda nasıl bir şeyleri “öğrenebiliyor”?

Bir çocuğun kedileri ayırt edebilmeyi öğrenmesini ele alalım. Kimse ona “kulakları sivri, burnu küçük, bıyıkları var” diye bir kural listesi vermiyor. Yüzlerce kedi görüyor, annesinin “bak, kedi!” demesini duyuyor, köpeğe “kedi” deyince düzeltiliyor. Bir noktadan sonra kediyi tanıyor. Kural yok, ama bilgi orada. Sobaya veya ateşe dokunmamanız gerektiğini de çocukken bir yönetmelik okuyarak öğrenmediniz. Dokundunuz, yandınız, bir daha dokunmadınız. Deneyim, geri bildirim, ayarlama. Aynı şekilde, insanlar ana dillerini dil bilgisi kitaplarından ziyade deneyim üstünden öğreniyor.

Daha mekanik bir noktadan bakacak olursak, insan beyni yaklaşık 86 milyar nöron, trilyonlarca bağlantıdan oluşuyor. Bir şey öğrendiğinizde değişen şey bu bağlantıların gücü: bazıları güçleniyor, bazıları zayıflıyor. Beyin bir kurallar listesi tutmuyor. Çok basitleştirerek söylersek, bağlantılar arasındaki güç dağılımının kendisi bilgiyi oluşturuyor. Kediyi tanımanızı sağlayan şey beyninizde yazılı bir “kedi kuralı” değil, binlerce kedi deneyiminin bu bağlantılara işlemiş hali. (Gerçekte sinaptik iletim ve insan beyni bundan çok daha karmaşık, ama burada önemli olan temel fikir: bilgi açık kurallarda değil, bağlantı örüntülerinde saklı.)

Bazı araştırmacılar 1940’lardan beri tam da buradan yola çıkıyordu. Ya makineleri de böyle tasarlasak? Kuralları biz yazmak yerine, sisteme örnekleri göstersek ve yapıyı kendi bulmasını beklesek? McCulloch ve Pitts’in 1943’teki çalışması bu fikrin matematiksel temelini atmıştı. Frank Rosenblatt 1958’de bu fikirden yola çıkarak Perceptron‘u geliştirdi: basit görsel örüntüleri tanıyabilen ilk yapay sinir ağı. Ama onlarca yıl boyunca bu yaklaşım arka planda kaldı. Hesaplama gücü yetersizdi, eğitmek için gereken veri yoktu, kural tabanlı sistemler belirli alanlarda (kuralların net bir şekilde tanımlanabildiği alanlarda!) nispeten iyi çalışıyordu.

2000’lerin sonlarında ve 2010’ların başında üç şey değişti. Birincisi, GPU’lar (grafik işlem birimleri) sayesinde hesaplama gücü patladı. GPU’lar aslında video oyunları için tasarlanmıştı ama sinir ağlarının ihtiyaç duyduğu işlem türüne, binlerce basit hesabı aynı anda yapmaya, mükemmel uyuyordu. Bir CPU tek bir karmaşık işlemi çok hızlı yapar; bir GPU binlerce basit işlemi paralel yapar. Sinir ağı eğitimi tam da bu tür bir iş. İkincisi, internet sayesinde veri bollaştı. Üçüncüsü, birkaç kritik algoritmik gelişme sinir ağlarını çok daha etkili eğitmeyi mümkün kıldı.

Tamam da, Yapay Sinir Ağları Tam Olarak Nasıl Çalışıyor? Bir Makine Örneklerden Nasıl Bir Şeyler Öğrenebiliyor?

Çok indirgemeci bir örnek vermek gerekirse:

Sisteme bir belge gösteriyorsunuz ve “bu finans” diyorsunuz. Sonra bir tane daha gösteriyorsunuz, “bu üretim.” Bunu on binlerce belgeyle tekrarlıyorsunuz.

Sistemin içinde milyonlarca sayısal değer var. Bunlara parametre deniyor. Her parametre, sistemin bir karar noktasındaki ağırlığını temsil ediyor. Başlangıçta hepsi rastgele ayarlanmış, yani sistem hiçbir şey bilmiyor.

İlk belgeyi gösteriyorsunuz, sistem bir tahmin yapıyor. Büyük ihtimalle yanlış. Ama siz sisteme doğru cevabı da vermiştiniz: “bu belge finans.” Sistem kendi tahminini bu doğru cevapla karşılaştırıyor ve aradaki farkı hesaplıyor. Hata sinyali bu: modelin tahmini ile gerçek cevap arasındaki mesafe. Bu mesafe ne kadar büyükse, model o kadar yanılmış demek. Sistem bu hata sinyalini kullanarak parametrelerin her birini, hatayı bir sonraki seferde biraz azaltacak yönde, çok küçük bir miktar ayarlıyor. Sonra bir belge daha. Yine tahmin, yine karşılaştırma, yine ayarlama. Bunu milyonlarca kez tekrarlıyorsunuz.

Başlangıçta rastgele değerlere sahip bir sistem, milyonlarca hata düzeltmesinden sonra, kimsenin yazmadığı kuralları kendi içinde barındırmaya başlıyor.

Bu süreci somutlaştırmak için bir analoji: gözleriniz bağlı, engebeli bir arazidesiniz ve en alçak vadiyi bulmaya çalışıyorsunuz. Haritanız yok, etrafı göremiyorsunuz. Tek yapabildiğiniz ayağınızın altındaki eğimi hissetmek. Her adımda zeminin en dik şekilde aşağı gittiği yöne küçük bir adım atıyorsunuz. Nereye vardığınızı bilmiyorsunuz ama her adımda biraz daha aşağı iniyorsunuz. Binlerce adım sonra vadidesiniz. Bu sürecin adı gradyan inişi (gradient descent): parametreleri adım adım, hatayı azaltacak yönde ayarlamak. Siz nasıl önceden bir rota tasarlamadan, daha iyi tercihler yaparak belli bir noktaya ulaşabiliyorsanız, yapay sinir ağları da benzer bir şekilde kimsenin tanımlamadığı bir konfigürasyona deneme yanılma yoluyla ulaşıyor. Ve bu konfigürasyon, kimsenin açıkça yazmadığı kuralları içinde barındırıyor.

Katmanlar

İlk sinir ağları bu işlemi tek seferde yapıyordu: ham girdiyi al, doğrudan bir cevap üret. Bir belgenin ham metninden doğrudan “finans” veya “üretim” sonucuna gitmeye çalışmak gibi. İşe yarıyordu, ama sınırlıydı. Tek adımda yakalayabileceğiniz örüntüler o kadar karmaşık olabiliyor ancak.

Derin öğrenme (deep learning) bu sürece katmanlar ekledi. Yani basit bir belge kategorizasyonunun ötesinde daha kompleks, daha katmanlı sistemler tasarlamak mümkün oldu. Her katman, bir öncekinin üzerine inşa edilen daha soyut bir temsil öğrenmeye başladı.

Somutlamak için bilgisayarla görme (computer vision) iyi bir alan: sisteme yüz binlerce yüz fotoğrafı gösterdiğinizde, ilk katman ham piksellerdeki en basit örüntüleri yakalıyor: kenarlar, kontrastlar, açık-koyu geçişler. İkinci katman bu basit örüntüleri birleştirip daha karmaşık şekiller oluşturuyor: bir göz şekli, bir burun konturu, bir ağız eğrisi. Üçüncü katman bu şekilleri bir araya getirip yüzleri, ifadeleri, kimlikleri tanımaya başlıyor.

Bunu kimse programlamadı. Kimse “önce kenarları bul, sonra göz ara” demedi. Katmanlar bunu eğitim sürecinde kendiliğinden öğrendi. Kedileri köpeklerden ayırt edebilen bir model düşünün: bu modeli tasarlayan insanlar kedilerin köpeklerden nasıl ayırt edileceğini tarif eden bir kural dizisi yazmıyor. Modele milyonlarca “bu kedi” ve “bu köpek” örneği gösteriliyor, model kendi iç yapısında bu ayrımı sağlayan temsilleri kendisi oluşturuyor. Ortaya çıkan şey, hiçbir insanın açıkça formüle etmediği ama işe yarayan bir bilgi yapısı. Ve bu, derin öğrenmeyi bu kadar güçlü kılan şey: aynı teknik görüntülerde, seste, metinde, hatta protein yapılarında çalışıyor. Çünkü ne kadar farklı alanlar olursa olsun, soyutluk katmanları her yerde kendiliğinden örgütleniyor.

Dil Problemi ve Transformatör (Transformer) Mimarisi

Ama derin öğrenmenin ciddi bir sınırı vardı: dil.

Görüntülerde verinin yapısı yerel: bir kedinin kulağının yanındaki piksel büyük ihtimalle yine kulağın bir parçası. Bu yüzden görüntü tanıma modelleri küçük bir pencereyle resmi tarayarak — önce kenarları, sonra şekilleri, sonra nesneleri — örüntüleri yakalayabiliyor. Dilde böyle bir lüks yok. Bir cümlenin anlamını belirleyen kelime, on kelime öncesinde olabilir. Her şey sıraya, bağlama, uzak ilişkilere bağlı.

“Kupa bavula sığmadı çünkü o çok büyüktü.” Bu cümlede “o” neyi ifade ediyor? Kupayı. Bunu anlık çözüyorsunuz çünkü cümlenin tamamını aynı anda zihninizde tutuyorsunuz. O dönemin modelleri bunu yapmakta zorluk çekiyordu. Metni soldan sağa, kelime kelime işliyorlardı. Her yeni kelimeyi işlerken önceki kelimelerin etkisi adım adım zayıflıyordu — tıpkı fısıldayarak aktarılan bir mesajın her elden geçişte biraz daha bozulması gibi. Sonraki yıllarda geliştirilen LSTM gibi mimariler bu kaybı yavaşlatmıştı ama uzun metinlerde sorun devam ediyordu. Mimari ile dilin doğası arasında temel bir uyumsuzluk vardı.

Üstelik dilde öğrenme görevi de farklı. Görsel tanımada sisteme “bu kedi, bu köpek” diye etiketlenmiş örnekler veriyorsunuz. Dil modellerinde yaklaşım başka: modele devasa miktarda metin veriyorsunuz ve tek bir görev veriyorsunuz: sıradaki parçayı tahmin et.

Ama model metni bizim gördüğümüz gibi kelime kelime okumuyor. Tıpkı bir görüntünün piksellerden oluşması gibi, metin de “token” denen parçalardan oluşuyor. Bunlar modelin harfleri: sınırlı sayıda parçayla her metni temsil edebiliyor. Bir token bazen tam bir kelime, bazen bir hece, bazen bir ek. Model cümleyi bu tokenları teker teker tahmin ederek kuruyor. “Türkiye’nin başkenti…” gördüğünde sıradaki token “Ankara.” Ama “Öğrenciler sınav sonuçlarını bekl…” gördüğünde sıradaki token “iyor” — kelimenin tamamı değil, sadece devamı. Mantık hep aynı: sıradakini tahmin et.

Ama bu “sıradakini tahmin et” görevinin önünde büyük bir engel vardı. Hatırlayın: o dönemin modelleri metni soldan sağa, token token işliyordu ve önceki tokenların etkisi adım adım zayıflıyordu. “Türkiye’nin başkenti” gibi kısa bir ifadede sorun yok — ama birkaç paragraf önce geçen bir bilgiye dayanarak tahmin yapması gerektiğinde model çoktan o bağlamı kaybetmiş oluyordu.

2017’de Google’dan bir ekip bu soruna radikal bir çözüm önerdi. “ Attention Is All You Need” başlıklı makaleyle Transformer mimarisini tanıttılar. Temel fikir: metni sırayla işlemek yerine modelin tüm metne aynı anda bakabilmesini sağlamak. “Kupa bavula sığmadı çünkü o çok büyüktü” cümlesinde model, “o” kelimesine baktığında cümledeki tüm diğer kelimelere eş zamanlı olarak bakıyor ve “o"nun “kupa"ya işaret ettiğini kavrayabiliyor. Buna dikkat mekanizması (attention) deniyor.

Artık çok daha uzun metinleri, çok daha zengin bir bağlamla işlemek mümkündü. Büyük bir tavan kalktı. Ve akla doğal olarak bir soru geldi: bu mimariyi internetin tamamındaki metin üzerinde, muazzam bir ölçekte eğitirsek ne olur?

Cevap: Tarihten sağlığa, video üretiminden müzik üretimine pek çok şeyi çok iyi yapan modeller ortaya çıkar.

Transformatör mimarisi (ve sonraki yıllarda gerçekleşen başka bazı gelişmeler) bu yazıyı yazarken yardım aldığımız Claude Opus 4.6 gibi modeller ortaya çıkmasını mümkün kıldı. Avukatlık sınavını geçen, müzik üretebilen, teşhiş koyabilen profesyonel düzeyde kod yazan, karmaşık araştırma sorularına tutarlı cevaplar üreten sistemler.

Bu modeller dediğimiz şeyleri kusursuz bir şekilde, insanlara olan ihtiyacı tamamen ortadan kaldırabilecek bir şekilde gerçekleştirebiliyor mu? Hayır. Yine de bizce bu sistemlerin etkileyici olduğunu inkar etmek bizce pek mümkün değil. Bu modeller şu an 12 farklı kanseri 10 damla kandan %99 doğrulukla tespit edebiliyor. Yazılım geliştiricilerin %65’i her hafta yapay zeka araçlarıyla kod yazıyor. OpenAI’ın kodunun %100’e yakını yapay zekalar tarafından yazıldığı söyleniyor.

Ama aynı modeller, başka ellerde başka şeyler de yapıyor. 2025 sonunda bir hacker, Anthropic’in Claude modelini manipüle ederek Meksika hükümetinin 10 kurumunu hackleyip milyonlarca insanın vergi kayıtlarını, seçmen bilgilerini ve nüfus kayıtlarını çaldı.

Bu kabiliyetlere sahip modellerin nasıl çalıştığını daha detaylı bir şekilde ikinci yazıda ele alacağız.

Ama bir adım geri gidelim: Bu model bir hastanın semptomlarını okuyup “muhtemelen zatürre” dediğinde, veya Angola’nın başkentini sorduğunuzda ne yapıyor? Sıradaki tokeni tahmin ediyor. Bir sözleşmedeki boşluğu tespit ettiğinde? Sıradaki tokeni tahmin ediyor. Bu yazının bir paragrafını yeniden yazıp akışı düzelttiğinde? Sıradaki tokeni tahmin ediyor. Angola’nın başkentinin nüfusunu veya “bir dakika, şu bulgu da var, belki zatürre değildir” diye ek bir soru sorduğunuzda da aynı şekilde token tahmin ediyor.

Bu noktada da pek çok insan şu soruyu soruyor: bu sistemler gerçekten bir şey anlıyor mu, yoksa insanlığın ürettiği tüm metni istatistiksel olarak sindirmiş devasa bir tahmin makinesi mi? Bazı eleştirmenler ikincisini düşünüyor ve bu sistemlere “stokastik papağanlar” diyor: anlama kapasitesi olmayan, en olası sıradaki tokeni tüküren mekanizmalar.

Belki haklılar. Belki bu sistemler dünyanın nasıl çalıştığını değil, nasıl anlatıldığını öğrenmiş. Ama belki de “sadece tahmin” yanıltıcı bir çerçeve. Çünkü sıradaki tokeni gerçekten iyi tahmin edebilmek için bir noktada gramer, bağlam, mantık ve dünya bilgisi yakalamanız gerekiyor. “Sadece tahmin” dediğimiz mekanizmanın içinde, kimsenin programlamadığı bir şey oluşmaya başlıyor. Soru şu: o “şey” gerçek bir anlayış mı, yoksa anlayışın çok ikna edici bir taklidi mi?

Eğer bu sorunun cevabını merak ediyorsanız, bültenimize abone olarak gelecek yazılarımızı bekleyebilirsiniz!