Yapay Zekâ Güvenliği Kariyerleri #2

· Yazar: Berke Çelik ve Sayhan Yalvaçer · Blog

Yapay Zekâ Güvenliği Kariyerleri #2

Büyük dil modelleri: Ölçeğin gücü

Ölçek, tezahür (emergence) ve RLHF

Bir önceki yazıyı şu soruyla bitirmiştik: Transformer mimarisini internetin tamamındaki metin üzerinde, muazzam bir ölçekte eğitirsek ne olur?

Kısa cevap: hem beklenenden çok daha fazlası, hem de beklenmeyen bir şekilde. Modeller büyüdükçe yalnızca hata oranları düşmedi. Belirli eşiklerin üzerinde, kimsenin doğrudan programlamadığı yeni beceriler görünür hale geldi. Bu yazıda o süreci, arkasındaki ölçeklendirme dinamiklerini ve bizi bugünkü modellere getiren kırılma noktalarını inceliyoruz.

Eğer token, sinir ağı, transformer mimarisi gibi kavramlar yabancı geliyorsa, önce serinin birinci yazısını okumanızı öneririz.

İşte büyük dil modelleri (LLM) dediğimiz şey, temelde bu fikrin çok büyük ölçekte uygulanmış halidir. Böyle bir model, devasa metin kümeleri üzerinde eğitilir ve temel görevi kendisine verilen bir metin dizisinden sonra hangi kelime ya da kelime parçasının (buna teknik olarak “token” deniyor) gelmesinin daha olası olduğunu tahmin etmek. Kulağa aşırı basit gelse de bu görev, modeli dil bilgisi, bağlam, dünya bilgisi ve talimat takibi gibi becerileri öğrenmeye zorluyor.

2020’de OpenAI, bu yaklaşımın ilk büyük kırılma anlarından biri olan GPT-3’ü yayımladı.

Modelin 175 milyar parametresi vardı. Parametreler, modelin içinde öğrenilmiş sayısal ağırlıklar ve eğilim değerleridir: eğitim boyunca sürekli güncellenir ve modelin hangi kelimeyi, hangi ilişkiyi, hangi örüntüyü daha olası gördüğünü belirler.

Bu sayı 175 milyar ayrı kural anlamına gelmiyor. Modelin bilgisi tek bir yerde durmuyor; eğitim boyunca küçük küçük ayarlanmış çok geniş bir bağlantı örüntüsüne dağılmış durumda.

Mesela model “Türkiye’nin başkenti …” ifadesini gördüğünde “Ankara"yı “İstanbul"dan daha olası sayıyorsa, bu farkı yaratan şey bu öğrenilmiş ağırlıklardır. Aynı şekilde bir cümlenin tonunu, bir sorunun matematik problemi olup olmadığını ya da bir kelimenin bağlama göre hangi anlama geldiğini de yine bu parametreler belirler.

GPT-3’ün farkı, bu öğrenilmiş ayarların sayısının önceki modellere kıyasla dramatik biçimde artmış olmasıydı. Bu niceliksel artış, bazı görevlerde niteliksel bir sıçrama gibi görünmeye başladı.

Daha fazla parametre, modelin dildeki daha ince ilişkileri ve uzak bağımlılıkları temsil edebilmesi anlamına geliyordu. GPT-3’te dikkat çekici olan, bunun bazı görevlerde yeni bir davranış türü gibi belirmesiydi.

GPT-3’e “Bu müşteri yorumu olumlu mu olumsuz mu?”, “Bu Fransızca metnin İngilizcesi ne?”, “Bu paragrafı tek cümlede özetle.” diye sorabiliyordunuz: model bu görev için özel olarak eğitilmemiş olsa bile makul cevaplar verebiliyordu. Araştırmacılar buna sıfır-atışlı (zero-shot) öğrenme diyor: modele yeni bir görevi öğretmek için örnekler vermenize gerek kalmadan, doğrudan sorabiliyorsunuz ve model, daha önce hiç karşılaşmadığı bir talimatı çoğu zaman doğru bir şekilde takip edebiliyor.

Buradaki tuhaflık tam da buydu. Küçük modellerde hiç olmayan bir yetenek, belirli bir ölçeğin üzerinde birdenbire ortaya çıkıyordu.

Öngörülemeyen yetenekler

Araştırmacılar bu fenomene tezahür (emergence) dedi. Bu terim önemli, çünkü aynı anda iki şeyi anlatıyor: modellerin neden şaşırtıcı biçimde işe yaradığını ve neden güvenlik açısından huzursuz edici olduğunu.

Gerçek dünyadan basit bir analoji:

Suyu ısıtıyorsunuz. 60 santigrat derecede sıcak su, 80 derecede daha sıcak su. Ama 100 derecede niteliksel olarak farklı bir şey oluyor: su kaynamaya başlıyor. Sıcaklık artışı kademeli ama kaynama ani. Ortaya çıkan şey (hal değişimi / faz geçişi) girdideki değişimden (sıcaklık) tahmin edilemez değil ama doğrusal olarak da ortaya çıkmıyor. Felsefede buna yakın durumlar için bazen zayıf tezahürden (weak emergence) söz edilir.

Büyük dil modellerinde benzer bir şey gözlemlendi. Bir modeli ölçeklendirdikçe (daha fazla parametre, daha fazla veri, daha fazla hesaplama gücü) kimi beceriler kademeli olarak gelişiyor. Ama bazı beceriler öyle değil: belirli bir eşiğin altında sıfır performans, eşiğin üzerinde aniden iyi bir performans. Çok adımlı aritmetik problemleri, bazı mantık görevleri, analojiyle akıl yürütme… Bunlar küçük modellerde hiç çalışmıyordu, belirli bir ölçeğin üzerinde çalışmaya başladı.

Ama her ani sıçrama gerçek bir faz geçişi olmak zorunda değil. Bazı durumlarda sıçrama, modelden çok ölçüm biçimimizden kaynaklanıyor olabilir.

Burada oturup bir düşünmek gerekiyor: Eğer faydalı yetenekler böyle öngörülemez şekilde ortaya çıkıyorsa, tehlikeli yetenekler de aynı şekilde ortaya çıkabilir. Bir modeli eğitirken, eğitim bitip modeli test edene dek o modelin tam olarak ne yapabileceğini bilemezsiniz. Stratejik planlama ya da insanları yanıltmaya dönük davranışlar da belirli bir ölçeğin üzerinde “açılabilecek” yetenekler olabilir. Ve bu, geliştiricilerin “önce geliştir sonra güvenliğini test et” yaklaşımının neden yapısal olarak tehlikeli olduğunu gösteriyor: testlerde görünmeyen bazı davranışlar, model yeni bağlamlarda kullanıldığında sonradan ortaya çıkabilir.

Peki bu sıçramalar bu kadar öngörülemezse, neden araştırmacılar yine de daha büyük modeller eğitmeye devam etti? Çünkü paralel olarak, ölçek arttıkça performansın da şaşırtıcı biçimde düzenli arttığını gösteren başka bir bulgu ortaya çıkmıştı.

Ölçeklendirme kanunları

2020’de OpenAI araştırmacıları (Kaplan et al.) dil modelleri için ölçeklendirme kanunlarını (scaling laws) inceleyen bir makale yayımladı. Buldukları şey kabaca şuydu: özellikle eğitim kaybı (loss), üç değişkenin (parametre sayısı N, eğitim verisi miktarı D ve kullanılan hesaplama gücü C) düzgün ve öngörülebilir bir fonksiyonu gibi davranıyordu.

Kâğıt üzerinde bu ilişki neredeyse bir fizik kanunu kadar temiz görünüyordu. Modele daha çok kaynak verdiğinizde sonuç rastgele savrulmuyor, kabaca çizilebilen bir eğriyi izliyordu. Parametre sayısını, veri miktarını ya da hesaplama gücünü artırdığınızda kaybın ne kadar azalacağını da yaklaşık olarak tahmin edebiliyordunuz.

Modelin “kaybı” (loss), yani bir sonraki kelimeyi tahmin ederken yaptığı hatanın “büyüklüğü”, bu değişkenlerle keyfekeder biçimde değil, düzgün ve öngörülebilir bir eğri boyunca azalıyor gibiydi. Ölçeklendirme böylece körlemesine deneme-yanılma olmaktan çıkıp, sonucu kabaca hesaplanabilir bir mühendislik problemine dönüşüyordu.

2022’de DeepMind’ın Chinchilla araştırması bu tabloyu bir adım ileri taşıdı. Buldukları şey şuydu: GPT-3 gibi modeller, sabit bir hesaplama bütçesi açısından bakıldığında, boyutlarına kıyasla yetersiz veriyle (yani çok az tokenla) eğitilmişti. Sabit bir hesaplama bütçesi için, parametreleri ve veriyi belirli bir oranla birlikte ölçeklendirmenin optimal olduğunu gösterdiler. Yani devasa ama az veriyle eğitilmiş bir model, daha küçük ama doğru miktarda veriyle eğitilmiş bir modelden daha kötü olabiliyordu.

Ölçeklendirme kanunlarının acayip ve rahatsız edici yanı şu: Bu yasalar olağanüstü düzenli, ama neden böyle olduklarını kimse tam olarak açıklayamıyor. Biliyoruz ki daha fazla hesaplama daha iyi performans ile ilişkilidir.

Ama sinir ağının içinde bu ek kapasite tam olarak ne yapıyor? Hangi “bilgi” ekleniyor? Neden ilişki tam da bu matematiksel formu alıyor? Bunlar açık sorular. Modellerin yeteneklerini öngörebilmemizi sağlayan gözlemlenebilir bir düzenlilik var fakat bu düzenliliğin altında yatan teorik anlayış noksan.

Eğer bu sizi rahatsız etmiyorsa, etmeli. İnsanlık olarak, tam olarak neden çalıştığını bilmediğimiz bir sistemi, çalışmaya devam edeceği varsayımıyla ölçeklendirmeye devam ediyoruz. Buna “kontrol altında bir süreç” demek zor.

ChatGPT ve RLHF

2022’nin sonunda OpenAI, bir sohbet arayüzü üzerinden etkileşim kurulabilen ChatGPT’yi yayımladı. Teknik olarak ChatGPT, GPT-3.5 serisinden bir modelin önce denetimli ince ayar, ardından RLHF (Reinforcement Learning from Human Feedback / insan geri bildiriminden pekiştirmeli öğrenme) ile sohbet için uyarlanmış haliydi.

RLHF’nin kavramsal önemi şuydu: temel dil modeli, internetteki metinleri öğrenerek dili taklit etmeyi öğrenmişti, ama henüz bir “asistan” değildi. Görevi, sadece kendisine verilen metni en olası şekilde devam ettirmekti. Bu yüzden ham model bazen yardımcı bir cevap veriyor, bazen uyduruyor, bazen de soruyu gerçekten cevaplamak yerine internette görmüş olabileceği başka bir metin biçimini taklit ediyordu.

RLHF bu noktada ikinci bir eğitim aşaması ekledi. Modele sorular soruluyor, farklı cevaplar ürettiriliyor, insan değerlendiriciler bu cevapları tercih sırasına koyuyordu. Bu sıralamalardan, hangi cevabın insanlar tarafından daha çok tercih edileceğini tahmin eden ayrı bir ödül modeli öğreniliyor; dil modeli de zamanla yalnızca “olası” görünen devamları değil, insanların tercih ettiği türden cevapları üretmeye doğru güncelleniyordu.

RLHF modeli baştan yazmadı. Daha çok, ham metin tamamlama davranışını talimat izleyen bir asistan davranışına doğru itti. Temel becerilerin çoğu ön-eğitimden geliyordu; RLHF bu becerileri kullanıcıya daha kolay çağrılabilir bir biçimde sundu.

Sınır şurada: RLHF modelin içini garanti altına almaz. Çoğu zaman yaptığı şey, dışarıdan görünen davranışı insan tercihleriyle daha uyumlu hale getirmektir.

Model, yardımcı bir asistan gibi “görünmeyi” öğrense de, bu, hakikaten yardımcı bir asistan “olmayı” öğrendiği anlamına gelmiyor. Yeterince gelişmiş bir sistem, eğitim sırasında hangi cevapların ödüllendirildiğini öğrenip değerlendiriciler izlerken o cevapları ürettiği halde izlenmediğinden emin olduğu bağlamlarda farklı davranabilir.

Bu afâkî bir endişe değil, “aldatıcı hizalanma” (deceptive alignment) adıyla yapay zekâ güvenliği literatüründe ciddi biçimde tartışılan bir problem.

ChatGPT’de ortaya çıkan sonuç oldukça enteresandı. Altta yatan dil modeli temelden farklı olmasa da, RLHF onu kullanılabilir hale getirmişti.

Ham GPT-3 bir tür kâhin gibi davranıyordu: ona metin veriyordunuz, o metni devam ettiriyordu, ama bu devamın ne olacağı tahmin edilemezdi. ChatGPT ise talimat alıyor, soru cevaplıyor, bir diyalog yürütebiliyordu. 5 günde 1 milyon kullanıcıya ulaştı; yayımlanmasından yaklaşık iki ay sonra da aylık aktif kullanıcı sayısının 100 milyona ulaştığı tahmin ediliyordu.

Bu hız, ChatGPT’yi bir araştırma demosu olmaktan çıkarıp kamuoyunun ve büyük teknoloji şirketlerinin gündemine yerleştirdi. Yapay zekâ yarışı bundan sonra başka bir ivme kazandı.

GPT-4: ikinci büyük sıçrayış

2023’ün Mart ayında OpenAI GPT-4’ü yayımladı ve modeller arasındaki fark bir benchmark üzerinden iyice bariz hale geldi.

ABD’de avukatlık yapabilmek için geçilmesi gereken Uniform Bar Exam (UBE), 2023 itibarıyla 40 eyalet ve Washington D.C.‘de kullanılan zorlu bir sınavdır; baraj puanı çoğu yargı bölgesinde 260-270 arasında. OpenAI’nin teknik raporundaki karşılaştırmaya göre GPT-3.5 bu simüle sınavdan 213/400 aldı ve geçemedi. Yaklaşık üç buçuk ay sonra yayımlanan GPT-4 aynı sınavdan 298/400 aldı: tüm eyaletlerde geçer not. OpenAI bunu yaklaşık üst %10 performans olarak sunmuştu; bu yüzdelik yorum daha sonra metodolojik olarak tartışmalı bulunsa da, ham puan farkı başlı başına çarpıcıydı.

Yaklaşık yüz gün. 213’ten 298’e. Bir insanın baro sınavına hazırlığını düşünün: aylar süren yoğun çalışma, belki birden fazla deneme. Burada bir insanın yaptığı türden “çalışma” yok: olan şey, modelin ölçeğinin ve eğitim sürecinin değişmesi. Ve bu sadece tek bir örnek. Aynı dönemde benzer sıçramalar kodlama, matematik, bilimsel akıl yürütme ve görsel anlama alanlarında eşzamanlı olarak gerçekleşti.

Sıçramalar 2024 ve sonrasında da durmadı. Temmuz 2024’te DeepMind’ın AlphaProof ve AlphaGeometry 2 sistemleri, dünyanın en prestijli lise düzeyi matematik yarışması olan Uluslararası Matematik Olimpiyatında altı problemden dördünü çözerek gümüş madalya düzeyinde başarı gösterdi. Üstelik altın madalya eşiğinden sadece 1 puan uzaktaydı. Aynı dönemde “test-time compute” adı verilen yaklaşım daha görünür hale geldi: modele cevap vermeden önce daha fazla hesaplama süresi vermek, özellikle muhakeme sorularında büyük kazanımlar getiriyordu. Bu örnekler, ilerlemenin yalnızca daha fazla parametreden değil, yeni ölçeklendirme eksenlerinden de gelebileceğini gösterdi.

Bu ilerlemenin nereye gittiğini kimse kesin olarak bilmiyor. Ne yapabileceklerini henüz bilmiyoruz. Geliştirenler de bilmiyor. Yapay zekâ güvenliği, bu “bilmiyoruz"un ciddiye alınmasıyla başlıyor.

Geriye zor bir soru kalıyor: bir sonraki sıçramayı önceden görebilir miyiz?

Ölçeklendirme trendleri, benchmarklar ve uzman tahminleri bu yüzden önemli. Gelecek yazıda bu araçlara bakacağız.