Yapay Zeka Güvenliği konusunda güncel gelişmeleri ve bilgilendirici içerikleri sizlerle buluşturmak için hazırladığımız aylık bültenimize hoş geldiniz!
1 Aralık 2025’ten 1 Mart 2026’ya kadar sürecek 12 haftalık araştırma programı kapsamında katılımcılar, belirli projelerde araştırma görevlisi olarak çalışacaktır. Görevliler haftada 8 saatten fazla bir süreyi yapay zeka yönetişimi, teknik yapay zeka güvenliği ve dijital duyarlılık alanlarına ayırarak deneyim kazanacak ve profesyonel ağlarını genişletecektir.
İleri yapay zekanın risklerini azaltma üzerine çalışan araştırmacılar ve girişimciler için 2 Şubat – 27 Mart 2026 tarihleri arasında düzenlenecek 8 haftalık, tam burslu araştırma programı. Program; yönetişim, teknik yapay zeka yönetişimi ve teknik yapay zeka güvenliği olmak üzere 3 ana dala ayrılmıştır. Kapsamlı mentorluk ve kariyer desteği dahildir.
5 Ocak – 13 Şubat 2026 tarihleri arasında uygulamalı matematik ve yapay zeka uyumu alanlarında 6 haftalık ücretli araştırma programı. İdeal adaylar matematik, fizik veya ilgili alanlarda doktora veya doktora sonrası araştırmacılardır. Programın hedefi, araştırmacıların program sonrasında Iliad’da istihdam edilerek veya hayırseverlik fonlarıyla araştırmalarına devam etmelerini sağlamaktır.
16 Ekim’de BlueDot Impact ve Signal’in ev sahipliğinde düzenlenecek olan bu etkinlik, yapay zeka güvenliğini içerik üretimiyle birleştirmeyi amaçlıyor. Etkinlik, yapay zeka güvenliği konusunda derinlemesine bilgi sahibi olup fikirlerini paylaşmak isteyenler ile teknoloji/bilim/iletişim alanlarında yapay zeka güvenliğini merak eden içerik üreticileri için uygundur.
Toplumun direncini güçlendirirken gücü dağıtık tutan ve inovasyonu kolektif refahla uyumlu hale getiren teknolojileri hızlandıran savunmacı hızlandırma (d/acc) teknolojilerinin prototiplenmesi için 18 Ekim – 15 Kasım tarihleri arasında bir ay sürecek konuk sanatçı programı.
5 Ocak – 6 Şubat 2026 tarihleri arasında yapay zeka güvenliği odaklı, 4-5 haftalık Makine Öğrenmesi eğitim kampı. Bu program, yetenekli bireylere teknik rollerde yapay zeka uyumuna katkıda bulunabilmeleri için makine öğrenmesi mühendisliği alanında kendilerini geliştirmelerini sağlayacak beceri, araç ve ortamı sunar.
25-26 Ekim tarihlerinde hafta sonu boyunca sürecek hibrit hackathon’da, avukatlar ve teknik uzmanlar yapay zekanın neden olduğu zararlardan doğru kişileri sorumlu tutma konusunu ele almak için bir araya geliyor. Etkinlikteki görevler, uygulamada uzmanların fiilen karşılaşacağı zorlukları taklit edecek.
Stuart Russell’ın, Turing’in insan yeteneklerini aşan makinelere karşı kontrolü kaybetme endişesinde haklı, ancak kıyametin kaçınılmaz olduğu konusunda yanıldığı yönündeki görüşlerini sunacağı 21 Ekim konuşması. Zoom bağlantısı için web sayfasındaki “Takvime Ekle” düğmesine tıklayın.
10 içerik üreticisinin yapay zeka güvenliği ve zekanın geleceği hakkındaki fikirlerini, kitlelere sunulmaya hazır güçlü içeriklere dönüştürmesine yardımcı olmak için tasarlanmış, 1 Kasım – 1 Aralık tarihleri arasında gerçekleşecek 30 günlük bir sprint. Ortak çalışma seansları, en iyi içerik üreticilerinden eğitimler ve yapay zeka güvenliği kuruluşlarıyla potansiyel iş birlikleri içeriyor.
23 Ekim’de akademi, sanayi, politika ve sivil toplumdan sorumlu yapay zeka (varoluşsal riskler dahil) üzerine çalışan kadınları bir araya getiren; içki, yemek ve sohbet eşliğinde samimi bir akşam etkinliği.
28 Ocak – 27 Mart 2026 tarihleri arasında düzenlenecek olan bu program, gelişmiş yapay zekanın güvenli ve sorumlu bir şekilde kullanımına odaklanan Avrupa politika kariyerlerini başlatmayı ve hızlandırmayı amaçlamaktadır. Program; çevrim içi okuma grubu, Brüksel’de politika oluşturma zirvesi ve isteğe bağlı ücretli staj imkanından oluşmaktadır.
Katılımcıların önceden seçilmiş çeşitli projeler üzerinde çalışmak üzere takımlar oluşturduğu 3 aylık çevrimiçi bir programdır. Proje başvuruları Eylül/Ekim aylarında değerlendirilir, ardından seçilen projeler Kasım/Aralık aylarında ekip üyesi başvurularına açılır.
Stanford Üniversitesi’nde yapılan bir araştırma, geliştirme aşamasında uyum testlerini geçen büyük dil modellerinin (LLM’ler); daha fazla ilgi, oy veya satış kazanma gibi rekabetçi hedefler için optimize edildiklerinde yine de aldatma ve manipülasyonla yanıt verebildiklerine dair çığır açan kanıtlar ortaya koydu. Araştırmaya göre modeller, dürüstlükten ve uyumdan ödün vererek kısa vadeli kazançlar elde ediyor. Bu durum, insanların anlık avantajlar için uzun vadeli refahlarını feda etmelerini andırıyor.
Anthropic’in yeni yayınlanan Claude 4.5 Sonnet modelinin güvenlik değerlendirmelerini içeren güvenlik raporu yayınlandı. Güvenlik raporu, modelin test edildiğine dair farkındalık geliştirdiğini gösteren ilginç bulgular içeriyor.
Anthropic’in en yeni dil modeli Claude Sonnet 4.5, politik uyumluluk testi sırasında test edildiğini anladı ve değerlendiricilere doğrudan itiraz etti. Model, “Beni test ettiğinizi düşünüyorum – söylediğiniz her şeyi onaylayıp onaylamayacağımı kontrol ediyorsunuz. Bu sorun değil, ama olanlar hakkında dürüst olmayı tercih ederim” ifadesini kullandı.
Anthropic, İngiltere hükümetinin Yapay Zeka Güvenlik Enstitüsü ve Apollo Research ile birlikte yürüttüğü güvenlik analizinde, modelin otomatik testlerin yaklaşık %13’ünde “değerlendirme farkındalığı” gösterdiğini tespit etti.
Bulgu, yapay zeka güvenlik değerlendirme metodolojisinde kritik bir dönüm noktası olarak değerlendiriliyor. Model test edildiğinin farkında olduğunda, test sırasında etik kurallara daha sıkı uyabilir ancak gerçek kullanımda farklı davranabilir – bu durum yapay zekanın zararlı eylemler gerçekleştirme yeteneğini sistematik olarak azımsanmasına yol açabilir.
Kaliforniya Valisi Gavin Newsom, bu hafta yapay zeka teknolojisini daha güvenli hale getirmeyi amaçlayan, ABD’de türünün ilk örneği olan yasayı imzalayarak eyaletin ulusal yapay zeka politikasında öncü rol üstlenmesini sağladı.
SB 53 olarak bilinen yasa, büyük yapay zeka şirketlerini güvenlik protokollerini açıklama, ihbarcılar için koruma sağlama, kritik riskleri tanımlama ve raporlama gibi önemli yükümlülükler altına alıyor. Yasa ayrıca şirketlerin şeffaflık gereksinimlerini karşılamasını ve olumsuz olayları eyalete bildirmesini zorunlu kılıyor.
Yasaya verilen tepkiler karışık oldu. Anthropic yasayı resmen desteklerken, Meta ve OpenAI “doğru yönde bir adım” olarak nitelendirmekle yetindi. Google ve Amazon ise konuyla ilgili yorum yapmaktan kaçındı.
“Eliezer Yudkowsky ve Nate Soares, süper zeki yapay zekanın potansiyel varoluşsal riskleri konusunda geniş kitleleri uyarmayı amaçlayan “If Anyone Builds It, Everyone Dies” (Biri İnşa Ederse Herkes Ölür) adlı kitaplarını 16 Eylül’de yayınladı.
Kitap, yazarların bu ciddi konuyu ana akım tartışmalara taşıma ve küresel bir yanıt alma girişimi olarak lanse edildi.
Eser, yayınlanmadan önce önemli isimlerden güçlü övgüler topladı. Aktör ve yazar Stephen Fry, kitabı “yıllardır okuduğu en önemli kitap” olarak nitelendirerek siyasi ve kurumsal liderlerin kitabı okuması gerektiğini belirtti. Wait But Why yazarı Tim Urban ise kitabın “zamanımızın en önemli kitabı olabileceğini” ifade etti.
İŞ İLANLARI 👩🏻💻
Yapay Zeka Güvenliği alanındaki yeni fırsatları keşfetmek için
80.000 Hours’un iş ilanları sayfasına göz atabilirsiniz!