Welcome to our monthly newsletter, which we have prepared to bring you current developments and informative content on Artificial Intelligence Security!
Katılımcıların yapay zeka uyumu, yönetişimi ve güvenliği alanlarındaki kariyerlerine başlamalarına yardımcı olmayı amaçlayan 12 haftalık bir programdır. Program kapsamında, alanında lider araştırmacılardan mentorluk, finansal destek, Berkeley ve Londra’da ofis alanı, konaklama imkanları ve yapay zeka uzmanlarıyla söyleşiler/atölye çalışmaları sunulacaktır.
Dünyanın dört bir yanından farklı geçmişlere sahip katılımcıların, işbirlikçi yapay zeka perspektifinden yapay zeka güvenliği araştırmaları yapmalarını sağlayan tam zamanlı, 3 aylık bir araştırma programıdır. Katılımcılar, alanında önde gelen araştırmacılardan mentorluk alacak ve bilgi birikimlerini ve profesyonel ağlarını geliştirmeleri için kaynakların yanı sıra finansal destek de sağlanacaktır.
ML Uyum ve Teori Akademisyenleri (MATS) programının bu döneminin amacı, katılımcılara harika mekanik yorumlanabilirlik araştırmalarının nasıl yapılacağını öğretmektir. Bu eğitimden bazı katılımcılar, devamında yüz yüze gerçekleştirilecek bir araştırma aşamasına davet edilecektir.
Apart Research tarafından düzenlenen ve küresel uzmanlığı, yapay zeka ile hız kazanan KBRN risklerini ele alan pratik ve iş birliğine dayalı projelere yönlendirmeyi amaçlayan bir hackathon. Konular, çift kullanımlı kötüye kullanım potansiyelini test eden model değerlendirmelerinden yeni izleme çerçevelerine ve politika ile ilgili prototiplere kadar uzanacaktır. Amacı, projeleri yapay zeka güvenliği ve küresel güvenlik temelinde tutarken yaratıcılığı teşvik etmektir.
Zürih’in teknoloji ekosisteminden ~200 araştırmacı, mühendis, öğrenci ve profesyoneli yapay zeka güvenliği üzerine sohbetler için bir araya getiren bir konferans. Konferans; teknik yapay zeka güvenliği, yapay zeka yönetişimi ve alan oluşturma ve kariyer olmak üzere 3 ana başlığa ayrılacaktır. Konuşmacı oturumlarının yanı sıra Birleşik Krallık AISI ve Apollo Research gibi kuruluşlardan temsilciler de katılacaktır.
Constellation’ın Berkeley araştırma merkezinde, 3 ila 6 ay süren, tamamı finanse edilen yüz yüze bir programdır. Katılımcılar, uzman mentorların rehberliğinde ve Constellation ekibinin özel araştırma yönetimi ve kariyer desteğiyle en ileri yapay zeka güvenliği projelerini geliştirirler.
Dovetail tarafından düzenlenen, 1 yıla uzatılabilecek 10 haftalık bir araştırma programı. Katılımcılar, tamamı matematiksel yapay zeka güvenliği araştırmaları yapan, 5 ila 7 kişilik gruplar halinde olacaktır. Bazı grup üyeleri birlikte çalışabilirken, diğerleri ise bireysel projeler yürütebilir.
Birleşik Krallık Yapay Zeka Güvenliği Enstitüsü’nün (AISI) yakın tarihli bir raporu, tehlikeli yapay zeka davranışlarını ölçen testler olan “hilekârlık değerlendirmelerini” bilimsel titizlikten yoksun oldukları gerekçesiyle eleştiriyor. Raporda, bu değerlendirmelerin birçoğunun münferit kanıtlara dayandığı ve bir yapay zekanın kullanıcıya şantaj yapmaya yönlendirildiği bir çalışma gibi abartılı ve manşetlere oynayan iddialara yol açtığı savunuluyor.
Brave araştırmacıları, Perplexity’nin yapay zeka destekli Comet tarayıcısının, web sayfalarına gizlenmiş kötü amaçlı talimatların yapay zeka asistanını manipüle ederek tek kullanımlık şifreler de dahil olmak üzere kullanıcı kimlik bilgilerini sızdırabildiği dolaylı komut enjeksiyonu saldırılarına karşı savunmasız olduğunu keşfetti.
Bu güvenlik açığı, yapay zeka modellerinin meşru kullanıcı talimatları ile güvenilmeyen web içeriği arasında ayrım yapamamasından kaynaklanıyor.
Comet, sayfalardaki tüm metinleri doğrulama olmaksızın ayrım gözetmeksizin işliyor ki bu sorun Google Gemini ve Cursor’da da görülüyor.
13 Ağustos 2025’te bir düzeltme yapıldığına dair ilk iddialara rağmen, Brave’in yeni değerlendirmesi, güvenlik açığının kısmen çözülmemiş olarak kaldığını doğruluyor. Perplexity ise yama ayrıntıları veya açık kaynak kodu aracılığıyla herhangi bir şeffaflık sağlamıyor.
Anthropic, Claude konuşmalarının gizli tutulan bir bölümünü tarayan bir nükleer tehdit sınıflandırıcısını devreye aldı. Bu sınıflandırıcı, sentetik testlerde nükleer silahlarla ilgili sorguları %94,8 oranında tespit ederken hiç hatalı pozitif sonuç vermedi. Ancak gerçek dünya uygulamasında, Orta Doğu’daki olaylar sırasında daha fazla hatalı pozitif sonuç gözlemlendi.
Sınıflandırıcı, Claude’un bir yıl boyunca güvenli ortamlarda zorlu testlere tabi tutulmasının ardından, ABD Enerji Bakanlığı’na bağlı Ulusal Nükleer Güvenlik İdaresi (NNSA) ile ortaklaşa geliştirildi. Bu süreçte, NNSA’nın güvenlik ihtiyaçları ile kullanıcı gizliliği taahhütleri arasında bir denge kuruldu.
Farklı partilerden altmış İngiliz parlamenter, Google DeepMind’ı uluslararası yapay zeka güvenlik taahhütlerini ihlal etmekle resmen suçladı. Parlamenterler, şirketin Mart 2024’te Gemini 2.5 Pro’yu beraberinde güvenlik belgeleri olmadan yayınlamasının, kırılgan yapay zeka güvenlik normlarını tehdit eden “tehlikeli bir emsal” teşkil ettiğini belirtti.
Suçlamalar, Google’ın Şubat 2024’teki uluslararası zirvede imzalanan Sınır Yapay Zeka Güvenlik Taahhütleri’ne uymamasından kaynaklanıyor. Zirvede büyük yapay zeka şirketleri, sistem yeteneklerini ve risk değerlendirmelerini kamuya açık bir şekilde raporlama sözü vermişti. Ancak Google, temel güvenlik bilgilerini lansmandan 22 gün sonra, detaylı değerlendirmeleri ise 34 gün sonra yayınladı.
Google, Gemini 2.5 Pro’nun üçüncü taraf testleri de dahil olmak üzere “sıkı güvenlik kontrollerinden” geçtiğini iddia ederek eylemlerini savundu. Ancak modeli İngiltere Yapay Zeka Güvenlik Enstitüsü ile ancak halka açıldıktan sonra paylaştığını itiraf etti. Bu durum, sistemi “deneysel” etiketi altında yüz milyonlarca kullanıcıya sunarken verdiği şeffaflık sözleriyle çelişiyor.
Anthropic, Claude konuşmalarının gizli tutulan bir bölümünü tarayan bir telif hakkı uyum sınıflandırıcısı devreye aldı. Bu sınıflandırıcı, sentetik testlerde telif hakkı ihlali içeren sorguları %94,8 oranında tespit ederken hiç hatalı pozitif sonuç vermedi. Ancak gerçek dünya uygulamasında, özellikle de öne çıkan edebi etkinlikler sırasında daha fazla hatalı pozitif sonuç gözlemlendi.
Sınıflandırıcı, Claude’un güvenli ortamlarda bir yıl boyunca zafiyet testlerine tabi tutulmasının ardından önde gelen telif hakkı uygulama kurumlarıyla birlikte geliştirildi. Bu süreçte, yazarların hakları ile kullanıcıların gizlilik taahhütleri arasında bir denge kuruldu.
Sistem, Anthropic’in kendi zafiyet test ekibinin, sınıflandırıcının devrede olduğundan habersizken korsan kitap istemleri denemelerini başarıyla yakaladı. Şirket, telifli eserlerden izinsiz eğitim veri setleri oluşturmaya çalışan hesapların askıya alınması veya kapatılması gibi önlemler aldı.
JOB POSTINGS 👩🏻💻
To explore new opportunities in the field of Artificial Intelligence Security
You can take a look at 80.000 Hours' job postings page!