Araştırmacılar, yapay zekâ modellerinin eğitiminde verilerinizin kullanılıp kullanılmadığını belirleyen yeni bir saldırı yöntemi geliştirdi. CAMIA (Bağlama Duyarlı Üyelik Çıkarımı Saldırısı) olarak adlandırılan bu yöntem, Brave ve Singapur Ulusal Üniversitesi’nden araştırmacılar tarafından geliştirildi. Yapay zekâ modellerinin “hafızasını” sorgulayan önceki yöntemlerden çok daha etkili olduğu kanıtlandı.
Veri Ezberleme ve Gizlilik Endişeleri
Yapay zekâda “veri ezberleme” konusu, yani modellerin eğitim setlerinden hassas bilgileri yanlışlıkla saklaması ve potansiyel olarak sızdırması endişeleri artırıyor. Örneğin, klinik notlar üzerinde eğitilmiş bir sağlık modeli, yanlışlıkla hasta bilgilerini açığa çıkarabilir. İşletmeler için, eğer dahili e-postalar eğitimde kullanıldıysa, bir saldırgan yapay zekâyı kandırarak özel şirket iletişimlerini yeniden üretmesini sağlayabilir. Son zamanlarda LinkedIn’in kullanıcı verilerini üretken yapay zekâ modellerini geliştirmek için kullanma planı gibi duyurular, gizli içeriğin oluşturulan metinlerde yüzeye çıkabileceği sorularını gündeme getirdi.
Bu tür sızıntıları test etmek için güvenlik uzmanları Üyelik Çıkarımı Saldırıları (MIA) kullanır. Basitçe ifade etmek gerekirse, bir MIA, modele kritik bir soru sorar: “Bu örneği eğitim sırasında gördün mü?” Eğer bir saldırgan cevabı güvenilir bir şekilde bulabilirse, bu, modelin eğitim verileri hakkında bilgi sızdırdığını kanıtlar ve doğrudan bir gizlilik riski oluşturur.
Mevcut Yöntemlerin Sınırlılıkları ve CAMIA’nın Farkı
Şimdiye kadar, çoğu MIA modern üretken yapay zekâlara karşı büyük ölçüde etkisizdi. Bunun nedeni, başlangıçta her girdi için tek bir çıktı veren daha basit sınıflandırma modelleri için tasarlanmış olmalarıydı. Ancak, büyük dil modelleri (LLM), metni belirteç belirteç (token by token) üretir ve her yeni kelime kendisinden önceki kelimelerden etkilenir. Bu sıralı süreç, metnin genel güvenine bakmanın, sızıntının gerçekte meydana geldiği anlık dinamikleri kaçırmasına neden olur.
Yeni CAMIA gizlilik saldırısının arkasındaki temel içgörü, bir yapay zekâ modelinin ezberlemesinin bağlama bağlı olmasıdır. Bir yapay zekâ modeli, bir sonraki ne söyleyeceği konusunda kararsız olduğunda ezberlemeye en çok güvenir. Örneğin, “Harry Potter, yazarı… Harry’nin dünyası…” gibi bir ön ek verildiğinde, bağlam güçlü ipuçları sağladığı için bir model bir sonraki belirtecin kolayca “Potter” olduğunu tahmin edebilir. Böyle bir durumda, kendinden emin bir tahmin, ezberlemeyi göstermez. Ancak, ön ek sadece “Harry” ise, belirli eğitim dizilerini ezberlemeden “Potter” kelimesini tahmin etmek çok daha zor hale gelir. Bu belirsiz senaryoda düşük kayıplı, yüksek güvenli bir tahmin, ezberlemenin çok daha güçlü bir göstergesidir.
CAMIA, modern yapay zekâ modellerinin bu üretken doğasından yararlanmak için özel olarak tasarlanmış ilk gizlilik saldırısıdır. Metin üretimi sırasında modelin belirsizliğinin nasıl evrildiğini takip eder ve yapay zekânın “tahmin etmekten” “kendinden emin hatırlamaya” ne kadar hızlı geçtiğini ölçmesine olanak tanır. Belirteç düzeyinde çalışarak, düşük belirsizliğin basit tekrarlamadan kaynaklandığı durumları ayarlayabilir ve diğer yöntemlerin kaçırdığı gerçek ezberlemenin ince kalıplarını belirleyebilir.
Saldırının Etkinliği ve Endüstriye Etkileri
Araştırmacılar, CAMIA’yı çeşitli Pythia ve GPT-Neo modellerinde MIMIR karşılaştırma ölçütü üzerinde test ettiler. ArXiv veri setindeki 2.8B parametreli bir Pythia modeline saldırdıklarında, CAMIA önceki yöntemlerin tespit doğruluğunu neredeyse ikiye katladı. Yanlış pozitif oranını sadece %1’de tutarken, gerçek pozitif oranını %20.11’den %32.00’ye çıkardı.
Saldırı çerçevesi ayrıca hesaplama açısından da verimli. Tek bir A100 GPU’da CAMIA, 1.000 örneği yaklaşık 38 dakikada işleyebiliyor, bu da onu modelleri denetlemek için pratik bir araç haline getiriyor.1
Bu çalışma, yapay zekâ endüstrisine, büyük, filtrelenmemiş veri setleri üzerinde giderek daha büyük modellerin eğitilmesindeki gizlilik risklerini bir kez daha hatırlatıyor. Araştırmacılar, çalışmalarının daha fazla gizliliği koruyan tekniklerin geliştirilmesini teşvik edeceğini ve yapay zekânın faydası ile temel kullanıcı gizliliği arasında denge kurma çabalarına katkıda bulunacağını umuyor.