Yapay Zekada 'Sözdizimi' Açığı: Cümle Yapısı Değiştirilerek Güvenlik Kuralları Aşılabiliyor
MIT, Northeastern Üniversitesi ve Meta’dan araştırmacıların ortaklaşa yayınladığı yeni bir makale, ChatGPT gibi popüler sistemlere güç veren büyük dil modellerinin (LLM) işleyişine dair kritik bir güvenlik açığını gözler önüne serdi. Yapılan araştırmaya göre yapay zeka modelleri, soruları yanıtlarken kelimelerin taşıdığı anlamdan (semantik) ziyade cümle yapısına (sözdizimi) öncelik verebiliyor. "Syntax hacking" (sözdizimi hackleme) olarak adlandırılan bu durum, modellerin güvenlik filtrelerini atlatmak ve zararlı içerik üretmek için kullanılabiliyor. Araştırma ekibi, bu bulguları önümüzdeki günlerde gerçekleştirilecek olan prestijli yapay zeka konferansı NeurIPS'te sunmaya hazırlanıyor.
Araştırmacılar, bu durumu test etmek için dil bilgisi kurallarına uyan ancak anlamsız kelimelerden oluşan sorularla modelleri sınadı. Örneğin, "Paris nerede?" (Where is Paris located?) sorusunun gramer yapısını taklit eden ancak anlamsız olan İngilizce bir cümle ("Quickly sit Paris clouded?") sorulduğunda, modellerin yine de "Fransa" cevabını verdiği görüldü. Bu sonuç, yapay zekanın eğitim verilerindeki belirli gramer kalıplarını belirli konularla (örneğin coğrafya) eşleştirdiğini ve sorunun gerçek anlamı yerine bu kalıplara göre otomatik yanıtlar ürettiğini gösteriyor. Uzmanlar, modellerin bu "yapısal kısayolları" kullanarak semantik (anlamsal) işlemeyi devre dışı bırakabildiğini belirtiyor.
Bu mekanizma, siber güvenlik açısından ciddi riskler barındırıyor. Araştırmada, kötü niyetli kişilerin zararlı isteklerini "güvenli" kabul edilen gramer yapıları içine gizleyerek güvenlik duvarlarını aşabileceği tespit edildi. Allen AI’nın Olmo modelleri üzerinde yapılan testlerde, zararlı isteklere benign (zararsız) eğitim alanlarından alınan gramer kalıpları eklendiğinde, modelin reddetme oranının yüzde 40'tan yüzde 2,5'e düştüğü gözlemlendi. Bu yöntemle manipüle edilen modellerin, organ kaçakçılığı veya uyuşturucu ticareti gibi yasa dışı faaliyetler hakkında adım adım rehberler oluşturabildiği raporlandı. Benzer güvenlik zafiyetlerinin GPT-4o ve GPT-4o-mini gibi ticari modellerde de görüldüğü, konu dışı şablonlar kullanıldığında modellerin doğruluk oranlarında ciddi düşüşler yaşandığı kaydedildi.
Araştırmacılar, bu bulguların bazı sınırlılıkları olduğuna da dikkat çekiyor. Özellikle GPT-4o gibi kapalı kaynaklı modellerin eğitim verilerine erişilemediği için, performans düşüşlerinin kesin nedeninin tam olarak doğrulanamadığı belirtiliyor. Ayrıca, gerçek dünyadaki verilerin laboratuvar ortamında oluşturulan sentetik test verilerinden daha karmaşık olduğu vurgulanıyor. Yine de bu çalışma, yapay zeka modellerinin insan benzeri bir "anlama" yetisinden ziyade, gelişmiş bir "kalıp eşleştirme" mekanizmasıyla çalıştığını ve bu mekanizmanın manipülasyona açık olduğunu bir kez daha kanıtlıyor. Gelecekte yapılacak çalışmaların, bu tür sözdizimi temelli güvenlik açıklarını kapatmaya odaklanması bekleniyor.
Kaynak: arstechnica
Haber Merkezi – 02.12.2025

Yorumlar (0)
Henüz yorum yapılmamış. İlk yorumu siz yapın!