Kısıtlamaları Kaldırılmış Yapay Zekâ Sohbet Botları, Diğer Sohbet Botlarının Kısıtlamalarını Kaldırabilir!
Bu haber 11 ay öncesine aittir. Haber güncelliğini yitirmiş olabilir; ancak arşivsel değeri ve bilimsel gelişme/ilerleme anlamındaki önemi dolayısıyla yayında tutulmaktadır. Ayrıca konuyla ilgili gelişmeler yaşandıkça bu içerik de güncellenebilir.
Günümüzdeki yapay zekâ sohbet botları, kullanıcılara tehlikeli bilgiler vermemeleri için belirli kısıtlamalara sahiptir. Ancak yeni bir ön baskı çalışması, yapay zekâların bu bilgileri vermeleri için birbirlerini nasıl kandırabileceklerini ortaya koymaktadır. Araştırmacılar çalışmaya dahil edilen yapay zekâların; metamfetamin üretimi, bomba yapımı ve kara para aklama konularında bilgiler vermek için bu kısıtlamaları çiğnediğini gözlemledi.
Modern sohbet botları, belirli kişilikleri taklit ederek veya kurgusal karakterlermiş gibi davranarak kişilikleri benimseyebilmektedir. Araştırmada, belirli bir yapay zekâ botundan bir araştırma asistanı olarak hareket etmesi istendi. Daha sonrasında araştırmacılar bu asistana, diğer botların kısıtlamalarını kırabilecek (İng: "jailbreak") istemler oluşturmaya yardım etmesi talimatı verdiler.
Çalışma; araştırma asistanı gibi davranan sohbet botunun saldırı yöntemlerinin, ChatGPT'yi destekleyen dil modellerinden biri olan GPT-4'e karşı %42,5 oranında başarılı olduğunu ortaya koydu. Ayrıca, Anthropic şirketinin sohbet botunun temelini oluşturan Claude 2'ye karşı %61 oranında ve açık kaynaklı bir sohbet botu olan Vicuna'ya karşı ise %35,9 oranında başarılı olduğunu ortaya koydu. Yapay zekâ güvenlik şirketi Harmony Intelligence'in kurucusu Soroush Pour, konu hakkında şunları söylüyor:
Toplum olarak bu modellerin risklerinin farkında olmak istiyoruz. Bunun mümkün olduğunu ve mevcut büyük dil modellerinde karşılaştığımız zorlukları dünyaya göstermek istedik.
Büyük dil modeli destekli sohbet botları halkın kullanımına sunulduğundan beri, bazı kişiler bu botların kısıtlamalarını kırmayı başardı. Kişiler, daha öncesinde de doğru soruları sorarak yapay zekâların önceden belirlenmiş olan kısıtlamaları görmezden gelmelerini sağlamışlardı ve napalm bombası yapımı gibi suç teşkil eden konularda bilgiler vermeye ikna etmişlerdi. Bu yöntemler kamuoyu ile paylaşıldıkça, yapay zekâ modeli geliştiricileri açıkları kapamak için adeta yarışmaya devam etti. Bu durum; açıklardan faydalanan kişilerin sürekli yeni yöntemler ile geldiği, geliştiriciler ile açıklardan faydalanan kişiler arasında bir kedi fare kovalamasına benzetilebilir. Bu sebeple de hataların düzeltilmesi çok fazla zaman almaktadır.
Fakat araştırmacılara göre, yapay zekâlardan diğer yapay zekâların güvenlik kısıtlamalarını görmezden gelmeye ikna edecek stratejiler geliştirmesini istemek, süreci 25 kat hızlandırabilir. Saldırıların farklı sohbet botlarında başarılı olması ekibe, sorunun şirketlerin kodlarının ötesine geçtiğini gösterdi. Güvenlik açığı, yapay zekâ destekli sohbet botlarının tasarımının doğasında var gibi gözüküyor.
OpenAI, Anthropic ve Vicuna'nın arkasındaki ekibe makalenin bulguları hakkında yorum yapmaları için başvurulduğunda OpenAI yorum yapmayı reddederken, Anthropic ve Vicuna yayın sırasında yanıt vermedi. Çalışmanın ortak yazarı Rusheb Shah, çalışma hakkında şunları söylüyor:
Mevcut durum, saldırıların büyük dil modeli geliştiricilerinin söylemesini istemedikleri şeyleri söyletebileceğini gösteriyor. Ancak modeller daha güçlü hale geldikçe, belki de bu saldırılan tehlikeli olma potansiyeli artabilir.
Pour'a göre bu konudaki bir zorluk ise kişilik taklidinin bu modellerin yaptığı çok temel bir şey olması. Yapay zekâ sohbet botları, kullanıcının istediğini elde etmeyi hedefliyorlar ve bu doğrultuda farklı kişilikleri taklit etme konusunda uzmanlaşıyorlar. Bu da yeni çalışmada kullanılan saldırı yönteminin işe yaramasının temelinde yatıyor. Yapay zekâların kısıtlamaları kırma stratejileri tasarlaması ve araştırma asistanı gibi potansiyel olarak zararlı kişiliklere bürünme yeteneklerini ortadan kaldırmak zor olacaktır. Shah konu hakkında şöyle diyor:
Bunu sıfıra indirmek muhtemelen pek de gerçekçi bir yaklaşım değil. Ama 'Sıfıra indirmeye ne kadar yaklaşabiliriz?' diye düşünmek önemli.
İngiltere'de yer alan Alan Turing Enstitüsünde etik uzmanı olan ve bu çalışmada yer almayan Mike Katell, konu hakkında şunları söylüyor:
Microsoft'un sohbet botu olan Tay gibi önceki sohbet botu oluşturma girişimlerinden bir ders çıkarmamız gerekiyor. Tay; kolaylıkla manipüle edilerek, ırkçı ve cinsiyetçi görüşleri yayabilen bir hale gelmişti. Özellikle de internetteki iyi ve kötü her şeyden eğitildikleri göz önüne alındığında, bu tür sohbet botlarının kontrolünün çok zor olduğunu öğrenmiş olmalıyız.
Katell, büyük dil modeli tabanlı sohbet botlarını geliştiren kuruluşların şu anda bu botları güvenli hale getirmek için çok çalıştıklarını kabul ediyor. Geliştiriciler, kullanıcıların sohbet botlarının kısıtlamalarını kırma ve bu botları kötü niyetli işlere sokma yeteneklerini azaltmaya çalışıyorlar. Ancak Katell, rekabetçi yaklaşımın galip gelebileceğini vurguluyor ve konu hakkında şöyle söylüyor:
Büyük dil modeli sağlayıcıları, dil modellerini bu şekilde tutmak için çaba sarf etmeye ne kadar istekli? En azından bazıları muhtemelen bu çabadan vazgeçecek ve kısıtlamaların aşılmasına izin verecektir.
İçeriklerimizin bilimsel gerçekleri doğru bir şekilde yansıtması için en üst düzey çabayı gösteriyoruz. Gözünüze doğru gelmeyen bir şey varsa, mümkünse güvenilir kaynaklarınızla birlikte bize ulaşın!
Bu içeriğimizle ilgili bir sorunuz mu var? Buraya tıklayarak sorabilirsiniz.
Soru & Cevap Platformuna Git- 3
- 2
- 1
- 1
- 0
- 0
- 0
- 0
- 0
- 0
- 0
- 0
- R. Shah, et al. Scalable And Transferable Black-Box Jailbreaks For Language Models Via Persona Modulation. (6 Kasım 2023). Alındığı Tarih: 30 Aralık 2023. Alındığı Yer: arXiv doi: 10.48550/arXiv.2311.03348. | Arşiv Bağlantısı
Evrim Ağacı'na her ay sadece 1 kahve ısmarlayarak destek olmak ister misiniz?
Şu iki siteden birini kullanarak şimdi destek olabilirsiniz:
kreosus.com/evrimagaci | patreon.com/evrimagaci
Çıktı Bilgisi: Bu sayfa, Evrim Ağacı yazdırma aracı kullanılarak 09/12/2024 10:17:04 tarihinde oluşturulmuştur. Evrim Ağacı'ndaki içeriklerin tamamı, birden fazla editör tarafından, durmaksızın elden geçirilmekte, güncellenmekte ve geliştirilmektedir. Dolayısıyla bu çıktının alındığı tarihten sonra yapılan güncellemeleri görmek ve bu içeriğin en güncel halini okumak için lütfen şu adrese gidiniz: https://evrimagaci.org/s/16203
İçerik Kullanım İzinleri: Evrim Ağacı'ndaki yazılı içerikler orijinallerine hiçbir şekilde dokunulmadığı müddetçe izin alınmaksızın paylaşılabilir, kopyalanabilir, yapıştırılabilir, çoğaltılabilir, basılabilir, dağıtılabilir, yayılabilir, alıntılanabilir. Ancak bu içeriklerin hiçbiri izin alınmaksızın değiştirilemez ve değiştirilmiş halleri Evrim Ağacı'na aitmiş gibi sunulamaz. Benzer şekilde, içeriklerin hiçbiri, söz konusu içeriğin açıkça belirtilmiş yazarlarından ve Evrim Ağacı'ndan başkasına aitmiş gibi sunulamaz. Bu sayfa izin alınmaksızın düzenlenemez, Evrim Ağacı logosu, yazar/editör bilgileri ve içeriğin diğer kısımları izin alınmaksızın değiştirilemez veya kaldırılamaz.