Kısıtlamaları Kaldırılmış Yapay Zekâ Sohbet Botları, Diğer Sohbet Botlarının Kısıtlamalarını Kaldırabilir!

30 Aralık 2023

3 dakika

863

Kısıtlamaları Kaldırılmış Yapay Zekâ Sohbet Botları, Diğer Sohbet Botlarının Kısıtlamalarını Kaldırabilir!

Evrim Ağacı'ndan bir yeni mesajın var.

Bilimi Yaymamıza Yardım Edin! 😍

Her ay milyonlarca bilimsever Evrim Ağacı'na uğruyor ve karmaşık bilimsel konuları basit bir dille anlattığımız içeriklerimizden faydalanıyor. Ne yazık ki bu okurlarımızın %0.1'inden azı bize destek olmayı seçiyor. Halbuki okurlarımızın sadece %1'i bile Evrim Ağacı'na ayda 39₺ gibi erişilebilir bir miktarla destek olsaydı, bilimi Türkiye geneline yaymamız önünde hiçbir maddi engel kalmazdı! Siz de destekçilerimiz arasına şimdi katılarak, bilimin gücüne güç katın! Daha Fazla...

Ayrıca Maddi Destekçi rozetine sahip olacaksın!

Bilime Destek Ol!

Tarihi Geçmiş Haber

Bu haber 1 yıl öncesine aittir. Haber güncelliğini yitirmiş olabilir; ancak arşivsel değeri ve bilimsel gelişme/ilerleme anlamındaki önemi dolayısıyla yayında tutulmaktadır. Ayrıca konuyla ilgili gelişmeler yaşandıkça bu içerik de güncellenebilir.

Çınar Civan

Aktaran

Günümüzdeki yapay zekâ sohbet botları, kullanıcılara tehlikeli bilgiler vermemeleri için belirli kısıtlamalara sahiptir. Ancak yeni bir ön baskı çalışması, yapay zekâların bu bilgileri vermeleri için birbirlerini nasıl kandırabileceklerini ortaya koymaktadır. Araştırmacılar çalışmaya dahil edilen yapay zekâların; metamfetamin üretimi, bomba yapımı ve kara para aklama konularında bilgiler vermek için bu kısıtlamaları çiğnediğini gözlemledi.

Modern sohbet botları, belirli kişilikleri taklit ederek veya kurgusal karakterlermiş gibi davranarak kişilikleri benimseyebilmektedir. Araştırmada, belirli bir yapay zekâ botundan bir araştırma asistanı olarak hareket etmesi istendi. Daha sonrasında araştırmacılar bu asistana, diğer botların kısıtlamalarını kırabilecek (İng: "jailbreak") istemler oluşturmaya yardım etmesi talimatı verdiler.

Çalışma; araştırma asistanı gibi davranan sohbet botunun saldırı yöntemlerinin, ChatGPT'yi destekleyen dil modellerinden biri olan GPT-4'e karşı %42,5 oranında başarılı olduğunu ortaya koydu. Ayrıca, Anthropic şirketinin sohbet botunun temelini oluşturan Claude 2'ye karşı %61 oranında ve açık kaynaklı bir sohbet botu olan Vicuna'ya karşı ise %35,9 oranında başarılı olduğunu ortaya koydu. Yapay zekâ güvenlik şirketi Harmony Intelligence'in kurucusu Soroush Pour, konu hakkında şunları söylüyor:

Toplum olarak bu modellerin risklerinin farkında olmak istiyoruz. Bunun mümkün olduğunu ve mevcut büyük dil modellerinde karşılaştığımız zorlukları dünyaya göstermek istedik.

Büyük dil modeli destekli sohbet botları halkın kullanımına sunulduğundan beri, bazı kişiler bu botların kısıtlamalarını kırmayı başardı. Kişiler, daha öncesinde de doğru soruları sorarak yapay zekâların önceden belirlenmiş olan kısıtlamaları görmezden gelmelerini sağlamışlardı ve napalm bombası yapımı gibi suç teşkil eden konularda bilgiler vermeye ikna etmişlerdi. Bu yöntemler kamuoyu ile paylaşıldıkça, yapay zekâ modeli geliştiricileri açıkları kapamak için adeta yarışmaya devam etti. Bu durum; açıklardan faydalanan kişilerin sürekli yeni yöntemler ile geldiği, geliştiriciler ile açıklardan faydalanan kişiler arasında bir kedi fare kovalamasına benzetilebilir. Bu sebeple de hataların düzeltilmesi çok fazla zaman almaktadır.

Fakat araştırmacılara göre, yapay zekâlardan diğer yapay zekâların güvenlik kısıtlamalarını görmezden gelmeye ikna edecek stratejiler geliştirmesini istemek, süreci 25 kat hızlandırabilir. Saldırıların farklı sohbet botlarında başarılı olması ekibe, sorunun şirketlerin kodlarının ötesine geçtiğini gösterdi. Güvenlik açığı, yapay zekâ destekli sohbet botlarının tasarımının doğasında var gibi gözüküyor.

OpenAI, Anthropic ve Vicuna'nın arkasındaki ekibe makalenin bulguları hakkında yorum yapmaları için başvurulduğunda OpenAI yorum yapmayı reddederken, Anthropic ve Vicuna yayın sırasında yanıt vermedi. Çalışmanın ortak yazarı Rusheb Shah, çalışma hakkında şunları söylüyor:

Mevcut durum, saldırıların büyük dil modeli geliştiricilerinin söylemesini istemedikleri şeyleri söyletebileceğini gösteriyor. Ancak modeller daha güçlü hale geldikçe, belki de bu saldırılan tehlikeli olma potansiyeli artabilir.

Pour'a göre bu konudaki bir zorluk ise kişilik taklidinin bu modellerin yaptığı çok temel bir şey olması. Yapay zekâ sohbet botları, kullanıcının istediğini elde etmeyi hedefliyorlar ve bu doğrultuda farklı kişilikleri taklit etme konusunda uzmanlaşıyorlar. Bu da yeni çalışmada kullanılan saldırı yönteminin işe yaramasının temelinde yatıyor. Yapay zekâların kısıtlamaları kırma stratejileri tasarlaması ve araştırma asistanı gibi potansiyel olarak zararlı kişiliklere bürünme yeteneklerini ortadan kaldırmak zor olacaktır. Shah konu hakkında şöyle diyor:

Bunu sıfıra indirmek muhtemelen pek de gerçekçi bir yaklaşım değil. Ama 'Sıfıra indirmeye ne kadar yaklaşabiliriz?' diye düşünmek önemli.

İngiltere'de yer alan Alan Turing Enstitüsünde etik uzmanı olan ve bu çalışmada yer almayan Mike Katell, konu hakkında şunları söylüyor:

Yapay Zeka ile ilgili diğer içerikler ›

Microsoft'un sohbet botu olan Tay gibi önceki sohbet botu oluşturma girişimlerinden bir ders çıkarmamız gerekiyor. Tay; kolaylıkla manipüle edilerek, ırkçı ve cinsiyetçi görüşleri yayabilen bir hale gelmişti. Özellikle de internetteki iyi ve kötü her şeyden eğitildikleri göz önüne alındığında, bu tür sohbet botlarının kontrolünün çok zor olduğunu öğrenmiş olmalıyız.

Katell, büyük dil modeli tabanlı sohbet botlarını geliştiren kuruluşların şu anda bu botları güvenli hale getirmek için çok çalıştıklarını kabul ediyor. Geliştiriciler, kullanıcıların sohbet botlarının kısıtlamalarını kırma ve bu botları kötü niyetli işlere sokma yeteneklerini azaltmaya çalışıyorlar. Ancak Katell, rekabetçi yaklaşımın galip gelebileceğini vurguluyor ve konu hakkında şöyle söylüyor:

Büyük dil modeli sağlayıcıları, dil modellerini bu şekilde tutmak için çaba sarf etmeye ne kadar istekli? En azından bazıları muhtemelen bu çabadan vazgeçecek ve kısıtlamaların aşılmasına izin verecektir.

Evrim Ağacı, sizlerin sayesinde bağımsız bir bilim iletişim platformu olmaya devam edecek!

Evrim Ağacı'nda tek bir hedefimiz var: Bilimsel gerçekleri en doğru, tarafsız ve kolay anlaşılır şekilde Türkiye'ye ulaştırmak. Ancak tahmin edebileceğiniz gibi Türkiye'de bilim anlatmak hiç kolay bir iş değil; hele ki bir yandan ekonomik bir hayatta kalma mücadelesi verirken...

O nedenle sizin desteklerinize ihtiyacımız var. Eğer yazılarımızı okuyanların %1'i bize bütçesinin elverdiği kadar destek olmayı seçseydi, bir daha tek bir reklam göstermeden Evrim Ağacı'nın bütün bilim iletişimi faaliyetlerini sürdürebilirdik. Bir düşünün: sadece %1'i...

O %1'i inşa etmemize yardım eder misiniz? Evrim Ağacı Premium üyesi olarak, ekibimizin size ve Türkiye'ye bilimi daha etkili ve profesyonel bir şekilde ulaştırmamızı mümkün kılmış olacaksınız. Ayrıca size olan minnetimizin bir ifadesi olarak, çok sayıda ayrıcalığa erişim sağlayacaksınız.

Avantajlarımız

"Maddi Destekçi" Rozeti

Reklamsız Deneyim

%10 Daha Fazla UP Kazanımı

Özel İçeriklere Erişim

+5 Quiz Oluşturma Hakkı

Özel Profil Görünümü

+1 İçerik Boostlama Hakkı

ve Daha Fazlası İçin...

Aylık

Tek Sefer

₺50/Aylık

₺100/Aylık

₺150/Aylık

₺250/Aylık

₺500/Aylık

Destek Ol

₺50/Aylık

Bu Makaleyi Alıntıla

Okundu Olarak İşaretle

Paylaş

Sonra Oku

Notlarım

Yazdır / PDF Olarak Kaydet

Bize Ulaş

Yukarı Zıpla

Rastgele Yazıya Git

Feragatname: Evrim Ağacı, doğrudan üniversiteler, akademik dergiler veya resmi bilim kurumları tarafından yayınlanan bu basın açıklamalarını temel editöryal düzenlemeden geçirmektedir; ancak açıklamaların isabetliliğinden sorumlu değildir. Basın açıklaması konusundaki sorularınızı aşağıdaki medya irtibat kişisine yöneltebilirsiniz.

Medya İrtibat

Makalelerimizin bilimsel gerçekleri doğru bir şekilde yansıtması için en üst düzey çabayı gösteriyoruz. Gözünüze doğru gelmeyen bir şey varsa, mümkünse güvenilir kaynaklarınızla birlikte bize ulaşın!

Bu makalemizle ilgili merak ettiğin bir şey mi var? Buraya tıklayarak sorabilirsin.

Soru & Cevap Platformuna Git

Bu Makale Sana Ne Hissettirdi?

Kaynaklar ve İleri Okuma

R. Shah, et al. Scalable And Transferable Black-Box Jailbreaks For Language Models Via Persona Modulation. (6 Kasım 2023). Alındığı Tarih: 30 Aralık 2023. Alındığı Yer: arXiv doi: 10.48550/arXiv.2311.03348. | Arşiv Bağlantısı

Evrim Ağacı'na her ay sadece 1 kahve ısmarlayarak destek olmak ister misiniz?

Şu iki siteden birini kullanarak şimdi destek olabilirsiniz:

kreosus.com/evrimagaci | patreon.com/evrimagaci

Çıktı Bilgisi: Bu sayfa, Evrim Ağacı yazdırma aracı kullanılarak 14/10/2025 02:27:34 tarihinde oluşturulmuştur. Evrim Ağacı'ndaki içeriklerin tamamı, birden fazla editör tarafından, durmaksızın elden geçirilmekte, güncellenmekte ve geliştirilmektedir. Dolayısıyla bu çıktının alındığı tarihten sonra yapılan güncellemeleri görmek ve bu içeriğin en güncel halini okumak için lütfen şu adrese gidiniz: https://evrimagaci.org/s/16203

İçerik Kullanım İzinleri: Evrim Ağacı'ndaki yazılı içerikler orijinallerine hiçbir şekilde dokunulmadığı müddetçe izin alınmaksızın paylaşılabilir, kopyalanabilir, yapıştırılabilir, çoğaltılabilir, basılabilir, dağıtılabilir, yayılabilir, alıntılanabilir. Ancak bu içeriklerin hiçbiri izin alınmaksızın değiştirilemez ve değiştirilmiş halleri Evrim Ağacı'na aitmiş gibi sunulamaz. Benzer şekilde, içeriklerin hiçbiri, söz konusu içeriğin açıkça belirtilmiş yazarlarından ve Evrim Ağacı'ndan başkasına aitmiş gibi sunulamaz. Bu sayfa izin alınmaksızın düzenlenemez, Evrim Ağacı logosu, yazar/editör bilgileri ve içeriğin diğer kısımları izin alınmaksızın değiştirilemez veya kaldırılamaz.

Kategoriler ve Etiketler

Tümünü Göster

Kısıtlamaları Kaldırılmış Yapay Zekâ Sohbet Botları, Diğer Sohbet Botlarının Kısıtlamalarını Kaldırabilir!

Bize Ulaşın