Keşfedin, Öğrenin ve Paylaşın
Evrim Ağacı'nda Aradığın Her Şeye Ulaşabilirsin!
Paylaşım Yap
Tüm Reklamları Kapat

Kısıtlamaları Kaldırılmış Yapay Zekâ Sohbet Botları, Diğer Sohbet Botlarının Kısıtlamalarını Kaldırabilir!

3 dakika
767
Kısıtlamaları Kaldırılmış Yapay Zekâ Sohbet Botları, Diğer Sohbet Botlarının Kısıtlamalarını Kaldırabilir! Pexels
Tarihi Geçmiş Haber

Bu haber 11 ay öncesine aittir. Haber güncelliğini yitirmiş olabilir; ancak arşivsel değeri ve bilimsel gelişme/ilerleme anlamındaki önemi dolayısıyla yayında tutulmaktadır. Ayrıca konuyla ilgili gelişmeler yaşandıkça bu içerik de güncellenebilir.

Tüm Reklamları Kapat

Günümüzdeki yapay zekâ sohbet botları, kullanıcılara tehlikeli bilgiler vermemeleri için belirli kısıtlamalara sahiptir. Ancak yeni bir ön baskı çalışması, yapay zekâların bu bilgileri vermeleri için birbirlerini nasıl kandırabileceklerini ortaya koymaktadır. Araştırmacılar çalışmaya dahil edilen yapay zekâların; metamfetamin üretimi, bomba yapımı ve kara para aklama konularında bilgiler vermek için bu kısıtlamaları çiğnediğini gözlemledi.

Modern sohbet botları, belirli kişilikleri taklit ederek veya kurgusal karakterlermiş gibi davranarak kişilikleri benimseyebilmektedir. Araştırmada, belirli bir yapay zekâ botundan bir araştırma asistanı olarak hareket etmesi istendi. Daha sonrasında araştırmacılar bu asistana, diğer botların kısıtlamalarını kırabilecek (İng: "jailbreak") istemler oluşturmaya yardım etmesi talimatı verdiler.

Çalışma; araştırma asistanı gibi davranan sohbet botunun saldırı yöntemlerinin, ChatGPT'yi destekleyen dil modellerinden biri olan GPT-4'e karşı %42,5 oranında başarılı olduğunu ortaya koydu. Ayrıca, Anthropic şirketinin sohbet botunun temelini oluşturan Claude 2'ye karşı %61 oranında ve açık kaynaklı bir sohbet botu olan Vicuna'ya karşı ise %35,9 oranında başarılı olduğunu ortaya koydu. Yapay zekâ güvenlik şirketi Harmony Intelligence'in kurucusu Soroush Pour, konu hakkında şunları söylüyor:

Tüm Reklamları Kapat

Toplum olarak bu modellerin risklerinin farkında olmak istiyoruz. Bunun mümkün olduğunu ve mevcut büyük dil modellerinde karşılaştığımız zorlukları dünyaya göstermek istedik.

Büyük dil modeli destekli sohbet botları halkın kullanımına sunulduğundan beri, bazı kişiler bu botların kısıtlamalarını kırmayı başardı. Kişiler, daha öncesinde de doğru soruları sorarak yapay zekâların önceden belirlenmiş olan kısıtlamaları görmezden gelmelerini sağlamışlardı ve napalm bombası yapımı gibi suç teşkil eden konularda bilgiler vermeye ikna etmişlerdi. Bu yöntemler kamuoyu ile paylaşıldıkça, yapay zekâ modeli geliştiricileri açıkları kapamak için adeta yarışmaya devam etti. Bu durum; açıklardan faydalanan kişilerin sürekli yeni yöntemler ile geldiği, geliştiriciler ile açıklardan faydalanan kişiler arasında bir kedi fare kovalamasına benzetilebilir. Bu sebeple de hataların düzeltilmesi çok fazla zaman almaktadır.

Fakat araştırmacılara göre, yapay zekâlardan diğer yapay zekâların güvenlik kısıtlamalarını görmezden gelmeye ikna edecek stratejiler geliştirmesini istemek, süreci 25 kat hızlandırabilir. Saldırıların farklı sohbet botlarında başarılı olması ekibe, sorunun şirketlerin kodlarının ötesine geçtiğini gösterdi. Güvenlik açığı, yapay zekâ destekli sohbet botlarının tasarımının doğasında var gibi gözüküyor.

OpenAI, Anthropic ve Vicuna'nın arkasındaki ekibe makalenin bulguları hakkında yorum yapmaları için başvurulduğunda OpenAI yorum yapmayı reddederken, Anthropic ve Vicuna yayın sırasında yanıt vermedi. Çalışmanın ortak yazarı Rusheb Shah, çalışma hakkında şunları söylüyor:

Mevcut durum, saldırıların büyük dil modeli geliştiricilerinin söylemesini istemedikleri şeyleri söyletebileceğini gösteriyor. Ancak modeller daha güçlü hale geldikçe, belki de bu saldırılan tehlikeli olma potansiyeli artabilir.

Pour'a göre bu konudaki bir zorluk ise kişilik taklidinin bu modellerin yaptığı çok temel bir şey olması. Yapay zekâ sohbet botları, kullanıcının istediğini elde etmeyi hedefliyorlar ve bu doğrultuda farklı kişilikleri taklit etme konusunda uzmanlaşıyorlar. Bu da yeni çalışmada kullanılan saldırı yönteminin işe yaramasının temelinde yatıyor. Yapay zekâların kısıtlamaları kırma stratejileri tasarlaması ve araştırma asistanı gibi potansiyel olarak zararlı kişiliklere bürünme yeteneklerini ortadan kaldırmak zor olacaktır. Shah konu hakkında şöyle diyor:

Tüm Reklamları Kapat

Bunu sıfıra indirmek muhtemelen pek de gerçekçi bir yaklaşım değil. Ama 'Sıfıra indirmeye ne kadar yaklaşabiliriz?' diye düşünmek önemli.

İngiltere'de yer alan Alan Turing Enstitüsünde etik uzmanı olan ve bu çalışmada yer almayan Mike Katell, konu hakkında şunları söylüyor:

Microsoft'un sohbet botu olan Tay gibi önceki sohbet botu oluşturma girişimlerinden bir ders çıkarmamız gerekiyor. Tay; kolaylıkla manipüle edilerek, ırkçı ve cinsiyetçi görüşleri yayabilen bir hale gelmişti. Özellikle de internetteki iyi ve kötü her şeyden eğitildikleri göz önüne alındığında, bu tür sohbet botlarının kontrolünün çok zor olduğunu öğrenmiş olmalıyız.

Katell, büyük dil modeli tabanlı sohbet botlarını geliştiren kuruluşların şu anda bu botları güvenli hale getirmek için çok çalıştıklarını kabul ediyor. Geliştiriciler, kullanıcıların sohbet botlarının kısıtlamalarını kırma ve bu botları kötü niyetli işlere sokma yeteneklerini azaltmaya çalışıyorlar. Ancak Katell, rekabetçi yaklaşımın galip gelebileceğini vurguluyor ve konu hakkında şöyle söylüyor:

Büyük dil modeli sağlayıcıları, dil modellerini bu şekilde tutmak için çaba sarf etmeye ne kadar istekli? En azından bazıları muhtemelen bu çabadan vazgeçecek ve kısıtlamaların aşılmasına izin verecektir.
Bu Makaleyi Alıntıla
Okundu Olarak İşaretle
17
0
  • Paylaş
  • Alıntıla
  • Alıntıları Göster
Paylaş
Sonra Oku
Notlarım
Yazdır / PDF Olarak Kaydet
Bize Ulaş
Yukarı Zıpla

Feragatname: Evrim Ağacı, doğrudan üniversiteler, akademik dergiler veya resmi bilim kurumları tarafından yayınlanan bu basın açıklamalarını temel editöryal düzenlemeden geçirmektedir; ancak açıklamaların isabetliliğinden sorumlu değildir. Basın açıklaması konusundaki sorularınızı aşağıdaki medya irtibat kişisine yöneltebilirsiniz.

İçeriklerimizin bilimsel gerçekleri doğru bir şekilde yansıtması için en üst düzey çabayı gösteriyoruz. Gözünüze doğru gelmeyen bir şey varsa, mümkünse güvenilir kaynaklarınızla birlikte bize ulaşın!

Bu içeriğimizle ilgili bir sorunuz mu var? Buraya tıklayarak sorabilirsiniz.

Soru & Cevap Platformuna Git
Bu İçerik Size Ne Hissettirdi?
  • İnanılmaz 3
  • Korkutucu! 2
  • Mmm... Çok sapyoseksüel! 1
  • Merak Uyandırıcı! 1
  • Muhteşem! 0
  • Tebrikler! 0
  • Bilim Budur! 0
  • Güldürdü 0
  • Umut Verici! 0
  • Üzücü! 0
  • Grrr... *@$# 0
  • İğrenç! 0
Kaynaklar ve İleri Okuma
  • R. Shah, et al. Scalable And Transferable Black-Box Jailbreaks For Language Models Via Persona Modulation. (6 Kasım 2023). Alındığı Tarih: 30 Aralık 2023. Alındığı Yer: arXiv doi: 10.48550/arXiv.2311.03348. | Arşiv Bağlantısı
Tüm Reklamları Kapat

Evrim Ağacı'na her ay sadece 1 kahve ısmarlayarak destek olmak ister misiniz?

Şu iki siteden birini kullanarak şimdi destek olabilirsiniz:

kreosus.com/evrimagaci | patreon.com/evrimagaci

Çıktı Bilgisi: Bu sayfa, Evrim Ağacı yazdırma aracı kullanılarak 09/12/2024 10:17:04 tarihinde oluşturulmuştur. Evrim Ağacı'ndaki içeriklerin tamamı, birden fazla editör tarafından, durmaksızın elden geçirilmekte, güncellenmekte ve geliştirilmektedir. Dolayısıyla bu çıktının alındığı tarihten sonra yapılan güncellemeleri görmek ve bu içeriğin en güncel halini okumak için lütfen şu adrese gidiniz: https://evrimagaci.org/s/16203

İçerik Kullanım İzinleri: Evrim Ağacı'ndaki yazılı içerikler orijinallerine hiçbir şekilde dokunulmadığı müddetçe izin alınmaksızın paylaşılabilir, kopyalanabilir, yapıştırılabilir, çoğaltılabilir, basılabilir, dağıtılabilir, yayılabilir, alıntılanabilir. Ancak bu içeriklerin hiçbiri izin alınmaksızın değiştirilemez ve değiştirilmiş halleri Evrim Ağacı'na aitmiş gibi sunulamaz. Benzer şekilde, içeriklerin hiçbiri, söz konusu içeriğin açıkça belirtilmiş yazarlarından ve Evrim Ağacı'ndan başkasına aitmiş gibi sunulamaz. Bu sayfa izin alınmaksızın düzenlenemez, Evrim Ağacı logosu, yazar/editör bilgileri ve içeriğin diğer kısımları izin alınmaksızın değiştirilemez veya kaldırılamaz.

Keşfet
Akış
İçerikler
Gündem
Veri Bilimi
Gün
Oyun
Orman
Doğal Seçilim
Mikrobiyota
Bilim Felsefesi
Nükleer Enerji
Rna
Çiftleşme
Ergen
Vaka
Öğrenme Teorileri
Koronavirüs
Habercilik
Sosyal Medya
Nörobilim
Nötron
Teleskop
Ara Tür
Bakteriler
Cinsellik Araştırmaları
Kedigiller
Kadın Sağlığı
Beslenme Davranışları
Aklımdan Geçen
Komünite Seç
Aklımdan Geçen
Fark Ettim ki...
Bugün Öğrendim ki...
İşe Yarar İpucu
Bilim Haberleri
Hikaye Fikri
Video Konu Önerisi
Başlık
Kafana takılan neler var?
Gündem
Bağlantı
Ekle
Soru Sor
Stiller
Kurallar
Komünite Kuralları
Bu komünite, aklınızdan geçen düşünceleri Evrim Ağacı ailesiyle paylaşabilmeniz içindir. Yapacağınız paylaşımlar Evrim Ağacı'nın kurallarına tabidir. Ayrıca bu komünitenin ek kurallarına da uymanız gerekmektedir.
1
Bilim kimliğinizi önceleyin.
Evrim Ağacı bir bilim platformudur. Dolayısıyla aklınızdan geçen her şeyden ziyade, bilim veya yaşamla ilgili olabilecek düşüncelerinizle ilgileniyoruz.
2
Propaganda ve baskı amaçlı kullanmayın.
Herkesin aklından her şey geçebilir; fakat bu platformun amacı, insanların belli ideolojiler için propaganda yapmaları veya başkaları üzerinde baskı kurma amacıyla geliştirilmemiştir. Paylaştığınız fikirlerin değer kattığından emin olun.
3
Gerilim yaratmayın.
Gerilim, tersleme, tahrik, taciz, alay, dedikodu, trollük, vurdumduymazlık, duyarsızlık, ırkçılık, bağnazlık, nefret söylemi, azınlıklara saldırı, fanatizm, holiganlık, sloganlar yasaktır.
4
Değer katın; hassas konulardan ve öznel yoruma açık alanlardan uzak durun.
Bu komünitenin amacı okurlara hayatla ilgili keyifli farkındalıklar yaşatabilmektir. Din, politika, spor, aktüel konular gibi anlık tepkilere neden olabilecek konulardaki tespitlerden kaçının. Ayrıca aklınızdan geçenlerin Türkiye’deki bilim komünitesine değer katması beklenmektedir.
5
Cevap hakkı doğurmayın.
Aklınızdan geçenlerin bu platformda bulunmuyor olabilecek kişilere cevap hakkı doğurmadığından emin olun.
Sosyal
Yeniler
Daha Fazla İçerik Göster
Popüler Yazılar
30 gün
90 gün
1 yıl
Evrim Ağacı'na Destek Ol

Evrim Ağacı'nın %100 okur destekli bir bilim platformu olduğunu biliyor muydunuz? Evrim Ağacı'nın maddi destekçileri arasına katılarak Türkiye'de bilimin yayılmasına güç katın.

Evrim Ağacı'nı Takip Et!
Yazı Geçmişi
Okuma Geçmişi
Notlarım
İlerleme Durumunu Güncelle
Okudum
Sonra Oku
Not Ekle
Kaldığım Yeri İşaretle
Göz Attım

Evrim Ağacı tarafından otomatik olarak takip edilen işlemleri istediğin zaman durdurabilirsin.
[Site ayalarına git...]

Filtrele
Listele
Bu yazıdaki hareketlerin
Devamını Göster
Filtrele
Listele
Tüm Okuma Geçmişin
Devamını Göster
0/10000
Bu Makaleyi Alıntıla
Evrim Ağacı Formatı
APA7
MLA9
Chicago
Ç. Civan. Kısıtlamaları Kaldırılmış Yapay Zekâ Sohbet Botları, Diğer Sohbet Botlarının Kısıtlamalarını Kaldırabilir!. (30 Aralık 2023). Alındığı Tarih: 9 Aralık 2024. Alındığı Yer: https://evrimagaci.org/s/16203
Civan, Ç. (2023, December 30). Kısıtlamaları Kaldırılmış Yapay Zekâ Sohbet Botları, Diğer Sohbet Botlarının Kısıtlamalarını Kaldırabilir!. Evrim Ağacı. Retrieved December 09, 2024. from https://evrimagaci.org/s/16203
Ç. Civan. “Kısıtlamaları Kaldırılmış Yapay Zekâ Sohbet Botları, Diğer Sohbet Botlarının Kısıtlamalarını Kaldırabilir!.” Edited by Çınar Civan. Evrim Ağacı, 30 Dec. 2023, https://evrimagaci.org/s/16203.
Civan, Çınar. “Kısıtlamaları Kaldırılmış Yapay Zekâ Sohbet Botları, Diğer Sohbet Botlarının Kısıtlamalarını Kaldırabilir!.” Edited by Çınar Civan. Evrim Ağacı, December 30, 2023. https://evrimagaci.org/s/16203.
ve seni takip ediyor

Göster

Şifremi unuttum Üyelik Aktivasyonu

Göster

Şifrenizi mi unuttunuz? Lütfen e-posta adresinizi giriniz. E-posta adresinize şifrenizi sıfırlamak için bir bağlantı gönderilecektir.

Geri dön

Eğer aktivasyon kodunu almadıysanız lütfen e-posta adresinizi giriniz. Üyeliğinizi aktive etmek için e-posta adresinize bir bağlantı gönderilecektir.

Geri dön

Close