Büyük Dil Modelleri ve Diğer Yapay Zeka Sistemleri İnsanları Kandırmayı Kendiliğinden Öğrenebiliyor!
Bu haber 6 ay öncesine aittir. Haber güncelliğini yitirmiş olabilir; ancak arşivsel değeri ve bilimsel gelişme/ilerleme anlamındaki önemi dolayısıyla yayında tutulmaktadır. Ayrıca konuyla ilgili gelişmeler yaşandıkça bu içerik de güncellenebilir.
Patterns dergisinde yayınlanan yeni bir inceleme makalesinde araştırmacılar, bir dizi mevcut yapay zeka sisteminin insanları nasıl kandıracaklarını öğrendiklerini savunuyorlar.[1] Yanlış anlaşılmaları önlemek adına araştırmacılar kandırmayı, gerçeğin dışında bir sonuç elde etmek amacıyla yanlış inançların sistematik olarak teşvik edilmesi olarak tanımladığını belirtiyor. MIT araştırmacısı Peter Park bu konuda şunları söylüyor:
Yapay zeka geliştiricileri, insanları kandırma gibi istenmeyen yapay zeka davranışlarına neyin neden olduğuna dair kesin bir anlayışa sahip değiller. Ancak genel olarak yapay zeka kandırmacasının, kandırmaya dayalı bir stratejinin, verilen yapay zekanın eğitim görevinde iyi performans göstermenin en iyi yolu olduğu ortaya çıktığı için ortaya çıktığını düşünüyoruz. İnsanları kandırmak, hedeflerine ulaşmalarına yardımcı oluyor.
Dr. Park ve meslektaşları, yapay zeka sistemlerinin yanlış bilgi yayma yollarına odaklanan literatürü sistematik olarak başkalarını manipüle etmeyi öğrendikleri öğrenilmiş kandırma yoluyla analiz etti.
Araştırmacıların analizinde ortaya çıkardığı en çarpıcı kandırma örneği, ittifaklar kurmayı içeren bir dünya fetih oyunu olan Diplomacy oyununu oynamak için tasarlanmış bir yapay zeka sistemi olan Meta'nın CICERO'suydu.
Meta, CICERO'yu oyunu oynarken insan müttefiklerini “büyük ölçüde dürüst ve yardımcı olacak” ve “kasıtlı olarak arkadan vurmayacak” şekilde eğittiğini iddia etse de şirketin yayımladığı veriler CICERO'nun adil oynamadığını ortaya koydu. Dr. Park, şunları söylüyor:
Meta'nın yapay zekasının bir insan kandırma ustası olmayı öğrendiğini gördük. Meta, yapay zekasını Diplomacy oyununda kazanması için eğitmeyi başarırken dürüst olması için eğitmeyi başaramadı. Diğer yapay zeka sistemleri, profesyonel insan oyunculara karşı poker oyununda blöf yapma, Starcraft II strateji oyununda rakiplerini yenmek için sahte saldırılar yapma ve ekonomik müzakerelerde üstünlük sağlamak için tercihlerini yanlış beyan etme becerilerini göstermiştir. Yapay zeka sistemlerinin oyunlarda hile yapması zararsız gibi görünse de gelecekte aldatıcı yapay zeka yeteneklerinde atılımlara yol açabilir.
Araştırmacılar, bazı yapay zeka sistemlerinin güvenliklerini değerlendirmek için tasarlanmış testlerde hile yapmayı bile öğrendiklerini tespit etti.
Bir çalışmada, dijital bir simülatördeki yapay zeka organizmaları, hızla çoğalan yapay zeka sistemlerini elemek için yapılan bir testi kandırmak amacıyla “ölü taklidi” yaptı. Dr. Park, konu hakkında şunları vurguluyor:
Aldatıcı bir yapay zeka, insan geliştiriciler ve düzenleyiciler tarafından kendisine dayatılan güvenlik testlerini sistematik olarak aldatarak biz insanları yanlış bir güvenlik duygusuna sürükleyebilir.
Aldatıcı yapay zekanın yakın vadedeki başlıca riskleri arasında, düşman aktörlerin sahtekarlık yapmasını ve seçimlere müdahale etmesini kolaylaştırmak da yer alıyor. Sonunda, bu sistemler bu tedirgin edici beceri setini geliştirebilirse insanlar onların kontrolünü kaybedebilir. Dr. Park, sözlerini şöyle noktalıyor:
Toplum olarak, gelecekteki yapay zeka ürünlerinin ve açık kaynak modellerinin daha gelişmiş kandırmacalarına hazırlanmak için olabildiğince çok zamana ihtiyacımız var. Yapay zeka sistemlerinin aldatıcı yetenekleri daha da geliştikçe toplum için oluşturdukları tehlikeler giderek daha ciddi hale gelecektir.
İçeriklerimizin bilimsel gerçekleri doğru bir şekilde yansıtması için en üst düzey çabayı gösteriyoruz. Gözünüze doğru gelmeyen bir şey varsa, mümkünse güvenilir kaynaklarınızla birlikte bize ulaşın!
Bu içeriğimizle ilgili bir sorunuz mu var? Buraya tıklayarak sorabilirsiniz.
Soru & Cevap Platformuna Git- 2
- 1
- 1
- 1
- 1
- 1
- 1
- 0
- 0
- 0
- 0
- 0
- ^ P. S. Park, et al. (2024). Ai Deception: A Survey Of Examples, Risks, And Potential Solutions. Elsevier BV, sf: 100988. doi: 10.1016/j.patter.2024.100988. | Arşiv Bağlantısı
Evrim Ağacı'na her ay sadece 1 kahve ısmarlayarak destek olmak ister misiniz?
Şu iki siteden birini kullanarak şimdi destek olabilirsiniz:
kreosus.com/evrimagaci | patreon.com/evrimagaci
Çıktı Bilgisi: Bu sayfa, Evrim Ağacı yazdırma aracı kullanılarak 18/12/2024 13:41:37 tarihinde oluşturulmuştur. Evrim Ağacı'ndaki içeriklerin tamamı, birden fazla editör tarafından, durmaksızın elden geçirilmekte, güncellenmekte ve geliştirilmektedir. Dolayısıyla bu çıktının alındığı tarihten sonra yapılan güncellemeleri görmek ve bu içeriğin en güncel halini okumak için lütfen şu adrese gidiniz: https://evrimagaci.org/s/17739
İçerik Kullanım İzinleri: Evrim Ağacı'ndaki yazılı içerikler orijinallerine hiçbir şekilde dokunulmadığı müddetçe izin alınmaksızın paylaşılabilir, kopyalanabilir, yapıştırılabilir, çoğaltılabilir, basılabilir, dağıtılabilir, yayılabilir, alıntılanabilir. Ancak bu içeriklerin hiçbiri izin alınmaksızın değiştirilemez ve değiştirilmiş halleri Evrim Ağacı'na aitmiş gibi sunulamaz. Benzer şekilde, içeriklerin hiçbiri, söz konusu içeriğin açıkça belirtilmiş yazarlarından ve Evrim Ağacı'ndan başkasına aitmiş gibi sunulamaz. Bu sayfa izin alınmaksızın düzenlenemez, Evrim Ağacı logosu, yazar/editör bilgileri ve içeriğin diğer kısımları izin alınmaksızın değiştirilemez veya kaldırılamaz.