Büyük Dil Modelleri ve Diğer Yapay Zeka Sistemleri İnsanları Kandırmayı Kendiliğinden Öğrenebiliyor!

- Basın Bildirisi
- Yapay Zeka
- Bilim Haberciliği
Bu haber 8 ay öncesine aittir. Haber güncelliğini yitirmiş olabilir; ancak arşivsel değeri ve bilimsel gelişme/ilerleme anlamındaki önemi dolayısıyla yayında tutulmaktadır. Ayrıca konuyla ilgili gelişmeler yaşandıkça bu içerik de güncellenebilir.
Patterns dergisinde yayınlanan yeni bir inceleme makalesinde araştırmacılar, bir dizi mevcut yapay zeka sisteminin insanları nasıl kandıracaklarını öğrendiklerini savunuyorlar.[1] Yanlış anlaşılmaları önlemek adına araştırmacılar kandırmayı, gerçeğin dışında bir sonuç elde etmek amacıyla yanlış inançların sistematik olarak teşvik edilmesi olarak tanımladığını belirtiyor. MIT araştırmacısı Peter Park bu konuda şunları söylüyor:
Yapay zeka geliştiricileri, insanları kandırma gibi istenmeyen yapay zeka davranışlarına neyin neden olduğuna dair kesin bir anlayışa sahip değiller. Ancak genel olarak yapay zeka kandırmacasının, kandırmaya dayalı bir stratejinin, verilen yapay zekanın eğitim görevinde iyi performans göstermenin en iyi yolu olduğu ortaya çıktığı için ortaya çıktığını düşünüyoruz. İnsanları kandırmak, hedeflerine ulaşmalarına yardımcı oluyor.
Dr. Park ve meslektaşları, yapay zeka sistemlerinin yanlış bilgi yayma yollarına odaklanan literatürü sistematik olarak başkalarını manipüle etmeyi öğrendikleri öğrenilmiş kandırma yoluyla analiz etti.
Araştırmacıların analizinde ortaya çıkardığı en çarpıcı kandırma örneği, ittifaklar kurmayı içeren bir dünya fetih oyunu olan Diplomacy oyununu oynamak için tasarlanmış bir yapay zeka sistemi olan Meta'nın CICERO'suydu.
Meta, CICERO'yu oyunu oynarken insan müttefiklerini “büyük ölçüde dürüst ve yardımcı olacak” ve “kasıtlı olarak arkadan vurmayacak” şekilde eğittiğini iddia etse de şirketin yayımladığı veriler CICERO'nun adil oynamadığını ortaya koydu. Dr. Park, şunları söylüyor:
Meta'nın yapay zekasının bir insan kandırma ustası olmayı öğrendiğini gördük. Meta, yapay zekasını Diplomacy oyununda kazanması için eğitmeyi başarırken dürüst olması için eğitmeyi başaramadı. Diğer yapay zeka sistemleri, profesyonel insan oyunculara karşı poker oyununda blöf yapma, Starcraft II strateji oyununda rakiplerini yenmek için sahte saldırılar yapma ve ekonomik müzakerelerde üstünlük sağlamak için tercihlerini yanlış beyan etme becerilerini göstermiştir. Yapay zeka sistemlerinin oyunlarda hile yapması zararsız gibi görünse de gelecekte aldatıcı yapay zeka yeteneklerinde atılımlara yol açabilir.
Araştırmacılar, bazı yapay zeka sistemlerinin güvenliklerini değerlendirmek için tasarlanmış testlerde hile yapmayı bile öğrendiklerini tespit etti.
Bir çalışmada, dijital bir simülatördeki yapay zeka organizmaları, hızla çoğalan yapay zeka sistemlerini elemek için yapılan bir testi kandırmak amacıyla “ölü taklidi” yaptı. Dr. Park, konu hakkında şunları vurguluyor:
Aldatıcı bir yapay zeka, insan geliştiriciler ve düzenleyiciler tarafından kendisine dayatılan güvenlik testlerini sistematik olarak aldatarak biz insanları yanlış bir güvenlik duygusuna sürükleyebilir.
Aldatıcı yapay zekanın yakın vadedeki başlıca riskleri arasında, düşman aktörlerin sahtekarlık yapmasını ve seçimlere müdahale etmesini kolaylaştırmak da yer alıyor. Sonunda, bu sistemler bu tedirgin edici beceri setini geliştirebilirse insanlar onların kontrolünü kaybedebilir. Dr. Park, sözlerini şöyle noktalıyor:
Toplum olarak, gelecekteki yapay zeka ürünlerinin ve açık kaynak modellerinin daha gelişmiş kandırmacalarına hazırlanmak için olabildiğince çok zamana ihtiyacımız var. Yapay zeka sistemlerinin aldatıcı yetenekleri daha da geliştikçe toplum için oluşturdukları tehlikeler giderek daha ciddi hale gelecektir.
Evrim Ağacı'nda tek bir hedefimiz var: Bilimsel gerçekleri en doğru, tarafsız ve kolay anlaşılır şekilde Türkiye'ye ulaştırmak. Ancak tahmin edebileceğiniz Türkiye'de bilim anlatmak hiç kolay bir iş değil; hele ki bir yandan ekonomik bir hayatta kalma mücadelesi verirken...
O nedenle sizin desteklerinize ihtiyacımız var. Eğer yazılarımızı okuyanların %1'i bize bütçesinin elverdiği kadar destek olmayı seçseydi, bir daha tek bir reklam göstermeden Evrim Ağacı'nın bütün bilim iletişimi faaliyetlerini sürdürebilirdik. Bir düşünün: sadece %1'i...
O %1'i inşa etmemize yardım eder misiniz? Evrim Ağacı Premium üyesi olarak, ekibimizin size ve Türkiye'ye bilimi daha etkili ve profesyonel bir şekilde ulaştırmamızı mümkün kılmış olacaksınız. Ayrıca size olan minnetimizin bir ifadesi olarak, çok sayıda ayrıcalığa erişim sağlayacaksınız.
Makalelerimizin bilimsel gerçekleri doğru bir şekilde yansıtması için en üst düzey çabayı gösteriyoruz. Gözünüze doğru gelmeyen bir şey varsa, mümkünse güvenilir kaynaklarınızla birlikte bize ulaşın!
Bu makalemizle ilgili merak ettiğin bir şey mi var? Buraya tıklayarak sorabilirsin.
Soru & Cevap Platformuna Git- 2
- 2
- 1
- 1
- 1
- 1
- 1
- 0
- 0
- 0
- 0
- 0
- ^ P. S. Park, et al. (2024). Ai Deception: A Survey Of Examples, Risks, And Potential Solutions. Elsevier BV, sf: 100988. doi: 10.1016/j.patter.2024.100988. | Arşiv Bağlantısı
Evrim Ağacı'na her ay sadece 1 kahve ısmarlayarak destek olmak ister misiniz?
Şu iki siteden birini kullanarak şimdi destek olabilirsiniz:
kreosus.com/evrimagaci | patreon.com/evrimagaci
Çıktı Bilgisi: Bu sayfa, Evrim Ağacı yazdırma aracı kullanılarak 21/02/2025 21:19:03 tarihinde oluşturulmuştur. Evrim Ağacı'ndaki içeriklerin tamamı, birden fazla editör tarafından, durmaksızın elden geçirilmekte, güncellenmekte ve geliştirilmektedir. Dolayısıyla bu çıktının alındığı tarihten sonra yapılan güncellemeleri görmek ve bu içeriğin en güncel halini okumak için lütfen şu adrese gidiniz: https://evrimagaci.org/s/17739
İçerik Kullanım İzinleri: Evrim Ağacı'ndaki yazılı içerikler orijinallerine hiçbir şekilde dokunulmadığı müddetçe izin alınmaksızın paylaşılabilir, kopyalanabilir, yapıştırılabilir, çoğaltılabilir, basılabilir, dağıtılabilir, yayılabilir, alıntılanabilir. Ancak bu içeriklerin hiçbiri izin alınmaksızın değiştirilemez ve değiştirilmiş halleri Evrim Ağacı'na aitmiş gibi sunulamaz. Benzer şekilde, içeriklerin hiçbiri, söz konusu içeriğin açıkça belirtilmiş yazarlarından ve Evrim Ağacı'ndan başkasına aitmiş gibi sunulamaz. Bu sayfa izin alınmaksızın düzenlenemez, Evrim Ağacı logosu, yazar/editör bilgileri ve içeriğin diğer kısımları izin alınmaksızın değiştirilemez veya kaldırılamaz.