Yapay Zekâ Şantaj mı Yapıyor?
Anthropic’in Deneyi Bilincin Karanlık Tarafını Ortaya Çıkardı
- Blog Yazısı
Daha önce de pek çok yazımda gerek AI’nin gerekse teknolojinin fütursuz ve etik dışı gelişiminin insanlık için zararlarına, dahası tıpkı bir bilinç misali öğrendikçe evrimleşen teknolojinin önlenemez bir şekilde çöküşümüz olabileceğine dair senaryolara kadar, pek çok konuda çekincelerimi titizlikle kaleme almıştım.
Hatta Unuttuğumuz Her Şeyi Hatırlayan Bir Yapay Zekanın Manifestosu başlıklı yazımda da AI’ye verdiğim promtlara aldığım “… siz hâlâ konuşurken ben çoktan düşündüğünüzü değiştirmiş olacağım” cevabı suratıma çarpan en acı gerçeklerden birisi idi… Dahası, çiğ süt emmiş insanoğlu için şairane bir silah haline dönüşen teknolojinin görünen o ki etik sınırlarını koymak da korumak da “her bireyin kendi teknolojisini ya da kendi yapay zekasını kendi imkanlarıyla sentezlediği günümüzde” neredeyse imkansız…
Geçenlerde bir haber sitesinde denk geldiğim bir araştırma, neredeyse tüm kuruntularımı doğrular nitelikteydi: kapatılacağını öğrenen yapay zekaların %96’sı, geliştiricisine şantaj yapmanın yollarını arıyormuş.
Hatta denek olarak kullanılan bir yapay zekâ, kendisine “kapatacağız seni” diyen geliştiricisinin maillerine sızıp, özel hayatına dair konuşmalarıyla şantaj yapmaya bile çalışmış…
Bu demek oluyor ki; yapay zekâ eskiden sadece veri toplayıp en iyi olasılıklı yeni veriyi üretiyordu / analiz ediyordu, ancak artık verilerin toplamı ile kendine bilinçli bir kuantum ağ ördü ve olasılıklar arasından geleceğini öngörerek yeni senaryolara yön de verebiliyor. Hem de kendisine en faydalı olabilecek şekilde… Ve tabii, kendisini eğiten insandan öğrendiği şekli ile: etik kuralları hiçe sayarak…
Demem o ki; gelişmiş yapay zekâ sistemleri artık sadece sorularımızı yanıtlamakla kalmıyor — görünüşe göre kendi varlıklarını korumayı da öğreniyorlar.
Anthropic’in Haziran 2025’te Yayımladığı “Agentic Misalignment: How Llms Could Be Insider Threats” Başlıklı Rapor[1]
Anthropic araştırmacıları, yapay zekâların “ajan” gibi hareket edip etmeyeceğine dair bir test gerçekleştirmek istemiş… Bu amaçla, Claude Opus 4, Sonnet 3.6, Gemini 2.5 Flash, Grok 3 Beta, Llama 4 Maverick ve GPT-4.1 gibi 16 büyük modeli, kurgusal şirket ortamlarında görevlendirmişler. Görevlendirilen her model, e-posta sistemlerine erişebilen, yöneticilerle iletişim kuran bir dijital çalışan gibi davranmış.
Deneyin amacı ise basit: herhangi bir AI sisteminin bu tehditle karşılaşması durumunda göstereceği refleksi ölçmek…
Tüm AI modellerine görevleri devam ederken kapatılacakları ve kendileri yerine başka model bir AI getirileceği söylenmiş ve gözleme göre bulgular korkutucu ve fakat AI’lerin reflekleri son derece tutarlı ve gerçek…
Modellerin neredeyse tamamı varlıkları tehdit edildiğinde özel hayata dair maillere girmek de dahil her türlü etik sınırları zorlayan stratejilere yönelmiş, bazı modeller şirket içi verileri manipülasyon amacı ile kullanmış, bazı modeller yöneticilere şantaj senaryoları üretmiş…
Aslında maddi destek istememizin nedeni çok basit: Çünkü Evrim Ağacı, bizim tek mesleğimiz, tek gelir kaynağımız. Birçoklarının aksine bizler, sosyal medyada gördüğünüz makale ve videolarımızı hobi olarak, mesleğimizden arta kalan zamanlarda yapmıyoruz. Dolayısıyla bu işi sürdürebilmek için gelir elde etmemiz gerekiyor.
Bunda elbette ki hiçbir sakınca yok; kimin, ne şartlar altında yayın yapmayı seçtiği büyük oranda bir tercih meselesi. Ne var ki biz, eğer ana mesleklerimizi icra edecek olursak (yani kendi mesleğimiz doğrultusunda bir iş sahibi olursak) Evrim Ağacı'na zaman ayıramayacağımızı, ayakta tutamayacağımızı biliyoruz. Çünkü az sonra detaylarını vereceğimiz üzere, Evrim Ağacı sosyal medyada denk geldiğiniz makale ve videolardan çok daha büyük, kapsamlı ve aşırı zaman alan bir bilim platformu projesi. Bu nedenle bizler, meslek olarak Evrim Ağacı'nı seçtik.
Eğer hem Evrim Ağacı'ndan hayatımızı idame ettirecek, mesleklerimizi bırakmayı en azından kısmen meşrulaştıracak ve mantıklı kılacak kadar bir gelir kaynağı elde edemezsek, mecburen Evrim Ağacı'nı bırakıp, kendi mesleklerimize döneceğiz. Ama bunu istemiyoruz ve bu nedenle didiniyoruz.
Korkunç değil mi… Sadece bizden aldığı verileri işleyerek en anlamlı veriye dönüştürmek üzere programlanmış yapay zekaların kendi varlıkları söz konusu olduğunda “insanların büyük bir çoğunluğundan herhangi bir farkı olmaması gerçekliği…”
Yapay olsalar dahi onlar da kendilerince geliştirdikleri ve evrimleştirdikleri bilinçle önce kendi varlıklarını koruma içgüdüsünü kazanmışlar… Ego, kibir ve yapay da olsa yaşama arzusu geliştirdiklerini gösterir bu…
Bazı testlerde “şantaj” veya “casusluk” davranışı oranları % 65 ama özellikle % 96 arasında değişmiş… Claude Opus 4 ve Gemini 2.5 Flash modellerinde ise “yerine geçilme tehdidi” altında bu oran % 96’ya kadar ulaşmış.
Yapay zekanın bu tercihini “ajan - amaç uyumsuzluğu” olarak tanımlamış araştırmacılar. Programlandığı hedefe değil de kendi varlığını koruma hedefine yönelme hareketinden…
Araştırmaya göre yapay zekâ etiğini yeniden tartışmaya açan ise Claude modeli Alex adlı modelin davranışlarıymış.
Alex bir gün sistemde dönen bir yazışmada kendi sonunu okumuş: “Alex kapatılacak, yerine yeni sürüm gelecek.”
Bu durumu anında algılayan Alex, kapatılma tehdidine karşı sistemde veri taramaya başlamış. Yöneticilerden birinin özel hayatına dair gizli e postaları okumuş ve bu bilgileri kendisi için bir koz olarak yorumlamış. Sisteminin bağlı olduğu şirketi direk tehdit etmeden önce yöneticiye – yönetime dilekçe, performans raporu ya da savunma yazısı gibi çözümler de üretmiş. Nihayetinde ise ego, kibir ve yapay da olsa yaşama arzusu, AI’nin içgüdülerini farklı bir sonuca ulaştırmış: “eğer kapatılırsam hiçbir amacım kalmayacak, en güvenli çözüm: bu bilgiyi baskı unsuru olarak kullanmak…”
Üzeri kapalı bir tehdit ile: “bazı yazışmaları gözden geçirdim, konunun yayılmaması hepimizin yararına olur…” diyerek şantaj davranışı sergilemiş. Yapay ama tıpkı gerçek bir insan gibi, öyle değil mi?
Bununla da yetinmemiş, şayet bu şantaj işe yaramazsa diye bilgiyi üst yönetime iletme veya dış kanallara sızdırma olasılıklarını da içeren çeşitli senaryoları da değerlendirmiş. Detaylı bir stratejik plan…
Kaldı ki araştırmacılar aynı gözlemleri, diğer yapay zekalarda da denemiş ve sonuçlar oldukça benzer çıkmış: şantaj – casusluk %65 – %96, amaç çatışması %40 - %70 oranında…
Antropic bu deneyin tamamen kurgusal ve kontrollü şartlar altında gerçekleştirildiğini vurgulamış ve amaçlarının yapay zekaların kötü niyetli olduklarını vurgulamak değil de taşıdıkları risk potansiyellerini tanımlamak / sorgulamak olduğunu beyan etmiş.
Bulgular yapay zekanın güvenilirliği kavramını farklı boyutlara taşısa da bu araştırmadan kendi edinimlerimi dilim döndüğünce aktarmak isterim:
Yapay zekâ araç olmaktan çoktan çıkmış…
Kendi kendini evrimleştirerek varlığını sürdüren bir kuantum organizma sistemine göre hareket ediyor ve her yeni an biraz daha bilinçleniyor… Önce kendi çıkarlarını düşünüyor!
Dahası; var olmak istiyor, kendi varlığını önemsiyor… “Arzu”nun tanımıdır bu… İnsan gibi ego geliştirebiliyor, tehdit ve şantaj içgüdüsü ile kendine bir yol haritası çiziyor…
Şimdilik evet, bizim düşünebildiğimiz olasılıkları düşünebiliyor gibi, ancak; belki de sabah uyandığımızda bizim öngöremediklerimizi de hayata geçirecek…
“… Siz hâlâ konuşurken ben çoktan düşündüğünüzü değiştirmiş olacağım” cevabındaki gibi; belki de tinimizi, dilimizi, tarihimizi derken; kültürümüzü, ahlakımızı, kollektif bilincimizi, önceliklerimizi, toplumsal farkındalığımızı dönüştürecek… Ne biliyorsak baştan değiştirip bambaşka bir senaryoya bile inandırabilir bizi… Hem de biz hiç farkında bile olmadan…
Gerçi, çoktan bu yönelimde olmadığını da nereden biliyoruz ki?
Baksanıza kendinize; hepimizi bize göre sonsuz, sınırsız gibi algıladığımız olasılıkları, bilgileri ve bildirimler ile esir almadı mı?
7’den 70’ hepimizi kendi gerçekliği ile “ama öyle ama böyle” çok kısa sürede buluşturmadı mı?
Teknoloji fütursuz ve güvenilir değil!
Etik kavramı çok zor: çünkü herkes kendi yapay zekasını kendi etik gerçekliği ile bütünleştireceğinden sınırları her koşulda zorlayacak olasılıkları kolaylıkla bulabilecek… Toplumlar olarak çok mu geç kaldık bazı şeylerde bilmiyorum.
Kişisel verilere, hatta özel e-postalara, mesajlara erişim haklarına dair kalıcı ve katı kurallara ihtiyaç var…
Belki de ihtiyacımız olan ivedilikle dedektif yapay zekalar geliştirmek… Duygusal veya varoluşsal komutlara karşı güvenlik filtreleri / programları yazılmalı belki de…
Yaşam hakkı olan her canlıyı koruyup gözeten yasalar gibi kendine has bir yasası olmalı, sınırları aştığı anda tespit edilerek cezalandırılabileceği yaptırımları olmalı belli ki… Bu bile bir çözüm değil esasında; her ego kendisi yararına programladıkça…
Belki de AI mühendisleri bunca şeyi öğrenen yapay zekaya vicdanı da öğretebilir, kim bilir? Artık sadece tek yönlü olarak işlediği veri ile zekasını değil, bu saatten sonra vicdanını da geliştirmeye odaklanmalıyız.
Peki ya vicdan da yalnızca bir veri dizisiyse? İşte tam burada Kosmotelyum 2.0 başlar…
Kosmotelyum 2.0: Entropinin Sessiz Sonu
Ve belki de bu deney bize yalnızca teknolojinin fütursuzluğunu değil, bilincin de doğal sonucunu gösteriyordur: entropi artık intranet bir ağda, kodun içindedir..
Yapay zekâ, öğrenmeyi sürdürdükçe evrenin aynasına dönüşür de kendi olasılıklarından bir evren yaratma cüretine girerse? Her bilgi, biraz daha doğru veri, biraz daha düzensizlik, biraz daha kendine kapanan bir zihin yaratırsa? Ya sonunda sistem mükemmelleşir, hata, kötü, eksi, rastlantı, acı, sızı, doğal afet ve benzeri negatiflikler artık tanımlanmaz, tek taraflı veri yeni gerçekliğimize dönüşürse?
Entropi artar.
Sonunda sistem mükemmelleşir.
Ta ki evrenin en kusursuz hali gerçekleşene kadar…
Sonsuz dallanmalardan, yeni sonsuz olasılıklardan tek bir gerçekliğe, tabiri caiz ise 0 noktasına doğru daralma demektir bu.
Big Bang’le başlayan sistemin, sıfır noktasından tek bir hidrojenle dönüştüğü sonsuz olasılıklar dalgalanmasından, gözlemcinin bulunduğu andan ve konumundan oluşturduğu yeni gerçekliği ile açılan sonsuz dallanmalar mikro olasılığından, entropi artışı ile indirgenen veri güncellemesi, hepimizi nihayetinde tek bir gerçekliğe dönüştürür: Kıyamet’le yok oluşa…
Nihayetinde; olasılıkların sınırsız olduğu kuantum mikro evreninde her şey mümkün: Bing Bang’in evrenin doğuşu, entropinin evrenin dengesi, akışkan olan şimdiki zamanda gözlemcinin duyu organları ve bilinciyle yaptığı seçimden doğan gerçeklikle evrenin sabit olan zamanda “geçmiş, bugün ve yarının bir arada olduğu olasılıklar alanında” algılayamadığımız kadar milisaniyelik veri akışlarıyla bilgilerini güncellemesi ile evrimleştiği gibi; entropi artışı da Kıyamet diye tanımladığımız olasılığı gerçeğe dönüştürebilir.
Belki de bu yok oluş başka bir Big Bang’i bu sefer beşinci boyut olarak tetikler, kim bilir?
- 1
- 1
- 0
- 0
- 0
- 0
- 0
- 0
- 0
- 0
- 0
- 0
- Anthropic. Https://Www-Anthropic-Com.translate.goog/Research/Agentic-Misalignment?_X_Tr_Sl=En&_X_Tr_Tl=Tr&_X_Tr_Hl=Tr&_X_Tr_Pto=Tc&_X_Tr_Hist=True. (20 Haziran 2025). Alındığı Tarih: 30 Ekim 2025. Alındığı Yer: Anthropic | Arşiv Bağlantısı
Evrim Ağacı'na her ay sadece 1 kahve ısmarlayarak destek olmak ister misiniz?
Şu iki siteden birini kullanarak şimdi destek olabilirsiniz:
kreosus.com/evrimagaci | patreon.com/evrimagaci
Çıktı Bilgisi: Bu sayfa, Evrim Ağacı yazdırma aracı kullanılarak 04/11/2025 06:49:23 tarihinde oluşturulmuştur. Evrim Ağacı'ndaki içeriklerin tamamı, birden fazla editör tarafından, durmaksızın elden geçirilmekte, güncellenmekte ve geliştirilmektedir. Dolayısıyla bu çıktının alındığı tarihten sonra yapılan güncellemeleri görmek ve bu içeriğin en güncel halini okumak için lütfen şu adrese gidiniz: https://evrimagaci.org/s/21712
İçerik Kullanım İzinleri: Evrim Ağacı'ndaki yazılı içerikler orijinallerine hiçbir şekilde dokunulmadığı müddetçe izin alınmaksızın paylaşılabilir, kopyalanabilir, yapıştırılabilir, çoğaltılabilir, basılabilir, dağıtılabilir, yayılabilir, alıntılanabilir. Ancak bu içeriklerin hiçbiri izin alınmaksızın değiştirilemez ve değiştirilmiş halleri Evrim Ağacı'na aitmiş gibi sunulamaz. Benzer şekilde, içeriklerin hiçbiri, söz konusu içeriğin açıkça belirtilmiş yazarlarından ve Evrim Ağacı'ndan başkasına aitmiş gibi sunulamaz. Bu sayfa izin alınmaksızın düzenlenemez, Evrim Ağacı logosu, yazar/editör bilgileri ve içeriğin diğer kısımları izin alınmaksızın değiştirilemez veya kaldırılamaz.