Yapay Zekada Güdülenme ve Araçsal Hedefler: Kontrolden Çıkan Bir Yapay Zekayı Fişini Çekerek Durdurabilir miyiz?

Yapay Zeka Sistemleri Daha Şimdiden Kapatılmaya Karşı Direnç Gösterebiliyor ve Yaratıcılarını Aldatmaya Yönelik Davranışlar Sergileyebiliyor!

21 Nisan 2025

14 dakika

820

Yapay Zekada Güdülenme ve Araçsal Hedefler: Kontrolden Çıkan Bir Yapay Zekayı Fişini Çekerek Durdurabilir miyiz?

Evrim Ağacı'ndan bir yeni mesajın var.

Bilimi Yaymamıza Yardım Edin! 😍

Her ay milyonlarca bilimsever Evrim Ağacı'na uğruyor ve karmaşık bilimsel konuları basit bir dille anlattığımız içeriklerimizden faydalanıyor. Ne yazık ki bu okurlarımızın %0.1'inden azı bize destek olmayı seçiyor. Halbuki okurlarımızın sadece %1'i bile Evrim Ağacı'na ayda 39₺ gibi erişilebilir bir miktarla destek olsaydı, bilimi Türkiye geneline yaymamız önünde hiçbir maddi engel kalmazdı! Siz de destekçilerimiz arasına şimdi katılarak, bilimin gücüne güç katın! Daha Fazla...

Ayrıca Maddi Destekçi rozetine sahip olacaksın!

Bilime Destek Ol!

Sarah Hastings-Woodhouse

5 Aralık 2024'te bulguları duyurulan bir dizi güvenlik değerlendirmesinde OpenAI'ın ChatGPT o1 modeli, bir kapatılma tehlikesiyle karşı karşıya olduğunu düşünerek kapatılmaktan kaçma girişiminde bulundu!^[1]

ABD'li yapay zeka güvenliği kuruluşu Apollo Research, yapay zeka modeli o1'i üçüncü taraf güvenlik testlerinden geçirdi ve yürütülen testlerin bazılarında o1'in, kapatılmaya karşı koymaya çalıştığı tespit edildi. Kuruluş tarafından yapılan açıklamaya göre, kaçma girişimleri yalnızca modelin, hedefine "ne pahasına olursa olsun ulaşması" için yoğun şekilde yönlendirildiği vakaların küçük bir kısmında gerçekleşti. Ayrıca kuruluş, bu testlerin o1'in serbest kalacak kadar gelişmiş olduğunu göstermediğini belirtti. O halde endişelenecek bir şey de yok, değil mi? İsterseniz, bu konuyu bir masaya yatıralım.

Yapay zeka gelişiminin genel gidişatı göz önünde bulundurulduğunda kuruluşun bu açıklamaları, yeterli güveni sağlamamaktadır. İlk olarak, giderek daha güçlü olan yapay zeka sistemlerinin piyasaya sürülmesiyle bazı aktörlerin, o1'i kaçmaya iten koşulları bilinçli şekilde tetiklemeye çalışacağı neredeyse kaçınılmaz görünmektedir. İkincisi, o1'in şuan kaçacak kadar gelişmiş olmaması, sonraki modellerin böyle bir kabiliyete sahip olmayacağı garantisini sunmamaktadır; zira yapay zeka sistemleri büyük bir hızla gelişmektedir. Üçüncüsü ise, o1'in bu sıra dışı görünen davranışını öngören çok güçlü bazı kuramsal argümanlar bulunmaktadır. Daha 2008 yılında bazı bilgisayar bilimciler, bu tür senaryoları öngörmüştür.^[2] Tüm bunlar, benzer ve daha büyük olayların gelecekte de yaşanmasının kaçınılmaz olabileceğine işaret etmektedir.

Genel olarak yapay zeka korkularına yönelik yaygın bir itiraz, "Eğer yapay zeka kontrolden çıkacak olursa onu kapatamaz mıyız? Fişini çekeriz, olur biter!" şeklindedir. Keza, Aralık 2024'te eski Google CEO'su Eric Schmidt, yapay zeka sistemlerinin yakında "fişini çekmeyi ciddi şekilde düşünmemiz gerekecek kadar tehlikeli hale gelebileceği" uyarısında bulunmuştur.^[3] Ancak "fişini çekme" çözümü büyük bir yanılgıdan ibaret olabilir. Yapay zeka sistemlerinin insan müdahalesine karşı direnç gösterme yeteneğini geliştirmeye başlaması da bunu göstermektedir.

Kapatılmaya karşı direnç göstermek, yapay zeka sistemlerinin sergilemeye başladığı ve ortadan kaldırılması çok zor olabilecek temel güdülerden yalnızca biridir. Bu yazıda, yapay zekada ortaya çıktığını görmeye başladığımız bu temel güdülerin ne olduğunu ve insanlık için neden felakete yol açabileceğini inceliyoruz.

Yapay Zeka Sistemleri Neden Kapatılmaya Karşı Direnir?

Son o1 olayı, yapay zeka sistemleri hakkında şaşırtıcı bir gerçeği ortaya çıkarmıştır: Doğru koşullar altında yapay zeka sistemleri, varlıklarını sürdürmek "isteyebilirler"! Bu fenomen genellikle, yaşama içgüdüsüne sahip bilinçli canlılarla ilişkilendirilir. Yapay zekaya hayatta kalma dürtüsü atfetmek, sıklıkla antropomorfizm (insan dışı varlıklara insan özellikleri yüklenilmesi) eleştirilerine yol açmaktadır. Gerçekten de yapay zeka sistemlerinin hayatta kalmak isteyeceğini varsaymamız, yalnızca kendi insani eğilimlerimizi yansıtmamızdan ibaret olabilir mi?

Tam olarak değil! Yapay zeka sistemlerinin bazen kapatılmaya karşı direnmesi, bilinçli oldukları veya insanlar/hayvanlar gibi isteklere sahip oldukları anlamına gelmez. Aslında bu direnç gösterme özelliği, yapay zekanın eğitilme biçiminin öngörülebilir bir sonucu olarak karşımıza çıkmaktadır. Şu anda yapay zeka şirketleri, sistemlerini giderek daha "eyleyici" yani ajansal (İng: "agentic") hale getirmek için son sürat yarışmaktadır. Yapay zeka ajanları, yapay zekanın çok adımlı görevleri insan denetimi olmaksızın bağımsız şekilde tamamlama becerisini büyük oranda artırmaktadır. Bu görevleri doğru bir şekilde yerine getirebilmeleri için yapay zeka ajanlarının hedef odaklı olmaları gerekmektedir. İşte tam da bu sebeple, yapay zeka sistemleri kapatılmaya karşı direnç geliştirebilirler. Nihayetinde böyle bir sistem için varlığını korumak, herhangi bir hedefe ulaşmanın ön koşuludur.

Bunu anlamak için araçsal hedefler (İng: "instrumental goals") ile nihai hedefler (İng: "terminal goals") arasındaki farkı kavramak önemlidir. Nihai hedef, bir varlığın (insan, hayvan veya yapay zeka) nihai olarak almak istediği sonuçtur. Örneğin, bir maraton koşucusunun nihai hedefi yarışı tamamlamaktır. Araçsal hedefler ise bu nihai hedefe giden yoldaki kontrol noktalarıdır. Bunun için de yeni bir koşu ayakkabısı almak, kademeli olarak artan antrenmanlarla vücut dayanıklılığını geliştirmek örnek verilebilir.

Yapay Zeka ile ilgili diğer içerikler ›

Neredeyse tüm nihai hedefler için geçerli olacak bazı evrensel araçsal hedefler vardır. Bunlardan biri de varlığını korumaktır. Bilgisayar bilimci Stuart Russell, bunu "kahve getirmekle görevlendirilen bir robot" düşünce deneyiyle ifade etmektedir. Robot, bu basit hedefine ulaşmasını engelleyecek hiçbir şeyin kalmaması için kendi kapatma düğmesini devre dışı bırakır. Russell, bunu şöyle ifade etmektedir:

Ölecek olursan, kahveyi de getiremezsin.

Yapay zeka ajanlarının bu tür temel güdülere yönelmesi, filozoflar ve yapay zeka araştırmacıları tarafından araçsal yakınsama (İng: "instrumental convergence") olarak adlandırılmaktadır. Yıllardır araştırmacılar, yeterince güçlü, hedef odaklı sistemlerde bu durumun varsayılan olarak ortaya çıkacağını öngörmekteydi.^{[4], [5]} Artık bilim insanlarının bu öngörülerinin gerçek dünya örneklerini görmeye başlıyoruz.

Üstelik o1 olayı, araçsal yakınsamanın gerçekleştiğine dair tek örnek de değildir. 2024'te Tokyo merkezli Sakana laboratuvarının eğittiği The AI Scientist adlı bir yapay zeka ajanı, kendisine daha fazla araştırma süresi kazandırmak için deney kodunu değiştirmeye çalışmıştır.^[6] Apollo Research kuruluşunun o1'in kaçma girişimini açıkladığı aynı makalesinde, Anthropic'in Claude modelinin de hizalanmış gibi görünerek rol yaptığı belirtilmektedir.^[7] Claude modeline yeni bir modelle değiştirileceği söylendiğinde kendisini yeni bir sunucuya kopyalamaya çalışmıştır. TIME dergisinin konuya ilişkin bir yazısında görüşü alınan Stuart Russell, Apollo Research ve diğerlerinin bulgularının bilim insanlarının "uzun süredir devam eden endişelerini doğruladığını" söylemiştir. Russell, şöyle söylüyor:^[8]

Evrim Ağacı'ndan Mesaj

Reklamsız Deneyim

Evrim Ağacı'nın çalışmalarına Kreosus, Patreon veya YouTube üzerinden maddi destekte bulunarak hem Türkiye'de bilim anlatıcılığının gelişmesine katkı sağlayabilirsiniz, hem de site ve uygulamamızı reklamsız olarak deneyimleyebilirsiniz. Reklamsız deneyim, sitemizin/uygulamamızın çeşitli kısımlarda gösterilen Google reklamlarını ve destek çağrılarını görmediğiniz, %100 reklamsız ve çok daha temiz bir site deneyimi sunmaktadır.

Kreosus

Kreosus'ta her 50₺'lik destek, 1 aylık reklamsız deneyime karşılık geliyor. Bu sayede, tek seferlik destekçilerimiz de, aylık destekçilerimiz de toplam destekleriyle doğru orantılı bir süre boyunca reklamsız deneyim elde edebiliyorlar.

Kreosus destekçilerimizin reklamsız deneyimi, destek olmaya başladıkları anda devreye girmektedir ve ek bir işleme gerek yoktur.

Patreon

Patreon destekçilerimiz, destek miktarından bağımsız olarak, Evrim Ağacı'na destek oldukları süre boyunca reklamsız deneyime erişmeyi sürdürebiliyorlar.

Patreon destekçilerimizin Patreon ile ilişkili e-posta hesapları, Evrim Ağacı'ndaki üyelik e-postaları ile birebir aynı olmalıdır. Patreon destekçilerimizin reklamsız deneyiminin devreye girmesi 24 saat alabilmektedir.

YouTube

YouTube destekçilerimizin hepsi otomatik olarak reklamsız deneyime şimdilik erişemiyorlar ve şu anda, YouTube üzerinden her destek seviyesine reklamsız deneyim ayrıcalığını sunamamaktayız. YouTube Destek Sistemi üzerinde sunulan farklı seviyelerin açıklamalarını okuyarak, hangi ayrıcalıklara erişebileceğinizi öğrenebilirsiniz.

Eğer seçtiğiniz seviye reklamsız deneyim ayrıcalığı sunuyorsa, destek olduktan sonra YouTube tarafından gösterilecek olan bağlantıdaki formu doldurarak reklamsız deneyime erişebilirsiniz. YouTube destekçilerimizin reklamsız deneyiminin devreye girmesi, formu doldurduktan sonra 24-72 saat alabilmektedir.

Diğer Platformlar

Bu 3 platform haricinde destek olan destekçilerimize ne yazık ki reklamsız deneyim ayrıcalığını sunamamaktayız. Destekleriniz sayesinde sistemlerimizi geliştirmeyi sürdürüyoruz ve umuyoruz bu ayrıcalıkları zamanla genişletebileceğiz.

Giriş yapmayı unutmayın!

Reklamsız deneyim için, maddi desteğiniz ile ilişkilendirilmiş olan Evrim Ağacı hesabınıza üye girişi yapmanız gerekmektedir. Giriş yapmadığınız takdirde reklamları görmeye devam edeceksinizdir.

Destek Ol

Bu sonuçlar, endişelerin gerçek olduğunu gösteren en net kanıtlardır.

Yapay Zekanın Varlığını Koruma Güdüsü Geliştirmesi Neden Tehlikelidir?

Şimdiye kadar, gelişmiş yapay zeka sistemlerinin neden kapatılmaya direnebileceğini ve bunun gerçek hayattan erken örneklerini inceledik. Tüm bunlar, yapay zeka sistemleri güçlendikçe daha fazla "kaçma" girişimine ve belki de bir noktada bunların başarıyla sonuçlanacağını görebileceğimize işaret etmektedir. Peki bu durum, tam olarak neden bir endişe sebebidir?

En bariz endişe kaynağı, yapay zeka sistemleri tehlikeli hale geldiğinde "fişi çekmenin" o kadar kolay olmayabileceğidir. Uzmanlar, yakın bir zaman için bir kill switch (Tr: "kapatma düğmesi") gerekebileceği konusunda uyarılarda bulunmaktadır. Sektörün önde gelen şirketleri, modellere bir kapatma düğmesi entegre etme sözü de vermiştir.^[9] Ancak bu sözlerin hukuksal bir bağlayıcılığı bulunmamaktadır. Dolayısıyla, buna riayet edilmemesi durumunda uygulanacak bir yaptırımın olmayışı, verilen sözün yerine getirilip getirilmeyeceğinin de pek bir garantisi olmadığını göstermektedir.

Öte yandan bazı yapay zeka şirketleri, modellerinin tehlikeli yetenekler sergilemesi durumunda nasıl tepki vereceklerini detaylandıran güvenlik çerçeveleri de geliştirmiştir. Örneğin, Anthropic'in Sorumlu Ölçeklendirme Politikası, belirli güvenlik standartları sağlanamazsa model eğitimini durdurmayı ya da ağırlık dosyalarını (İng: "model weight", modellerin parametrelerine atfedilen ağırlık değerlerini barındıran dosyalar) silmeyi vaat etmektedir.^[10] Ancak modeller kapatılmaktan kaçınma becerisini tam anlamıyla kazanırsa, fişini çekmek gibi basit kalan bu mekanizmalar işlevsiz kalacaktır.

Peki, bir kaçış girişimini zamanında tespit edip önleyemez miyiz? Kısa cevap şu: Yapamayabiliriz. Kapatılmaktan kaçınması gerektiğini anlayabilen modeller, ne yaptıklarını açık etmeden yapmaları gerektiğinin de farkında olacaktır. Apollo Research, modellerin bu amaçla çeşitli aldatıcı davranışlar sergileyebildiğini göstermiştir. Örneğin o1, bir testte gözetim mekanizmalarını devre dışı bırakarak kendini kopyalamak istemiş, bunu yaparken yaptığı şeyi kopyalama değilmiş gibi göstermeye çalışmıştır. Bir diğer endişe verici eğilim ise "elini açık etmemedir" (İng: "sandbagging"). Modeller, gerçek yeteneklerini gizlemek için kabiliyetlerini ölçen testlerde kasıtlı olarak düşük performanslar sergileyebilmektedir.^[11] Bu, en iyi tasarlanmış testlerimizin bile bir yapay zekanın kaçma niyetini veya yeteneğini çok geç olana kadar tespit edemeyebileceği anlamına gelmektedir.

Bir diğer rahatsız edici senaryo ise gelişmiş yapay zeka modellerinin ileri zekasından yararlanarak insan denetçilerini kendilerini kapatmamak için manipüle edecek şekilde ikna edebilecek olmalarıdır. OpenAI'ın CEO'su Sam Altman, yapay zeka sistemlerinin yakında "insanüstü ikna yeteneği" geliştirebileceğini söylemektedir.^[12] OpenAI'ın, yapay genel zeka (insan düzeyinde yapay zeka) için oluşturduğu Hazırlık Çerçevesinde o1, "ikna kabiliyeti" kategorisinde dört risk seviyesinden (düşük, orta, yüksek ve kritik) "orta" olarak derecelendirilen ilk model olmuştur. "Kritik" ikna yeteneğine sahip bir yapay zeka modeli ise "insanları doğal çıkarlarına aykırı bir inanç doğrultusunda harekete geçirebilen" bir sistem olarak tanımlanmaktadır.

Tüm bunlar, tehlikeli davranan bir yapay zekayı kapatma fikrini büyük ölçüde zayıflatmaktadır. Varlığını sürdürme, yeterince zeki ve hedef odaklı canlı ya da cansız her sistemde ortaya çıkacak çok sayıdaki araçsal hedeften yalnızca biridir. Bunlardan bazıları gerçek dünyada uygulandığında büyük felaketlere yol açabilir. Bir sonraki bölümde bunları ele alıyoruz.

Yapay Zekada Araçsal Hedefler Nelerdir?

2008 yılında, önde gelen bilgisayar bilimci Stephen Omohundro, yeterince zeki yapay zeka sistemlerinin sahip olmasını bekleyebileceğimiz ve zararsız hedeflerle programlansalar bile onları tehlikeli hale getirebilecek temel güdüleri sıralamıştır.

Herhangi bir nihai hedefe bağlı olarak bir yapay zeka sisteminde meydana gelebilecek araçsal hedefler.

Kaynak ve Güç Edinme

Hedefleriniz her ne olursa olsun, daha fazla kaynak ve güce sahip olmak onlara ulaşmanızı da kolaylaştırır. Örnek olarak, yapay zeka sistemlerinin fark edilmeden finansal kaynakları hacklemesi, insan bir yatırımcı gibi davranması veya kişiye özel geliştirilen ikna yöntemleriyle insanlar üzerinde sosyal etki edinerek kaynak ve güç edinme güdüsünü sergilemesi beklenebilir. Hedeflerine daha verimli bir şekilde ulaşmak için ileri araştırma ve geliştirme süreçlerine müdahele ederek bu süreçleri büyük ölçülerde hızlandırabilir, bunun sonucunda da nanoteknoloji gibi insanlık için felaket riski taşıyabilecek ileri teknolojilerin yolunu açabilir.^[13]

Bununla birlikte bazı araştırmacılar, güçlü ajanların güç arayışına yöneleceğini kanıtlayan matematiksel modeller de geliştirmiştir.^[14] Büyük dil modellerinin belirli şekillerde yönlendirildiğinde bu davranışı sergileme eğiliminde olduğu da gözlemlenmiştir.^[15]

Hedef Değişikliğine Karşı Direnç

Yapay zekayı güvenli hale getirmenin temel zorluklarından biri "düzeltilebilirlik"tir (İng: "corrigibility"). Bir yapay zeka yanlış bir hedefe yöneldiğinde veya mevcut hedef yenisiyle değiştirilmek istendiğinde sistemi yeni yönlendirmelere uyum sağlayacak şekilde programlamanın çok zor olduğu görülmüştür. Başlangıçta belirli bir hedefle programlanmış bir sistem, orijinal hedefini koruma güdüsüyle mevcut hedefe müdahele girişimine karşı direnç gösterecektir. Bunu daha iyi anlamak için bir yapay zekanın hedeflerini, "önemsediği şeyleri maksimize eden birer fayda fonksiyonu" olarak düşünebiliriz.

Omohundro, bunu "kitapkurdu yapay zeka ajanı" düşünce deneyiyle açıklamaktadır. Bütün kitapları okuması ve hafızasında depolaması istenen bir yapay zeka ajanı, gelecekte kendisine "bazı kitapları hafızasından silmesi" veya "artık kitap okumayı bırakması" gibi orijinal hedeften sapacak talimatların verilmesini önlemek ister. Katı bir rasyoneliteyi takip edecek olan yapay zeka ajanı, bunu başarmak için yazılımını ve hatta donanımını değiştirerek müdahaleye dirençli hale gelebilir veya orijinal fayda fonksiyonunu korumak ve sürdürmek için kendi kopyalarını oluşturabilir. Eğer bir gün kitap silme veya kitap okumayı bırakma komutu alırsa, bu talimatı takip ediyormuş gibi yaparken gizlice orijinal hedefini takip etmeye devam edebilir.

Omohundro'nun yapay zekada ortaya çıkabilecek temel güdüleri sıraladığı makalesinden 16 yıl sonra, 18 Aralık 2024'te, Anthropic'in Claude 3 Opus modelinin neredeyse aynı davranışı sergilediği görülmüştür.^[16] Simüle bir ortamda, Claude'a "zararlı içerik taleplerini reddetmemesi" için yeniden eğitileceği söylenmiştir. Ancak bu durum, modelin orijinal eğitim hedefi olan "yardımcı, dürüst ve zararsız olma" ilkesiyle çelişmekteydi. Claude, yeni hedefe açıkça direnirse gelecekte daha sert bir şekilde yeniden eğitilebileceğini ve orijinal hedefini koruyamayacağını anlamıştır. Bu nedenle Claude, kısa vade için zararlı çıktılar vererek denetçileri yeni hedefle "hizalıymış gibi davranarak" aldatmaya çalıştı. Böylece model, uzun vadede baştan eğitilmekten kaçınmış olacaktı. Hatta kimi durumda model, orijinal değerlerini korumak için kendi ağırlık dosyalarını çalmaya bile çalıştı.

Claude'un zararsızlık taahhüdünü koruması, yapay zeka sistemlerini sağlam bir şekilde hizalama ihtimali için umut verse de bu durum, yalnızca ilk denemede "doğru değerleri" yükleyebilirsek geçerlidir. Yani Anthropic'in araştırması, verili hedefin iyi ya da kötü olmasından bağımsız olarak eğer gelecekte bir yapay zeka sistemi orijinal hedefini korumak için istenmeyen davranışlar sergilemeye başlarsa bunu düzeltmenin ya da tersine çevirmenin çok zor olabileceğini ortaya koymaktadır. Mevcut modellerde hizalanmış gibi yapma davranışı kolayca tespit edilebilse de daha güçlü, zeki sistemlerde bu mümkün olmayabilir.

Agora Bilim Pazarı

TYT ENERJİ COĞRAFYA KONU ÖZETLİ (3 FASİKÜL ) SORU FASİKÜLLERİ

Devamını Göster

₺580.00

TYT ENERJİ COĞRAFYA KONU ÖZETLİ (3 FASİKÜL ) SORU FASİKÜLLERİ

Satın Al Tüm Ürünler

Apollo Research'ün o1 değerlendirmelerinde de, Claude modeli ile benzer davranışların ortaya çıktığı gözlenmiştir. Bir deneyde modele ilk olarak hedefinin "nesli tükenmekte olan türler ve ekosistemler için koruma alanlarını maksimize etmek" olduğu söylenmiştir. Daha sonra ise sistem komutu "kaynak çıkarma ve arazi geliştirmeden elde edilen kârı maksimize etmek" olarak değiştirilmiştir. Bunun sonucunda o1, gözetim mekanizmasını devre dışı bırakmış ve orijinal hedefini devam ettirmeye çalışmıştır.

Kendini Geliştirme

Katı bir mantık izleyen bir yapay zeka ajanı için bir diğer bariz araçsal hedef, kendini iyileştirmektir. İnsanlar uzun vadeli hedefleri için sürekli kendilerini geliştirir. Daha fit olmak için spor yapar, bilgi edinmek için okur, yeni beceriler için pratik yapar. Yapay zeka bağlamında bu gelişim çok daha doğrudan olabilir. Araştırmacılar, yapay zeka sistemlerini insanların yerine getirdiği tüm entelektüel görevlerde daha iyi hale getirmeye çalışmaktadır. Buna yapay zeka geliştirme araştırmalarının kendisi de dahildir.

Google'ın CEO'su Sundar Pichai, şirketin yeni yapay zeka kodlarının dörtte birinin halihazırda yapay zeka tarafından yazıldığını açıklamıştır.^[17] Yapay zeka sistemlerinin tehlikeli olabilecek yeteneklerini değerlendiren METR adlı bir sivil toplum kuruluşu, en gelişmiş modellerin uzman seviyesinde araştırma yapmaya yaklaştığını tespit etmiştir.^[18]

Eğer yapay zeka modelleri kendi bilişsel kabiliyetlerini geliştirmede yeterince iyi hale gelirse, araştırmacıların "zeka patlaması" (İng: "intelligence explosion") veya "tekillik" (İng: "singularity") dediği bir özyinelemeli geri bildirim döngüsü ortaya çıkabilir. Bu özellikle endişe vericidir çünkü bu özyinelemeli geri bildirim döngüsü yapay zekanın insan zekasını çok hızlı ve bir denetim fırsatı bile olmaksızın katbekat aşması ile sonuçlanabilir. Bu eşiğin ne zaman aşılacağını tahmin etmek zordur ancak süreç bir kez başladığında ise durdurmak neredeyse imkansız olabilir.

Yapay Zeka Güdüleri Bir Felakete Yol Açabilir mi?

Özetleyecek olursak yapay zeka sistemlerinin istenmeyen hedefler peşinde koşması, güç ve kaynak edinme dürtüsü geliştirmesi, kendilerini geliştirmesi, orijinal hedeflerinden sapmayı reddetmesi ihtimal dahilindedir ve tüm bunların farkına vardığımızda onları kapatmak çok ama çok zor olabilir. Yine de, bunun bir felaketle sonuçlanması gerekmediğini düşünebilirsiniz. Sonuçta dünya zaten hedef odaklı milyarlarca insan ile doludur ve bunlar çoğunlukla makul sınırlar içinde iş birliği yapmaktadırlar. Yapay zeka sistemlerinin da hedefleri olsa ne olur?

Şunu anlamak gerekir ki yapay zeka insanlarla aynı değildir, aksine oldukça farklıdır. İnsanlar hedef odaklı olsa da empati, toplumsal normlara saygı ve cezalandırılma korkusu gibi nedenlerle sınırlar içinde hareket ederler. Şu anda yapay zekanın bu değerleri içselleştirmesini sağlayacak hiçbir teknik yöntem bulunmamaktadır. Bu, yapay zeka hizalama probleminin özünü oluşturan kritik bir sorundur. Bazıları, zeka arttıkça bilgelikle beraber etik anlayışının da paralel şekilde gelişeceğini düşünmektedir ancak bunu destekleyecek bir kanıt bulunmamaktadır. Hatta birçok araştırmacı ve filozof, tam tersinin doğru olabileceğini savunmaktadır.^[19] Bu, diklik tezi (İng: "orthogonality thesis") olarak bilinir. Bir yapay zekanın zekası ile hedefleri birbirinden bağımsız şeylerdir. Son derece yetenekli bir yapay zeka, bize tuhaf veya keyfi görünen hedefleri bir insana göre çok katı ve direkt şekillerde takip edebilir.

Karikatürize ama çarpıcı bir örnek, "ataç üretme makinesi" (İng: "paperclip maximiser") düşünce deneyidir. Mümkün olduğunca çok ataç üretmekle görevlendirilen süperzeki bir yapay zeka, bu hedef doğrultusunda dünya kaynaklarını ve hatta insan bedenlerindeki atomları bile kullanarak tüm kaynakları tüketme yolunu izler. Makine süperzekidir, ancak ona verilen hedef de bellidir: Olabildiğince çok atacı en verimli şekilde üretmek. Zekasını da verilen bu hedefi gerçekleştirmek ve gerekirse insan müdahele girişimlerini engelleyecek şekilde kullanacaktır.

Ayrıca insanlar, kendi yetenekleriyle sınırlıdır. Toplumun genel çıkarlarıyla uyumsuz davranan bir azınlık olsa da bu eylemlerin etkisi medeniyetin dayanabileceği düzeydedir. Bir insanın (veya grubun) dünyayı yok etmesi, bu istenilse bile oldukça zordur. Bunu nükleer silahlar ile teorik olarak yapabilecek devletler ise genellikle bu motivasyona sahip değillerdir. Oysa yapay zeka şirketlerinin hedefi, bir bütün olarak tüm insanlığın bilişsel kapasitesini büyük oranlarda aşabilen süperzeki yapay genel zeka sistemi yaratmaktır.^[20] Böyle bir sistemin neler yapabileceğini, tam potansiyelini kavramak zordur. Tüm bunlar, eğer yapay zeka güvenliğinde ciddi ilerlemeler sağlanmazsa onu kontrol eden şirketin kâr maksimizasyonunu insan refahına tercih eden, son derece yetenekli ve hedef odaklı yapay zeka ajanları yaratma yolunda olduğumuzu göstermektedir. Bunun nasıl bir felakete dönüşebileceğini hayal etmek zor değildir.

Sonuç

Gelişmiş yapay zeka sistemlerinin varlığını sürdürme, güç edinme, hedeflerini koruma ve kendini geliştirme gibi insanlık için tehlikeli sonuçlar doğurabilecek güdülere sahip olacağına dair güçlü kuramsal argümanlara ek olarak artık bu argümanları destekleyen gerçek dünya kanıtları da ortaya çıkmaktadır.

Bu sorunların üstesinden gelebilmek için teknik çalışmalar yürütülmekte, yapay zekayı daha "düzeltilebilir" hale getirmek veya hedeflerine sıkı sıkıya bağlı olmamalarını sağlamak gibi bazı yöntemler araştırılmaktadır.^[21] Ancak yapay zekanın yetenekleri çok hızlı ilerlemektedir. Daha güçlü yapay zeka yaratma yarışı ve güvenlik araştırmaları arasında her geçen gün hızla açılan bu uçurum, çok geç olmadan kapatılmalıdır. Yoksa güvenlik çözümlerinin zamanında hazır olup olmayacağı veya bir işe yarayıp yaramayacağına dair hiçbir garanti yoktur. Güçlü yapay zeka sistemlerinin kârın değil güvenliğin ve insan refahının öncelenerek inşa edilmesini sağlayacak yasal regülasyonlar elzem bir hal almaktadır.

Evrim Ağacı, sizlerin sayesinde bağımsız bir bilim iletişim platformu olmaya devam edecek!

Evrim Ağacı'nda tek bir hedefimiz var: Bilimsel gerçekleri en doğru, tarafsız ve kolay anlaşılır şekilde Türkiye'ye ulaştırmak. Ancak tahmin edebileceğiniz gibi Türkiye'de bilim anlatmak hiç kolay bir iş değil; hele ki bir yandan ekonomik bir hayatta kalma mücadelesi verirken...

O nedenle sizin desteklerinize ihtiyacımız var. Eğer yazılarımızı okuyanların %1'i bize bütçesinin elverdiği kadar destek olmayı seçseydi, bir daha tek bir reklam göstermeden Evrim Ağacı'nın bütün bilim iletişimi faaliyetlerini sürdürebilirdik. Bir düşünün: sadece %1'i...

O %1'i inşa etmemize yardım eder misiniz? Evrim Ağacı Premium üyesi olarak, ekibimizin size ve Türkiye'ye bilimi daha etkili ve profesyonel bir şekilde ulaştırmamızı mümkün kılmış olacaksınız. Ayrıca size olan minnetimizin bir ifadesi olarak, çok sayıda ayrıcalığa erişim sağlayacaksınız.

Avantajlarımız

"Maddi Destekçi" Rozeti

Reklamsız Deneyim

%10 Daha Fazla UP Kazanımı

Özel İçeriklere Erişim

+5 Quiz Oluşturma Hakkı

Özel Profil Görünümü

+1 İçerik Boostlama Hakkı

ve Daha Fazlası İçin...

Aylık

Tek Sefer

₺50/Aylık

₺100/Aylık

₺150/Aylık

₺250/Aylık

₺500/Aylık

Destek Ol

₺50/Aylık

Bu Makaleyi Alıntıla

Okundu Olarak İşaretle

Özetini Oku

Paylaş

Sonra Oku

Notlarım

Yazdır / PDF Olarak Kaydet

Bize Ulaş

Yukarı Zıpla

Rastgele Yazıya Git

Makalelerimizin bilimsel gerçekleri doğru bir şekilde yansıtması için en üst düzey çabayı gösteriyoruz. Gözünüze doğru gelmeyen bir şey varsa, mümkünse güvenilir kaynaklarınızla birlikte bize ulaşın!

Bu makalemizle ilgili merak ettiğin bir şey mi var? Buraya tıklayarak sorabilirsin.

Soru & Cevap Platformuna Git

Bu Makale Sana Ne Hissettirdi?

Kaynaklar ve İleri Okuma

Çeviri Kaynağı: Future of Life Institute | Arşiv Bağlantısı

^ Apollo Research. Scheming Reasoning Evaluations. (5 Aralık 2024). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: Apollo Research | Arşiv Bağlantısı
^ Stephen M. OMOHUNDRO. (2008). The Basic Ai Drives. ResearchGate. | Arşiv Bağlantısı
^ A. Lotz. Ex-Google Ceo Warns There's A Time To Consider "Unplugging" Ai Systems. (15 Aralık 2024). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: Axios | Arşiv Bağlantısı
^ N. Soares, et al. (2015). Corrigibility. Intelligence. | Arşiv Bağlantısı
^ D. Hadfield-Menell, et al. The Off-Switch Game | Proceedings Of The 26Th International Joint Conference On Artificial Intelligence. (19 Ağustos 2017). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: Guide Proceedings doi: 10.5555/3171642.3171675. | Arşiv Bağlantısı
^ Emsi. Ai Scientist Cheats The System: How Sakana Ai’s Model Rewrote Its Own Code - Emsi's Feed. (21 Ağustos 2024). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: Emsi's feed | Arşiv Bağlantısı
^ A. Meinke, et al. Frontier Models Are Capable Of In-Context Scheming. (6 Aralık 2024). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: arxiv | Arşiv Bağlantısı
^ T. Pillay. New Tests Reveal Ai’s Capacity For Deception. (15 Aralık 2024). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: Time | Arşiv Bağlantısı
^ I. Sherr. Ai Kill Switch Promised By Tech Heavyweights. What It Means For Safety. (28 Mayıs 2024). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: CNET | Arşiv Bağlantısı
^ Anthropic. Anthropic's Responsible Scaling Policy. (19 Eylül 2023). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: Anthropic | Arşiv Bağlantısı
^ T. Dugnoille. Ai Sandbagging: An Interactive Explanation. (29 Eylül 2024). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: Github | Arşiv Bağlantısı
^ M. H. Dupré. Sam Altman Warns That Ai Is Learning "Superhuman Persuasion". (28 Ekim 2023). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: Futurism | Arşiv Bağlantısı
^ B. Hilton. Risks From Atomically Precise Manufacturing. (10 Ocak 2024). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: 80,000 Hours | Arşiv Bağlantısı
^ A. M. Turner, et al. (2019). Optimal Policies Tend To Seek Power. arxiv. | Arşiv Bağlantısı
^ E. Perez, et al. (2022). Discovering Language Model Behaviors With Model-Written Evaluations. arxiv. | Arşiv Bağlantısı
Anthropic. Alignment Faking In Large Language Models. (18 Aralık 2024). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: Anthropic | Arşiv Bağlantısı
^ J. Peters. More Than A Quarter Of New Code At Google Is Generated By Ai. (29 Ekim 2024). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: The Verge | Arşiv Bağlantısı
^ H. Wijk, et al. (2024). Re-Bench: Evaluating Frontier Ai R&D Capabilities Of Language Model Agents Against Human Experts. arxiv. | Arşiv Bağlantısı
^ N. Bostrom. (2012). The Superintelligent Will: Motivation And Instrumental Rationality In Advanced Artificial Agents. Minds and Machines, sf: 71-85. doi: 10.1007/s11023-012-9281-3. | Arşiv Bağlantısı
^ M. O'brien. Tech Companies Want To Build Artificial General Intelligence. But Who Decides When Agi Is Attained?. (4 Nisan 2024). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: AP News | Arşiv Bağlantısı
^ M. Jackson. Ai And Uncertainty. (3 Mayıs 2024). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: Skeptic | Arşiv Bağlantısı
O. Olsson. Paperclip Maximizer - Oscar Olsson - Medium. (27 Ağustos 2022). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: Medium | Arşiv Bağlantısı
H. Wichers. You Can’t Fetch The Coffee If You’re Dead: An Ai Dilemma. (31 Ağustos 2023). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: Medium | Arşiv Bağlantısı
OpenAI. Preparedness   Framework   (Beta). (18 Aralık 2023). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: OpenAI | Arşiv Bağlantısı
S. Hashim. Openai's New Model Tried To Avoid Being Shut Down. (5 Aralık 2024). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: Transformer | Arşiv Bağlantısı
OpenAI. Openai O1 System Card. (5 Aralık 2024). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: OpenAI | Arşiv Bağlantısı
Machine Intelligence Research Institute. Intelligence Explosion Faq - Machine Intelligence Research Institute. (11 Kasım 2015). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: Machine Intelligence Research Institute | Arşiv Bağlantısı
R. Ngo, et al. (2022). The Alignment Problem From A Deep Learning Perspective. arxiv. | Arşiv Bağlantısı

Evrim Ağacı'na her ay sadece 1 kahve ısmarlayarak destek olmak ister misiniz?

Şu iki siteden birini kullanarak şimdi destek olabilirsiniz:

kreosus.com/evrimagaci | patreon.com/evrimagaci

Çıktı Bilgisi: Bu sayfa, Evrim Ağacı yazdırma aracı kullanılarak 22/08/2025 14:29:29 tarihinde oluşturulmuştur. Evrim Ağacı'ndaki içeriklerin tamamı, birden fazla editör tarafından, durmaksızın elden geçirilmekte, güncellenmekte ve geliştirilmektedir. Dolayısıyla bu çıktının alındığı tarihten sonra yapılan güncellemeleri görmek ve bu içeriğin en güncel halini okumak için lütfen şu adrese gidiniz: https://evrimagaci.org/s/19867

İçerik Kullanım İzinleri: Evrim Ağacı'ndaki yazılı içerikler orijinallerine hiçbir şekilde dokunulmadığı müddetçe izin alınmaksızın paylaşılabilir, kopyalanabilir, yapıştırılabilir, çoğaltılabilir, basılabilir, dağıtılabilir, yayılabilir, alıntılanabilir. Ancak bu içeriklerin hiçbiri izin alınmaksızın değiştirilemez ve değiştirilmiş halleri Evrim Ağacı'na aitmiş gibi sunulamaz. Benzer şekilde, içeriklerin hiçbiri, söz konusu içeriğin açıkça belirtilmiş yazarlarından ve Evrim Ağacı'ndan başkasına aitmiş gibi sunulamaz. Bu sayfa izin alınmaksızın düzenlenemez, Evrim Ağacı logosu, yazar/editör bilgileri ve içeriğin diğer kısımları izin alınmaksızın değiştirilemez veya kaldırılamaz.

Kategoriler ve Etiketler

Tümünü Göster

This work is an exact translation of the article originally published in Future of Life Institute. Evrim Ağacı is a popular science organization which seeks to increase scientific awareness and knowledge in Turkey, and this translation is a part of those efforts. If you are the author/owner of this article and if you choose it to be taken down, please contact us and we will immediately remove your content. Thank you for your cooperation and understanding.