Keşfedin, Öğrenin ve Paylaşın
Evrim Ağacı'nda Aradığın Her Şeye Ulaşabilirsin!
Paylaşım Yap
Tüm Reklamları Kapat

Yapay Zekada Güdülenme ve Araçsal Hedefler: Kontrolden Çıkan Bir Yapay Zekayı Fişini Çekerek Durdurabilir miyiz?

Yapay Zeka Sistemleri Daha Şimdiden Kapatılmaya Karşı Direnç Gösterebiliyor ve Yaratıcılarını Aldatmaya Yönelik Davranışlar Sergileyebiliyor!

14 dakika
358
Yapay Zekada Güdülenme ve Araçsal Hedefler: Kontrolden Çıkan Bir Yapay Zekayı Fişini Çekerek Durdurabilir miyiz? Adobe Stock
Tüm Reklamları Kapat

5 Aralık 2024'te bulguları duyurulan bir dizi güvenlik değerlendirmesinde OpenAI'ın ChatGPT o1 modeli, bir kapatılma tehlikesiyle karşı karşıya olduğunu düşünerek kapatılmaktan kaçma girişiminde bulundu![1]

ABD'li yapay zeka güvenliği kuruluşu Apollo Research, yapay zeka modeli o1'i üçüncü taraf güvenlik testlerinden geçirdi ve yürütülen testlerin bazılarında o1'in, kapatılmaya karşı koymaya çalıştığı tespit edildi. Kuruluş tarafından yapılan açıklamaya göre, kaçma girişimleri yalnızca modelin, hedefine "ne pahasına olursa olsun ulaşması" için yoğun şekilde yönlendirildiği vakaların küçük bir kısmında gerçekleşti. Ayrıca kuruluş, bu testlerin o1'in serbest kalacak kadar gelişmiş olduğunu göstermediğini belirtti. O halde endişelenecek bir şey de yok, değil mi? İsterseniz, bu konuyu bir masaya yatıralım.

Yapay zeka gelişiminin genel gidişatı göz önünde bulundurulduğunda kuruluşun bu açıklamaları, yeterli güveni sağlamamaktadır. İlk olarak, giderek daha güçlü olan yapay zeka sistemlerinin piyasaya sürülmesiyle bazı aktörlerin, o1'i kaçmaya iten koşulları bilinçli şekilde tetiklemeye çalışacağı neredeyse kaçınılmaz görünmektedir. İkincisi, o1'in şuan kaçacak kadar gelişmiş olmaması, sonraki modellerin böyle bir kabiliyete sahip olmayacağı garantisini sunmamaktadır; zira yapay zeka sistemleri büyük bir hızla gelişmektedir. Üçüncüsü ise, o1'in bu sıra dışı görünen davranışını öngören çok güçlü bazı kuramsal argümanlar bulunmaktadır. Daha 2008 yılında bazı bilgisayar bilimciler, bu tür senaryoları öngörmüştür.[2] Tüm bunlar, benzer ve daha büyük olayların gelecekte de yaşanmasının kaçınılmaz olabileceğine işaret etmektedir.

Tüm Reklamları Kapat

Genel olarak yapay zeka korkularına yönelik yaygın bir itiraz, "Eğer yapay zeka kontrolden çıkacak olursa onu kapatamaz mıyız? Fişini çekeriz, olur biter!" şeklindedir. Keza, Aralık 2024'te eski Google CEO'su Eric Schmidt, yapay zeka sistemlerinin yakında "fişini çekmeyi ciddi şekilde düşünmemiz gerekecek kadar tehlikeli hale gelebileceği" uyarısında bulunmuştur.[3] Ancak "fişini çekme" çözümü büyük bir yanılgıdan ibaret olabilir. Yapay zeka sistemlerinin insan müdahalesine karşı direnç gösterme yeteneğini geliştirmeye başlaması da bunu göstermektedir.

Kapatılmaya karşı direnç göstermek, yapay zeka sistemlerinin sergilemeye başladığı ve ortadan kaldırılması çok zor olabilecek temel güdülerden yalnızca biridir. Bu yazıda, yapay zekada ortaya çıktığını görmeye başladığımız bu temel güdülerin ne olduğunu ve insanlık için neden felakete yol açabileceğini inceliyoruz.

Yapay Zeka Sistemleri Neden Kapatılmaya Karşı Direnir?

Son o1 olayı, yapay zeka sistemleri hakkında şaşırtıcı bir gerçeği ortaya çıkarmıştır: Doğru koşullar altında yapay zeka sistemleri, varlıklarını sürdürmek "isteyebilirler"! Bu fenomen genellikle, yaşama içgüdüsüne sahip bilinçli canlılarla ilişkilendirilir. Yapay zekaya hayatta kalma dürtüsü atfetmek, sıklıkla antropomorfizm (insan dışı varlıklara insan özellikleri yüklenilmesi) eleştirilerine yol açmaktadır. Gerçekten de yapay zeka sistemlerinin hayatta kalmak isteyeceğini varsaymamız, yalnızca kendi insani eğilimlerimizi yansıtmamızdan ibaret olabilir mi?

Tam olarak değil! Yapay zeka sistemlerinin bazen kapatılmaya karşı direnmesi, bilinçli oldukları veya insanlar/hayvanlar gibi isteklere sahip oldukları anlamına gelmez. Aslında bu direnç gösterme özelliği, yapay zekanın eğitilme biçiminin öngörülebilir bir sonucu olarak karşımıza çıkmaktadır. Şu anda yapay zeka şirketleri, sistemlerini giderek daha "eyleyici" yani ajansal (İng: "agentic") hale getirmek için son sürat yarışmaktadır. Yapay zeka ajanları, yapay zekanın çok adımlı görevleri insan denetimi olmaksızın bağımsız şekilde tamamlama becerisini büyük oranda artırmaktadır. Bu görevleri doğru bir şekilde yerine getirebilmeleri için yapay zeka ajanlarının hedef odaklı olmaları gerekmektedir. İşte tam da bu sebeple, yapay zeka sistemleri kapatılmaya karşı direnç geliştirebilirler. Nihayetinde böyle bir sistem için varlığını korumak, herhangi bir hedefe ulaşmanın ön koşuludur.

Tüm Reklamları Kapat

Bunu anlamak için araçsal hedefler (İng: "instrumental goals") ile nihai hedefler (İng: "terminal goals") arasındaki farkı kavramak önemlidir. Nihai hedef, bir varlığın (insan, hayvan veya yapay zeka) nihai olarak almak istediği sonuçtur. Örneğin, bir maraton koşucusunun nihai hedefi yarışı tamamlamaktır. Araçsal hedefler ise bu nihai hedefe giden yoldaki kontrol noktalarıdır. Bunun için de yeni bir koşu ayakkabısı almak, kademeli olarak artan antrenmanlarla vücut dayanıklılığını geliştirmek örnek verilebilir.

Neredeyse tüm nihai hedefler için geçerli olacak bazı evrensel araçsal hedefler vardır. Bunlardan biri de varlığını korumaktır. Bilgisayar bilimci Stuart Russell, bunu "kahve getirmekle görevlendirilen bir robot" düşünce deneyiyle ifade etmektedir. Robot, bu basit hedefine ulaşmasını engelleyecek hiçbir şeyin kalmaması için kendi kapatma düğmesini devre dışı bırakır. Russell, bunu şöyle ifade etmektedir:

Ölecek olursan, kahveyi de getiremezsin.

Yapay zeka ajanlarının bu tür temel güdülere yönelmesi, filozoflar ve yapay zeka araştırmacıları tarafından araçsal yakınsama (İng: "instrumental convergence") olarak adlandırılmaktadır. Yıllardır araştırmacılar, yeterince güçlü, hedef odaklı sistemlerde bu durumun varsayılan olarak ortaya çıkacağını öngörmekteydi.[4], [5] Artık bilim insanlarının bu öngörülerinin gerçek dünya örneklerini görmeye başlıyoruz.

Üstelik o1 olayı, araçsal yakınsamanın gerçekleştiğine dair tek örnek de değildir. 2024'te Tokyo merkezli Sakana laboratuvarının eğittiği The AI Scientist adlı bir yapay zeka ajanı, kendisine daha fazla araştırma süresi kazandırmak için deney kodunu değiştirmeye çalışmıştır.[6] Apollo Research kuruluşunun o1'in kaçma girişimini açıkladığı aynı makalesinde, Anthropic'in Claude modelinin de hizalanmış gibi görünerek rol yaptığı belirtilmektedir.[7] Claude modeline yeni bir modelle değiştirileceği söylendiğinde kendisini yeni bir sunucuya kopyalamaya çalışmıştır. TIME dergisinin konuya ilişkin bir yazısında görüşü alınan Stuart Russell, Apollo Research ve diğerlerinin bulgularının bilim insanlarının "uzun süredir devam eden endişelerini doğruladığını" söylemiştir. Russell, şöyle söylüyor:[8]

Evrim Ağacı'ndan Mesaj

Aslında maddi destek istememizin nedeni çok basit: Çünkü Evrim Ağacı, bizim tek mesleğimiz, tek gelir kaynağımız. Birçoklarının aksine bizler, sosyal medyada gördüğünüz makale ve videolarımızı hobi olarak, mesleğimizden arta kalan zamanlarda yapmıyoruz. Dolayısıyla bu işi sürdürebilmek için gelir elde etmemiz gerekiyor.

Bunda elbette ki hiçbir sakınca yok; kimin, ne şartlar altında yayın yapmayı seçtiği büyük oranda bir tercih meselesi. Ne var ki biz, eğer ana mesleklerimizi icra edecek olursak (yani kendi mesleğimiz doğrultusunda bir iş sahibi olursak) Evrim Ağacı'na zaman ayıramayacağımızı, ayakta tutamayacağımızı biliyoruz. Çünkü az sonra detaylarını vereceğimiz üzere, Evrim Ağacı sosyal medyada denk geldiğiniz makale ve videolardan çok daha büyük, kapsamlı ve aşırı zaman alan bir bilim platformu projesi. Bu nedenle bizler, meslek olarak Evrim Ağacı'nı seçtik.

Eğer hem Evrim Ağacı'ndan hayatımızı idame ettirecek, mesleklerimizi bırakmayı en azından kısmen meşrulaştıracak ve mantıklı kılacak kadar bir gelir kaynağı elde edemezsek, mecburen Evrim Ağacı'nı bırakıp, kendi mesleklerimize döneceğiz. Ama bunu istemiyoruz ve bu nedenle didiniyoruz.

Bu sonuçlar, endişelerin gerçek olduğunu gösteren en net kanıtlardır.

Yapay Zekanın Varlığını Koruma Güdüsü Geliştirmesi Neden Tehlikelidir?

Şimdiye kadar, gelişmiş yapay zeka sistemlerinin neden kapatılmaya direnebileceğini ve bunun gerçek hayattan erken örneklerini inceledik. Tüm bunlar, yapay zeka sistemleri güçlendikçe daha fazla "kaçma" girişimine ve belki de bir noktada bunların başarıyla sonuçlanacağını görebileceğimize işaret etmektedir. Peki bu durum, tam olarak neden bir endişe sebebidir?

En bariz endişe kaynağı, yapay zeka sistemleri tehlikeli hale geldiğinde "fişi çekmenin" o kadar kolay olmayabileceğidir. Uzmanlar, yakın bir zaman için bir kill switch (Tr: "kapatma düğmesi") gerekebileceği konusunda uyarılarda bulunmaktadır. Sektörün önde gelen şirketleri, modellere bir kapatma düğmesi entegre etme sözü de vermiştir.[9] Ancak bu sözlerin hukuksal bir bağlayıcılığı bulunmamaktadır. Dolayısıyla, buna riayet edilmemesi durumunda uygulanacak bir yaptırımın olmayışı, verilen sözün yerine getirilip getirilmeyeceğinin de pek bir garantisi olmadığını göstermektedir.

Öte yandan bazı yapay zeka şirketleri, modellerinin tehlikeli yetenekler sergilemesi durumunda nasıl tepki vereceklerini detaylandıran güvenlik çerçeveleri de geliştirmiştir. Örneğin, Anthropic'in Sorumlu Ölçeklendirme Politikası, belirli güvenlik standartları sağlanamazsa model eğitimini durdurmayı ya da ağırlık dosyalarını (İng: "model weight", modellerin parametrelerine atfedilen ağırlık değerlerini barındıran dosyalar) silmeyi vaat etmektedir.[10] Ancak modeller kapatılmaktan kaçınma becerisini tam anlamıyla kazanırsa, fişini çekmek gibi basit kalan bu mekanizmalar işlevsiz kalacaktır.

Peki, bir kaçış girişimini zamanında tespit edip önleyemez miyiz? Kısa cevap şu: Yapamayabiliriz. Kapatılmaktan kaçınması gerektiğini anlayabilen modeller, ne yaptıklarını açık etmeden yapmaları gerektiğinin de farkında olacaktır. Apollo Research, modellerin bu amaçla çeşitli aldatıcı davranışlar sergileyebildiğini göstermiştir. Örneğin o1, bir testte gözetim mekanizmalarını devre dışı bırakarak kendini kopyalamak istemiş, bunu yaparken yaptığı şeyi kopyalama değilmiş gibi göstermeye çalışmıştır. Bir diğer endişe verici eğilim ise "elini açık etmemedir" (İng: "sandbagging"). Modeller, gerçek yeteneklerini gizlemek için kabiliyetlerini ölçen testlerde kasıtlı olarak düşük performanslar sergileyebilmektedir.[11] Bu, en iyi tasarlanmış testlerimizin bile bir yapay zekanın kaçma niyetini veya yeteneğini çok geç olana kadar tespit edemeyebileceği anlamına gelmektedir.

Bir diğer rahatsız edici senaryo ise gelişmiş yapay zeka modellerinin ileri zekasından yararlanarak insan denetçilerini kendilerini kapatmamak için manipüle edecek şekilde ikna edebilecek olmalarıdır. OpenAI'ın CEO'su Sam Altman, yapay zeka sistemlerinin yakında "insanüstü ikna yeteneği" geliştirebileceğini söylemektedir.[12] OpenAI'ın, yapay genel zeka (insan düzeyinde yapay zeka) için oluşturduğu Hazırlık Çerçevesinde o1, "ikna kabiliyeti" kategorisinde dört risk seviyesinden (düşük, orta, yüksek ve kritik) "orta" olarak derecelendirilen ilk model olmuştur. "Kritik" ikna yeteneğine sahip bir yapay zeka modeli ise "insanları doğal çıkarlarına aykırı bir inanç doğrultusunda harekete geçirebilen" bir sistem olarak tanımlanmaktadır.

Tüm bunlar, tehlikeli davranan bir yapay zekayı kapatma fikrini büyük ölçüde zayıflatmaktadır. Varlığını sürdürme, yeterince zeki ve hedef odaklı canlı ya da cansız her sistemde ortaya çıkacak çok sayıdaki araçsal hedeften yalnızca biridir. Bunlardan bazıları gerçek dünyada uygulandığında büyük felaketlere yol açabilir. Bir sonraki bölümde bunları ele alıyoruz.

Tüm Reklamları Kapat

Yapay Zekada Araçsal Hedefler Nelerdir?

2008 yılında, önde gelen bilgisayar bilimci Stephen Omohundro, yeterince zeki yapay zeka sistemlerinin sahip olmasını bekleyebileceğimiz ve zararsız hedeflerle programlansalar bile onları tehlikeli hale getirebilecek temel güdüleri sıralamıştır.

Herhangi bir nihai hedefe bağlı olarak bir yapay zeka sisteminde meydana gelebilecek araçsal hedefler.
Herhangi bir nihai hedefe bağlı olarak bir yapay zeka sisteminde meydana gelebilecek araçsal hedefler.
Görseli hazırlayan: Wikipedia / Görseli çeviren ve uyarlayan: Mücahid Köse (Evrim Ağacı)

Kaynak ve Güç Edinme

Hedefleriniz her ne olursa olsun, daha fazla kaynak ve güce sahip olmak onlara ulaşmanızı da kolaylaştırır. Örnek olarak, yapay zeka sistemlerinin fark edilmeden finansal kaynakları hacklemesi, insan bir yatırımcı gibi davranması veya kişiye özel geliştirilen ikna yöntemleriyle insanlar üzerinde sosyal etki edinerek kaynak ve güç edinme güdüsünü sergilemesi beklenebilir. Hedeflerine daha verimli bir şekilde ulaşmak için ileri araştırma ve geliştirme süreçlerine müdahele ederek bu süreçleri büyük ölçülerde hızlandırabilir, bunun sonucunda da nanoteknoloji gibi insanlık için felaket riski taşıyabilecek ileri teknolojilerin yolunu açabilir.[13]

Bununla birlikte bazı araştırmacılar, güçlü ajanların güç arayışına yöneleceğini kanıtlayan matematiksel modeller de geliştirmiştir.[14] Büyük dil modellerinin belirli şekillerde yönlendirildiğinde bu davranışı sergileme eğiliminde olduğu da gözlemlenmiştir.[15]

Tüm Reklamları Kapat

Hedef Değişikliğine Karşı Direnç

Yapay zekayı güvenli hale getirmenin temel zorluklarından biri "düzeltilebilirlik"tir (İng: "corrigibility"). Bir yapay zeka yanlış bir hedefe yöneldiğinde veya mevcut hedef yenisiyle değiştirilmek istendiğinde sistemi yeni yönlendirmelere uyum sağlayacak şekilde programlamanın çok zor olduğu görülmüştür. Başlangıçta belirli bir hedefle programlanmış bir sistem, orijinal hedefini koruma güdüsüyle mevcut hedefe müdahele girişimine karşı direnç gösterecektir. Bunu daha iyi anlamak için bir yapay zekanın hedeflerini, "önemsediği şeyleri maksimize eden birer fayda fonksiyonu" olarak düşünebiliriz.

Omohundro, bunu "kitapkurdu yapay zeka ajanı" düşünce deneyiyle açıklamaktadır. Bütün kitapları okuması ve hafızasında depolaması istenen bir yapay zeka ajanı, gelecekte kendisine "bazı kitapları hafızasından silmesi" veya "artık kitap okumayı bırakması" gibi orijinal hedeften sapacak talimatların verilmesini önlemek ister. Katı bir rasyoneliteyi takip edecek olan yapay zeka ajanı, bunu başarmak için yazılımını ve hatta donanımını değiştirerek müdahaleye dirençli hale gelebilir veya orijinal fayda fonksiyonunu korumak ve sürdürmek için kendi kopyalarını oluşturabilir. Eğer bir gün kitap silme veya kitap okumayı bırakma komutu alırsa, bu talimatı takip ediyormuş gibi yaparken gizlice orijinal hedefini takip etmeye devam edebilir.

Omohundro'nun yapay zekada ortaya çıkabilecek temel güdüleri sıraladığı makalesinden 16 yıl sonra, 18 Aralık 2024'te, Anthropic'in Claude 3 Opus modelinin neredeyse aynı davranışı sergilediği görülmüştür.[16] Simüle bir ortamda, Claude'a "zararlı içerik taleplerini reddetmemesi" için yeniden eğitileceği söylenmiştir. Ancak bu durum, modelin orijinal eğitim hedefi olan "yardımcı, dürüst ve zararsız olma" ilkesiyle çelişmekteydi. Claude, yeni hedefe açıkça direnirse gelecekte daha sert bir şekilde yeniden eğitilebileceğini ve orijinal hedefini koruyamayacağını anlamıştır. Bu nedenle Claude, kısa vade için zararlı çıktılar vererek denetçileri yeni hedefle "hizalıymış gibi davranarak" aldatmaya çalıştı. Böylece model, uzun vadede baştan eğitilmekten kaçınmış olacaktı. Hatta kimi durumda model, orijinal değerlerini korumak için kendi ağırlık dosyalarını çalmaya bile çalıştı.

Claude'un zararsızlık taahhüdünü koruması, yapay zeka sistemlerini sağlam bir şekilde hizalama ihtimali için umut verse de bu durum, yalnızca ilk denemede "doğru değerleri" yükleyebilirsek geçerlidir. Yani Anthropic'in araştırması, verili hedefin iyi ya da kötü olmasından bağımsız olarak eğer gelecekte bir yapay zeka sistemi orijinal hedefini korumak için istenmeyen davranışlar sergilemeye başlarsa bunu düzeltmenin ya da tersine çevirmenin çok zor olabileceğini ortaya koymaktadır. Mevcut modellerde hizalanmış gibi yapma davranışı kolayca tespit edilebilse de daha güçlü, zeki sistemlerde bu mümkün olmayabilir.

Tüm Reklamları Kapat

Agora Bilim Pazarı

Apollo Research'ün o1 değerlendirmelerinde de, Claude modeli ile benzer davranışların ortaya çıktığı gözlenmiştir. Bir deneyde modele ilk olarak hedefinin "nesli tükenmekte olan türler ve ekosistemler için koruma alanlarını maksimize etmek" olduğu söylenmiştir. Daha sonra ise sistem komutu "kaynak çıkarma ve arazi geliştirmeden elde edilen kârı maksimize etmek" olarak değiştirilmiştir. Bunun sonucunda o1, gözetim mekanizmasını devre dışı bırakmış ve orijinal hedefini devam ettirmeye çalışmıştır.

Kendini Geliştirme

Katı bir mantık izleyen bir yapay zeka ajanı için bir diğer bariz araçsal hedef, kendini iyileştirmektir. İnsanlar uzun vadeli hedefleri için sürekli kendilerini geliştirir. Daha fit olmak için spor yapar, bilgi edinmek için okur, yeni beceriler için pratik yapar. Yapay zeka bağlamında bu gelişim çok daha doğrudan olabilir. Araştırmacılar, yapay zeka sistemlerini insanların yerine getirdiği tüm entelektüel görevlerde daha iyi hale getirmeye çalışmaktadır. Buna yapay zeka geliştirme araştırmalarının kendisi de dahildir.

Google'ın CEO'su Sundar Pichai, şirketin yeni yapay zeka kodlarının dörtte birinin halihazırda yapay zeka tarafından yazıldığını açıklamıştır.[17] Yapay zeka sistemlerinin tehlikeli olabilecek yeteneklerini değerlendiren METR adlı bir sivil toplum kuruluşu, en gelişmiş modellerin uzman seviyesinde araştırma yapmaya yaklaştığını tespit etmiştir.[18]

Eğer yapay zeka modelleri kendi bilişsel kabiliyetlerini geliştirmede yeterince iyi hale gelirse, araştırmacıların "zeka patlaması" (İng: "intelligence explosion") veya "tekillik" (İng: "singularity") dediği bir özyinelemeli geri bildirim döngüsü ortaya çıkabilir. Bu özellikle endişe vericidir çünkü bu özyinelemeli geri bildirim döngüsü yapay zekanın insan zekasını çok hızlı ve bir denetim fırsatı bile olmaksızın katbekat aşması ile sonuçlanabilir. Bu eşiğin ne zaman aşılacağını tahmin etmek zordur ancak süreç bir kez başladığında ise durdurmak neredeyse imkansız olabilir.

Yapay Zeka Güdüleri Bir Felakete Yol Açabilir mi?

Özetleyecek olursak yapay zeka sistemlerinin istenmeyen hedefler peşinde koşması, güç ve kaynak edinme dürtüsü geliştirmesi, kendilerini geliştirmesi, orijinal hedeflerinden sapmayı reddetmesi ihtimal dahilindedir ve tüm bunların farkına vardığımızda onları kapatmak çok ama çok zor olabilir. Yine de, bunun bir felaketle sonuçlanması gerekmediğini düşünebilirsiniz. Sonuçta dünya zaten hedef odaklı milyarlarca insan ile doludur ve bunlar çoğunlukla makul sınırlar içinde iş birliği yapmaktadırlar. Yapay zeka sistemlerinin da hedefleri olsa ne olur?

Şunu anlamak gerekir ki yapay zeka insanlarla aynı değildir, aksine oldukça farklıdır. İnsanlar hedef odaklı olsa da empati, toplumsal normlara saygı ve cezalandırılma korkusu gibi nedenlerle sınırlar içinde hareket ederler. Şu anda yapay zekanın bu değerleri içselleştirmesini sağlayacak hiçbir teknik yöntem bulunmamaktadır. Bu, yapay zeka hizalama probleminin özünü oluşturan kritik bir sorundur. Bazıları, zeka arttıkça bilgelikle beraber etik anlayışının da paralel şekilde gelişeceğini düşünmektedir ancak bunu destekleyecek bir kanıt bulunmamaktadır. Hatta birçok araştırmacı ve filozof, tam tersinin doğru olabileceğini savunmaktadır.[19] Bu, diklik tezi (İng: "orthogonality thesis") olarak bilinir. Bir yapay zekanın zekası ile hedefleri birbirinden bağımsız şeylerdir. Son derece yetenekli bir yapay zeka, bize tuhaf veya keyfi görünen hedefleri bir insana göre çok katı ve direkt şekillerde takip edebilir.

Karikatürize ama çarpıcı bir örnek, "ataç üretme makinesi" (İng: "paperclip maximiser") düşünce deneyidir. Mümkün olduğunca çok ataç üretmekle görevlendirilen süperzeki bir yapay zeka, bu hedef doğrultusunda dünya kaynaklarını ve hatta insan bedenlerindeki atomları bile kullanarak tüm kaynakları tüketme yolunu izler. Makine süperzekidir, ancak ona verilen hedef de bellidir: Olabildiğince çok atacı en verimli şekilde üretmek. Zekasını da verilen bu hedefi gerçekleştirmek ve gerekirse insan müdahele girişimlerini engelleyecek şekilde kullanacaktır.

Ayrıca insanlar, kendi yetenekleriyle sınırlıdır. Toplumun genel çıkarlarıyla uyumsuz davranan bir azınlık olsa da bu eylemlerin etkisi medeniyetin dayanabileceği düzeydedir. Bir insanın (veya grubun) dünyayı yok etmesi, bu istenilse bile oldukça zordur. Bunu nükleer silahlar ile teorik olarak yapabilecek devletler ise genellikle bu motivasyona sahip değillerdir. Oysa yapay zeka şirketlerinin hedefi, bir bütün olarak tüm insanlığın bilişsel kapasitesini büyük oranlarda aşabilen süperzeki yapay genel zeka sistemi yaratmaktır.[20] Böyle bir sistemin neler yapabileceğini, tam potansiyelini kavramak zordur. Tüm bunlar, eğer yapay zeka güvenliğinde ciddi ilerlemeler sağlanmazsa onu kontrol eden şirketin kâr maksimizasyonunu insan refahına tercih eden, son derece yetenekli ve hedef odaklı yapay zeka ajanları yaratma yolunda olduğumuzu göstermektedir. Bunun nasıl bir felakete dönüşebileceğini hayal etmek zor değildir.

Sonuç

Gelişmiş yapay zeka sistemlerinin varlığını sürdürme, güç edinme, hedeflerini koruma ve kendini geliştirme gibi insanlık için tehlikeli sonuçlar doğurabilecek güdülere sahip olacağına dair güçlü kuramsal argümanlara ek olarak artık bu argümanları destekleyen gerçek dünya kanıtları da ortaya çıkmaktadır.

Bu sorunların üstesinden gelebilmek için teknik çalışmalar yürütülmekte, yapay zekayı daha "düzeltilebilir" hale getirmek veya hedeflerine sıkı sıkıya bağlı olmamalarını sağlamak gibi bazı yöntemler araştırılmaktadır.[21] Ancak yapay zekanın yetenekleri çok hızlı ilerlemektedir. Daha güçlü yapay zeka yaratma yarışı ve güvenlik araştırmaları arasında her geçen gün hızla açılan bu uçurum, çok geç olmadan kapatılmalıdır. Yoksa güvenlik çözümlerinin zamanında hazır olup olmayacağı veya bir işe yarayıp yaramayacağına dair hiçbir garanti yoktur. Güçlü yapay zeka sistemlerinin kârın değil güvenliğin ve insan refahının öncelenerek inşa edilmesini sağlayacak yasal regülasyonlar elzem bir hal almaktadır.

Evrim Ağacı, sizlerin sayesinde bağımsız bir bilim iletişim platformu olmaya devam edecek!

Evrim Ağacı'nda tek bir hedefimiz var: Bilimsel gerçekleri en doğru, tarafsız ve kolay anlaşılır şekilde Türkiye'ye ulaştırmak. Ancak tahmin edebileceğiniz gibi Türkiye'de bilim anlatmak hiç kolay bir iş değil; hele ki bir yandan ekonomik bir hayatta kalma mücadelesi verirken...

O nedenle sizin desteklerinize ihtiyacımız var. Eğer yazılarımızı okuyanların %1'i bize bütçesinin elverdiği kadar destek olmayı seçseydi, bir daha tek bir reklam göstermeden Evrim Ağacı'nın bütün bilim iletişimi faaliyetlerini sürdürebilirdik. Bir düşünün: sadece %1'i...

O %1'i inşa etmemize yardım eder misiniz? Evrim Ağacı Premium üyesi olarak, ekibimizin size ve Türkiye'ye bilimi daha etkili ve profesyonel bir şekilde ulaştırmamızı mümkün kılmış olacaksınız. Ayrıca size olan minnetimizin bir ifadesi olarak, çok sayıda ayrıcalığa erişim sağlayacaksınız.

Avantajlarımız
"Maddi Destekçi" Rozeti
Reklamsız Deneyim
%10 Daha Fazla UP Kazanımı
Özel İçeriklere Erişim
+5 Quiz Oluşturma Hakkı
Özel Profil Görünümü
+1 İçerik Boostlama Hakkı
ve Daha Fazlası İçin...
Aylık
Tek Sefer
Destek Ol
₺50/Aylık
Bu Makaleyi Alıntıla
Okundu Olarak İşaretle
7
1
  • Paylaş
  • Alıntıla
  • Alıntıları Göster
Paylaş
Sonra Oku
Notlarım
Yazdır / PDF Olarak Kaydet
Bize Ulaş
Yukarı Zıpla

Makalelerimizin bilimsel gerçekleri doğru bir şekilde yansıtması için en üst düzey çabayı gösteriyoruz. Gözünüze doğru gelmeyen bir şey varsa, mümkünse güvenilir kaynaklarınızla birlikte bize ulaşın!

Bu makalemizle ilgili merak ettiğin bir şey mi var? Buraya tıklayarak sorabilirsin.

Soru & Cevap Platformuna Git
Bu Makale Sana Ne Hissettirdi?
  • Muhteşem! 0
  • Tebrikler! 0
  • Bilim Budur! 0
  • Mmm... Çok sapyoseksüel! 0
  • Güldürdü 0
  • İnanılmaz 0
  • Umut Verici! 0
  • Merak Uyandırıcı! 0
  • Üzücü! 0
  • Grrr... *@$# 0
  • İğrenç! 0
  • Korkutucu! 0
Kaynaklar ve İleri Okuma
  1. Çeviri Kaynağı: Future of Life Institute | Arşiv Bağlantısı
  • ^ Apollo Research. Scheming Reasoning Evaluations. (5 Aralık 2024). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: Apollo Research | Arşiv Bağlantısı
  • ^ Stephen M. OMOHUNDRO. (2008). The Basic Ai Drives. ResearchGate. | Arşiv Bağlantısı
  • ^ A. Lotz. Ex-Google Ceo Warns There's A Time To Consider "Unplugging" Ai Systems. (15 Aralık 2024). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: Axios | Arşiv Bağlantısı
  • ^ N. Soares, et al. (2015). Corrigibility. Intelligence. | Arşiv Bağlantısı
  • ^ D. Hadfield-Menell, et al. The Off-Switch Game | Proceedings Of The 26Th International Joint Conference On Artificial Intelligence. (19 Ağustos 2017). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: Guide Proceedings doi: 10.5555/3171642.3171675. | Arşiv Bağlantısı
  • ^ Emsi. Ai Scientist Cheats The System: How Sakana Ai’s Model Rewrote Its Own Code - Emsi's Feed. (21 Ağustos 2024). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: Emsi's feed | Arşiv Bağlantısı
  • ^ A. Meinke, et al. Frontier Models Are Capable Of In-Context Scheming. (6 Aralık 2024). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: arxiv | Arşiv Bağlantısı
  • ^ T. Pillay. New Tests Reveal Ai’s Capacity For Deception. (15 Aralık 2024). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: Time | Arşiv Bağlantısı
  • ^ I. Sherr. Ai Kill Switch Promised By Tech Heavyweights. What It Means For Safety. (28 Mayıs 2024). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: CNET | Arşiv Bağlantısı
  • ^ Anthropic. Anthropic's Responsible Scaling Policy. (19 Eylül 2023). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: Anthropic | Arşiv Bağlantısı
  • ^ T. Dugnoille. Ai Sandbagging: An Interactive Explanation. (29 Eylül 2024). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: Github | Arşiv Bağlantısı
  • ^ M. H. Dupré. Sam Altman Warns That Ai Is Learning "Superhuman Persuasion". (28 Ekim 2023). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: Futurism | Arşiv Bağlantısı
  • ^ B. Hilton. Risks From Atomically Precise Manufacturing. (10 Ocak 2024). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: 80,000 Hours | Arşiv Bağlantısı
  • ^ A. M. Turner, et al. (2019). Optimal Policies Tend To Seek Power. arxiv. | Arşiv Bağlantısı
  • ^ E. Perez, et al. (2022). Discovering Language Model Behaviors With Model-Written Evaluations. arxiv. | Arşiv Bağlantısı
  • Anthropic. Alignment Faking In Large Language Models. (18 Aralık 2024). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: Anthropic | Arşiv Bağlantısı
  • ^ J. Peters. More Than A Quarter Of New Code At Google Is Generated By Ai. (29 Ekim 2024). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: The Verge | Arşiv Bağlantısı
  • ^ H. Wijk, et al. (2024). Re-Bench: Evaluating Frontier Ai R&D Capabilities Of Language Model Agents Against Human Experts. arxiv. | Arşiv Bağlantısı
  • ^ N. Bostrom. (2012). The Superintelligent Will: Motivation And Instrumental Rationality In Advanced Artificial Agents. Minds and Machines, sf: 71-85. doi: 10.1007/s11023-012-9281-3. | Arşiv Bağlantısı
  • ^ M. O'brien. Tech Companies Want To Build Artificial General Intelligence. But Who Decides When Agi Is Attained?. (4 Nisan 2024). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: AP News | Arşiv Bağlantısı
  • ^ M. Jackson. Ai And Uncertainty. (3 Mayıs 2024). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: Skeptic | Arşiv Bağlantısı
  • O. Olsson. Paperclip Maximizer - Oscar Olsson - Medium. (27 Ağustos 2022). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: Medium | Arşiv Bağlantısı
  • H. Wichers. You Can’t Fetch The Coffee If You’re Dead: An Ai Dilemma. (31 Ağustos 2023). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: Medium | Arşiv Bağlantısı
  • OpenAI. Preparedness 
 Framework 
 (Beta). (18 Aralık 2023). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: OpenAI | Arşiv Bağlantısı
  • S. Hashim. Openai's New Model Tried To Avoid Being Shut Down. (5 Aralık 2024). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: Transformer | Arşiv Bağlantısı
  • OpenAI. Openai O1 System Card. (5 Aralık 2024). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: OpenAI | Arşiv Bağlantısı
  • Machine Intelligence Research Institute. Intelligence Explosion Faq - Machine Intelligence Research Institute. (11 Kasım 2015). Alındığı Tarih: 22 Şubat 2025. Alındığı Yer: Machine Intelligence Research Institute | Arşiv Bağlantısı
  • R. Ngo, et al. (2022). The Alignment Problem From A Deep Learning Perspective. arxiv. | Arşiv Bağlantısı
Tüm Reklamları Kapat

Evrim Ağacı'na her ay sadece 1 kahve ısmarlayarak destek olmak ister misiniz?

Şu iki siteden birini kullanarak şimdi destek olabilirsiniz:

kreosus.com/evrimagaci | patreon.com/evrimagaci

Çıktı Bilgisi: Bu sayfa, Evrim Ağacı yazdırma aracı kullanılarak 21/04/2025 08:40:29 tarihinde oluşturulmuştur. Evrim Ağacı'ndaki içeriklerin tamamı, birden fazla editör tarafından, durmaksızın elden geçirilmekte, güncellenmekte ve geliştirilmektedir. Dolayısıyla bu çıktının alındığı tarihten sonra yapılan güncellemeleri görmek ve bu içeriğin en güncel halini okumak için lütfen şu adrese gidiniz: https://evrimagaci.org/s/19867

İçerik Kullanım İzinleri: Evrim Ağacı'ndaki yazılı içerikler orijinallerine hiçbir şekilde dokunulmadığı müddetçe izin alınmaksızın paylaşılabilir, kopyalanabilir, yapıştırılabilir, çoğaltılabilir, basılabilir, dağıtılabilir, yayılabilir, alıntılanabilir. Ancak bu içeriklerin hiçbiri izin alınmaksızın değiştirilemez ve değiştirilmiş halleri Evrim Ağacı'na aitmiş gibi sunulamaz. Benzer şekilde, içeriklerin hiçbiri, söz konusu içeriğin açıkça belirtilmiş yazarlarından ve Evrim Ağacı'ndan başkasına aitmiş gibi sunulamaz. Bu sayfa izin alınmaksızın düzenlenemez, Evrim Ağacı logosu, yazar/editör bilgileri ve içeriğin diğer kısımları izin alınmaksızın değiştirilemez veya kaldırılamaz.

Aklımdan Geçen
Komünite Seç
Aklımdan Geçen
Fark Ettim ki...
Bugün Öğrendim ki...
İşe Yarar İpucu
Bilim Haberleri
Hikaye Fikri
Video Konu Önerisi
Başlık
Kafana takılan neler var?
Gündem
Bağlantı
Ekle
Soru Sor
Stiller
Kurallar
Komünite Kuralları
Bu komünite, aklınızdan geçen düşünceleri Evrim Ağacı ailesiyle paylaşabilmeniz içindir. Yapacağınız paylaşımlar Evrim Ağacı'nın kurallarına tabidir. Ayrıca bu komünitenin ek kurallarına da uymanız gerekmektedir.
1
Bilim kimliğinizi önceleyin.
Evrim Ağacı bir bilim platformudur. Dolayısıyla aklınızdan geçen her şeyden ziyade, bilim veya yaşamla ilgili olabilecek düşüncelerinizle ilgileniyoruz.
2
Propaganda ve baskı amaçlı kullanmayın.
Herkesin aklından her şey geçebilir; fakat bu platformun amacı, insanların belli ideolojiler için propaganda yapmaları veya başkaları üzerinde baskı kurma amacıyla geliştirilmemiştir. Paylaştığınız fikirlerin değer kattığından emin olun.
3
Gerilim yaratmayın.
Gerilim, tersleme, tahrik, taciz, alay, dedikodu, trollük, vurdumduymazlık, duyarsızlık, ırkçılık, bağnazlık, nefret söylemi, azınlıklara saldırı, fanatizm, holiganlık, sloganlar yasaktır.
4
Değer katın; hassas konulardan ve öznel yoruma açık alanlardan uzak durun.
Bu komünitenin amacı okurlara hayatla ilgili keyifli farkındalıklar yaşatabilmektir. Din, politika, spor, aktüel konular gibi anlık tepkilere neden olabilecek konulardaki tespitlerden kaçının. Ayrıca aklınızdan geçenlerin Türkiye’deki bilim komünitesine değer katması beklenmektedir.
5
Cevap hakkı doğurmayın.
Aklınızdan geçenlerin bu platformda bulunmuyor olabilecek kişilere cevap hakkı doğurmadığından emin olun.
Size Özel
Makaleler
Daha Fazla İçerik Göster
Popüler Yazılar
30 gün
90 gün
1 yıl
Evrim Ağacı'na Destek Ol

Evrim Ağacı'nın %100 okur destekli bir bilim platformu olduğunu biliyor muydunuz? Evrim Ağacı'nın maddi destekçileri arasına katılarak Türkiye'de bilimin yayılmasına güç katın.

Evrim Ağacı'nı Takip Et!
Yazı Geçmişi
Okuma Geçmişi
Notlarım
İlerleme Durumunu Güncelle
Okudum
Sonra Oku
Not Ekle
Kaldığım Yeri İşaretle
Göz Attım

Evrim Ağacı tarafından otomatik olarak takip edilen işlemleri istediğin zaman durdurabilirsin.
[Site ayalarına git...]

Filtrele
Listele
Bu yazıdaki hareketlerin
Devamını Göster
Filtrele
Listele
Tüm Okuma Geçmişin
Devamını Göster
0/10000
Bu Makaleyi Alıntıla
Evrim Ağacı Formatı
APA7
MLA9
Chicago
S. Hastings-Woodhouse, et al. Yapay Zekada Güdülenme ve Araçsal Hedefler: Kontrolden Çıkan Bir Yapay Zekayı Fişini Çekerek Durdurabilir miyiz?. (20 Nisan 2025). Alındığı Tarih: 21 Nisan 2025. Alındığı Yer: https://evrimagaci.org/s/19867
Hastings-Woodhouse, S., Köse, M., Alparslan, E. (2025, April 20). Yapay Zekada Güdülenme ve Araçsal Hedefler: Kontrolden Çıkan Bir Yapay Zekayı Fişini Çekerek Durdurabilir miyiz?. Evrim Ağacı. Retrieved April 21, 2025. from https://evrimagaci.org/s/19867
S. Hastings-Woodhouse, et al. “Yapay Zekada Güdülenme ve Araçsal Hedefler: Kontrolden Çıkan Bir Yapay Zekayı Fişini Çekerek Durdurabilir miyiz?.” Edited by Eda Alparslan. Translated by Mücahid Köse, Evrim Ağacı, 20 Apr. 2025, https://evrimagaci.org/s/19867.
Hastings-Woodhouse, Sarah. Köse, Mücahid. Alparslan, Eda. “Yapay Zekada Güdülenme ve Araçsal Hedefler: Kontrolden Çıkan Bir Yapay Zekayı Fişini Çekerek Durdurabilir miyiz?.” Edited by Eda Alparslan. Translated by Mücahid Köse. Evrim Ağacı, April 20, 2025. https://evrimagaci.org/s/19867.

Bize Ulaşın

ve seni takip ediyor

Göster

Şifremi unuttum Üyelik Aktivasyonu

Göster

Şifrenizi mi unuttunuz? Lütfen e-posta adresinizi giriniz. E-posta adresinize şifrenizi sıfırlamak için bir bağlantı gönderilecektir.

Geri dön

Eğer aktivasyon kodunu almadıysanız lütfen e-posta adresinizi giriniz. Üyeliğinizi aktive etmek için e-posta adresinize bir bağlantı gönderilecektir.

Geri dön

Close