Ultra uzun bir cevap olacak, sorunun net bir cevabını da ancak herkes kendi kafasında oluşturabileceği için, cevabı öğrenmek isteyenler maalesef bu uzuun cevabı okuyup kendileri elde etmeleri gerekecek. Hepsini okuyana helal olsun ne diyeyim teşekkürler şimdiden :)
Makinelerin neler yapabileceğine dair dev bir dönüşümün içindeyiz, bu kesinlikle yadsınamaz. Örneğin AlphaGo Zero hiçbir insan verisi olmadan Go gibi başlangıçta basit görünen, ilerledikçe beyin yakan karmaşık bir oyunu sadece birkaç gün içinde dünya şampiyonlarını geçerek öğrendi.[1]
Bunu pekiştirmeli öğrenme denilen bir yöntemle başardı; yani tabiri caizse algoritma, deneme yanılma yoluyla aynı bir insan gibi en iyi hamleleri bulup toplam kazancını maksimize ediyor.
Peki bu pekiştirmeli öğrenme nedir? Yani insan verisi olmadan kendi kendine öğrenen bir şeye insan diyemez miyiz? Ya da en azından yapay dar zekânın son versiyonunun en azından önemli bir adımı diyemez miyiz? Konunun derinine inmeden cevaplarsak, kim olursa olsun "insan arkadaşım bu" der, haklıdır da, ancak detaylara indiğimizde olayın yüzü evrilecek mi yoksa aynı mı olacak ona bakalım. Detaylara bakalım sonrasında karar verelim:
Bu arada sorunun cevabını soruyu sorana karşı değil, genele cevap niteliğinde hazırladığım için bazı terimleri açmam gerekecek, soruyu soranın bilip bilmemesi gibi bir şey düşünülmesin. Herkesin anlayabilmesi için kelimeleri açacağım, elimden geldiğince de basite indirgemeye çalışacağım.
Pekiştirmeli Öğrenme, ajanın bir ortamla etkileşime girip kendi kendine hedeflerine ulaşmayı öğrendiği bir yapay zeka türüdür. Burada ajan, mevcut duruma göre bir eylem seçer, bu eylemin sonucunda bir ödül alır ve yeni bir duruma geçer. Ajanın amacı, uzun vadede en fazla ödülü kazanacak stratejiyi (politika) geliştirmektir.
Yukarıda bahsettiğimiz paragraftaki "ajan" terimi pekiştirmeli öğrenme sisteminde karar verici veya öğrenen varlık anlamına geliyor.
Daha da basite indirgeyelim, bir oyun oynayan yapay zeka programıysa, oyundaki hareketlerini belirleyen ajandır.
Ajanı da öğrendiğimize göre pekiştirmeli öğrenmenin temel bileşenlerine bakalım:
Ajan (Öğrenen): Kararları veren ve ortamla etkileşime giren aktör.
Ortam (Environment): Ajanın etkileşimde bulunduğu ve geri bildirim aldığı dış dünya.
Durum (State): Ortamın o andaki durumu, yani mevcut şartlar biraz daha türkçesi.
Eylem (Action): Ajana o anda yapabileceği seçimler.
Ödül (Reward): Bir eylemin hemen ardından gelen geri bildirim.
Politika (Policy): Ajanın hangi durumda hangi eylemi seçeceğini belirleyen strateji.
Değer Fonksiyonu (Value Function): Belirli bir durumdan itibaren beklenen toplam ödül.
Model (Opsiyonel): Ortamın nasıl çalıştığını temsil eden yapı, tabii bu model bazlı öğrenme için kullanılır, çok da şart değil yani anlayacağınız. Yani burada model-free bir yol izlediğimiz için modele ihtiyaç yok o yüzden.
Buraya kadar her şey tamam gibi. Temelleri öğrendik, peki bu nasıl oluyor ona bakalım:
Markov karar süreçleri burada bizim kutsal kitabımız gibidir. (S, A, P, R, γ)
Ne peki bu harfler:
S: Olası tüm durumlar.
A: Olası eylemler.
P: Bir durum ve eylemden sonra başka bir duruma geçme olasılığı, yani P(s'|s, a).
Anlaşılmamış olması normal ben ilk gördüğümde kriz geçirmiştim, anlaşılmış da olabilir orasını bilemem benim için zordu :) :
P(s'|s, a) bir ortamda ajanın belirli bir durumda (s) belirli bir eylemi (a) yaptıktan sonra başka bir duruma (s') geçme olasılığını ifade eder.
R: Belirli bir durumda ve eylemde alınan anlık ödül.
γ: İskonto faktörü, gelecekteki ödüllerin ne kadar önemli olduğunu belirler (0 ≤ γ < 1).
Amaçsa her başlangıç durumundan itibaren en fazla ödülü kazandıracak en iyi politikayı (π*) bulmak.
Buraya kadar da tamamız diye düşünüyorum. En sinir bozucu yerlerden birine geldik:
Durum-değer fonksiyonu... Bu, belirli bir durumdan başlayarak politikayı takip eden ajanın beklenen toplam ödülünü ifade eder. (buradan sonra katex ile yazacağım):
Eylem-değer fonksiyonu... Bu da belirli bir durum ve eylem ile başlayarak politikayı takip eden ajanın beklenen toplam ödülünü ifade eder.
Burada , anından itibaren alınan toplam ödülü gösterir:
Kısaca bellman durum ve eylem fonksiyonlarını da yazayım en azından orası da havada kalmasın:
Burası da dinamik programlama yöntemlerinin temelini oluşturuyor.
Hızlıca pekiştirmeli öğrenme algoritmalarına bakalım çünkü burası ana cevaba ulaşabilmemiz için çok değerli:
Şimdi ne demiştik bizim modele ihtiyacımız yoktu değil mi:
Model-Serbest Yöntemler: Ortamın nasıl çalıştığına dair bir modele ihtiyaç duymaz.
Bunlarda neler var bakalım:
Değer Tabanlı Yöntemler: Politikalara ulaşmak için değer fonksiyonlarını kullanır.
Q-Learning: Off-policy bir yöntemdir ve Bellman optimalite denklemini kullanarak en iyi eylem-değer fonksiyonunu öğrenir o da şudur:
SARSA: Bu da tam tersi On-policy bir algoritmadır ve mevcut politikanın yaptığı eylemler üzerinden değerlerini günceller:
Politika Tabanlı Yöntemler: Politikayı doğrudan optimize eder.
Reinforce Algoritması: Monte Carlo tabanlı bir politika gradyan yöntemidir ve politika parametrelerini beklenen ödülün gradyanı yönünde günceller o da şöyle:
Bunun bir de derin pekiştirmeli öğrenmesi de var ama oraya çok girmeye gerek yok. Çok çok kısaca bahsetmem gerekirse, derin öğrenme dediğimiz şeyle pekiştirmeli öğrenmenin birleşimi. Derin Q Ağları, fonksiyonunu sinir ağları ile yaklaştırarak ajanın doğrudan ham veri mesela görüntü üzerinden öğrenmesini sağlar. Efsane bir şeydir ama çok zordur. Eğitim sürecinde işte dengeyi sağlamak için experience replay ve hedef ağlar gibi teknikler kullanılıyor. Bir de PPO, TRPO falan var da politika gradyanlarıyla alakalı çok girmeyelim oraya ana konunun dağılmaması için.
Pekiştirmeli öğrenmede en ama en büyük zorluk, keşif (yeni eylemler deneme) ve sömürü (en iyi bilinen eylemleri kullanma) arasında denge kurmaktır. Delirtir insanı. O kadar zordur.
Bu dengeyi sağlamak için ajanlar -greedy gibi rastgele eylem seçme olasılığına dayalı stratejiler kullanır.
Peki bu pekiştirmeli öğrenme neyde kullanılıyor da biz bu kadar anlattık bunu?
Robotik, Otonom Araçlar, Finans, Sağlık ve evet Oyunlar. (Finans özelinde biz bu haberleri çok duymuyoruz ama nedenini anlayabiliyorsunuzdur :))
İşte AlphaGo Zero'da da bu kullanıldı. Bu şaşırtıcı başarı da Monte Carlo Ağaç Araması yani MCTS ve "derin pekiştirmeli öğrenme"nin oldukça akıllıca bir kombinasyonunu kullanarak elde edildi.
MCTS ajanın bir hamle yapmadan önce olası gelecekteki hamlelerin sonuçlarını simüle etmesine olanak tanıyor ve bu sayede stratejik planlama yapabiliyor.
Bir de utanmaz SelfPlay yaparak öğreniyor. Yani kendisiyle oynaya oynaya yeni stratejiler keşfediyor sonra da politikalarını optimize ediyor 😂 Baktığımızda bir insanın bunu başarabilmesi yıllarını alıyor, ancak bir algoritma için 2 güncük...
Tabii her şey toz pembe değil maalesef. Bu sefer de stabilite ve verimlilik problemleri beliriyor.
Bu bizi zamanında Süper Lise'ye giden akranlarımızla karşılaştırmaya düşmeye benziyor biraz da. Benim zamanımdakiler bilir çok çektik çok...
Bu Süper Zekâ (Süper Lise'ye gidenlere derlerdi, yapay zekaya bir gönderme ya da başka birisine ya da bir şeye bir gönderme yok) gibi görünen sistemlerin de kendi dertleri var.
Mesela ne demiştik stabilite sorunları baş gösteriyor. Ağın öğrenmesi sırasında sapmalar olabiliyor bu da sonuçların tutarsız olmasına yol açıyor.
Verimlilik desen o da ayrı bir problem. Milyonlarca oyun simülasyonu yapmak için gereken işlemci gücünü bir düşünün. Enerji tüketimi de cabası. Ki bakın bu sadece bir oyun... Oyunu basitleştirmiyorum, oyunun adedi bir.
(Herhangi bir yorumda bulunmuyorum sadece bu var şu var, artısı eksisi, iyi kötü bile demiyorum siz karar vereceksiniz, sadece anlatım tarzım biraz daha karşılıklı konuşma gibi olsun istiyorum soğuk bir hava oluşmaması için)
Bir de deneyim tekrarı ve hedef ağlar gibi teknik konular var:
Deneyim tekrarı işte ajanın geçmiş deneyimlerini depolayıp tekrar tekrar kullanması demek ama bu da hafıza ve depolama açısından ciddi bir yük getiriyor.
Hedef ağlar ise öğrenme sürecini stabilize etmek için kullanılan bir yöntem zaten anlattık daha önce ancak uygulaması pek de kolay değil. Her seferinde ağı güncellemek, yeni parametreleri hesaba katmak derken iş iyice karmaşıklaşıyor. İşin içindeyseniz ve bu noktaya kadar geldiyseniz şuraya yazıyorum rahat 3 adet klavye kırmışsınızdır. Bilemedin 2 adet vardır 😅
Ayrıca bu kadar yoğun hesaplama gerektiren bir sistemin ölçeklendirilmesi de ayrı bir mesele. Büyük veri merkezleri, özel donanımlar derken maliyetler uçuyor. Maliyet uçarsa ne olur? Yatırımcı bulamazsın, her ne kadar yapay zekâ alanında hype olsa da para her şeydir, ve bir noktadan sonra bu maliyetler uçmayı geçiyorum astronomik fiyatlara çıkıyor. Sadece elektrik parası biraz önceki uçuyor terimine eş oluyor, gerisini siz hesap edin.
Çevresel etkileri de unutmamak lazım; enerji tüketimi arttıkça karbon ayak izimiz de büyüyor ama bunu şimdilik geçiyorum konudan uzaklaşmamak için, normalde geçmemem lazım ama sorudan çok uzaklaşmamak istiyorum.
Sonra bir de veri kalitesi ve çeşitliliği sorunu var. Ajana ne kadar çok ve çeşitli veri sunarsak o kadar iyi öğreniyor ama bu verileri toplamak ve işlemek de başlı başına bir uğraş. Üstelik bu verilerin doğru ve güvenilir olması şart yoksa yanlış öğrenme gerçekleşebilir sonra al çöpe at ne yaptıysan. Allah bilir hangi noktalar o yanlış veri yüzünden yanlış karara ulaştı... Bulursun da... yani baştan yap daha iyi. Özellikle büyük ve karmaşık veri setlerinde ki konumuz bu, hatalı verileri bulmak için ciddi bir emek harcamak gerekir. Ciddi emek demek, ekstra para demek, ekstra zaman demek, ekstra vakit kaybı demek. O yüzden bazen en pratik çözüm sip baştan gitmektir. Hem garanti olur hem de sonrada ayy aman unutmuşuz bunu ya demekten de kurtarır.
Sonra verilerin gizlilik ve güvenlik boyutu da işin içine giriyor... Hassas veya kişisel verilerle çalışıyorsanız, bu verilerin korunması ve etik kullanımını sağlamak zorundasınız yoksa yandı gülüm keten helva 😂İçerde tanıdığınız varsa farklı tabii...
Bunlar da ekstra bir katman ekliyor sürece maalesef... Tüm bunlar bir araya gelince basit görünen bir iş bile ne hale geliyor işte.
Evet bunu AlphaGo Zero başardı ama işte neler uğruna, oraya da bakmak lazım. Çözülmesi gereken bir sürü teknik ve pratik problem mevcut. Yani işimiz çok feci zor ama şunu da söylemek lazım imkansız değil. Çalışmaya devam etmek lazım...
AlphaGo Zero gibi başarıların arkasında yapay zekanın yeteneklerini yalnızca stratejik oyunlarda değil, bilimsel keşiflerde de gösterebildiğini görüyoruz... Evet evet biliyorsunuz :) AlphaFold 2.
Bilim dünyasını altüst eden bir diğer gelişme de dediğimiz gibi AlphaFold 2'nin protein yapılarını neredeyse deneysel doğrulukla tahmin etmesi. Proteinlerin nasıl katlandığı (yani işlevsel üç boyutlu yapılarını nasıl aldıkları) biyolojide 50 yıldır çözülemeyen bir bilmecedir.[2] AlphaFold 2 gelişmiş sinir ağlarını kullanarak ve devasa genetik veritabanlarında eğitim alarak eşi benzeri görülmemiş bir tahmin başarısına ulaştı.
CASP14 (Protein Yapısı Tahmin Yarışması) etkinliğinde AlphaFold 2, atomik hassasiyette sonuçlar veren 92.4 gibi etkileyici bir GDT (Küresel Mesafe Testi) puanı elde etti. Bu başarı eski yöntemlerin çok ötesine geçerek biyolojik işleyişin anlaşılmasında çok büyük bir çığır açtı ve yeni ilaçların keşfini hızlandırma açısından ciddi bir dönüm noktası oldu. İsterseniz bu devasa keşif nasıl oldu ona bakalım.
Proteinler, hücrelerimizin işçileridir; hemen hemen tüm biyolojik süreçlerde rol alırlar. Ancak bir sorun var: Proteinlerin nasıl katlandığını, yani amino asit dizilerinin üç boyutlu yapıya nasıl dönüştüğünü anlamak zordur. Bu sorun biyolojide "protein katlanma problemi" olarak bilinir ve yaklaşık 50 yıldır bilim insanlarının uykularını kaçırır.
Bu problemi çözmek neden bu kadar önemli? Çünkü bir proteinin işlevi üç boyutlu yapısına sıkı sıkıya bağlıdır. Yapıyı bilmeden, ilacınızı yanlış yere ateşleyen bir okçu gibi olursunuz. Yanlış hedef, boşa giden çaba ve kaynaklar demektir. Bir de kızgın yatırımcı demektir.
DeepMind, Google'ın yapay zeka kolu, AlphaGo ve AlphaGo Zero ile oyun dünyasını alt üst ettikten sonra rotasını biyolojiye çevirdi. "Madem Go oyununda insanları alt ettik, şimdi de proteinlerin sırrını çözelim" dediler ve AlphaFold projesini başlattılar.
İlk AlphaFold, bazı başarılar elde etti ama ikinci versiyonu olan AlphaFold 2, bilim dünyasını gerçekten sarsan asıl atılımdı.
Nasıl çalışıyor da bu kadar abartılıyor ki? Yoksa abartılmıyor mu?
Anlatmaya başlamadan önce çayınızı kahvenizi yenileyin çünkü derin sulara dalıyoruz, boğulmanıza izin vermem diyemeyeceğim en fazla beraber boğuluruz 😅
Proteinler, amino asit denilen yapı taşlarından oluşur. Bu amino asitler, bir ip gibi dizilir ve sonra bu ip, karmaşık üç boyutlu bir yapıya katlanır. İşte sorun burada: Sadece diziyi bilerek bu üç boyutlu yapıyı nasıl tahmin edebiliriz?
AlphaFold 2'nin kalbinde derin öğrenme yatıyor. Derin öğrenme, daha önce de değindiğimiz gibi çok katmanlı sinir ağlarını kullanarak karmaşık ilişkileri modellememizi sağlar. AlphaFold 2, bu sinir ağlarını kullanarak amino asit dizilerini alır ve bunları üç boyutlu yapılara dönüştürür.
Sonra protein dizileri arasındaki evrimsel ilişkileri kullanır. Bunun için MSA'yı kullanır Çoklu Diziliş Hizalaması açılımıydı herhalde adı yanlışsam düzeltin. MSA, bir proteinin evrimsel akrabalarını bulur ve bu dizileri hizalar. Bu da işte protein yapısının tahmininde kritiktir.
Protein dizilerindeki belirli pozisyonlar birlikte evrimleşir. Yani bir pozisyondaki amino asit değiştiğinde başka bir pozisyondaki amino asit de değişebilir. Bu ortak değişkenlik protein yapısının tahmininde ipuçları sağlar. AlphaFold 2 abimiz de bu ilişkileri derin öğrenme modelleriyle yakalar.
AlphaFold 2 doğal dil işlemede kullanılan Transformer mimarisini ve dikkat mekanizmasını kullanır. Ne bunlar? Modelin uzun menzilli etkileşimleri ve karmaşık ilişkileri yakalamasını sağlar kısaca. Hani birinin size odaklanarak dinlemesi gibi düşünün; önemli noktalara dikkat ediyor. Dinlemiş gibi yapmıyor.
Model sadece diziyi değil aynı zamanda protein yapısının geometrik özelliklerini de dikkate alır. Mesafeler, açılar ve diğer geometrik kısıtlamalar modeli yönlendirir. Yani basitçe "Bu iki amino asit şu kadar uzaklıkta olmalı, şu açıyla bağlanmalı, ne diyorsun Hikmet abi bu işe" gibi bilgiler kullanılır.
AlphaFold 2 tahmin ettiği yapıyı iteratif olarak iyileştirir. İlk tahminini yapar, sonra bunu düzeltmek için tekrar tekrar üzerinden geçer. Yani... Sanki bir heykeltıraşın kaba bir bloktan yavaş yavaş detaylı bir heykel çıkarması gibi. Umarım doğru örneklendirmişimdir.
Modelin eğitimi sırasında tahmin edilen yapıyla gerçek yapıyı karşılaştıran bir kayıp fonksiyonu kullanılır. Bu fonksiyon örneğin RMSD gibi metriklerle yapılar arasındaki farkı ölçer ama işte AlphaFold 2 daha hassas bir metrik olan Frenet-Serret çerçevesi ve violation loss gibi feci gelişmiş yöntemler kullanır.
Tek bir model yerine birden fazla modeli bir araya getirir. Bu da haliyle farklı modellerin tahminlerini birleştirerek daha iyi bir sonuç elde etmesini sağlar. Yani "Bir elin nesi var, iki elin sesi var" atasözünü burada kullanabiliriz 😅
Şimdi biraz daha teknik detaylara girelim. Matematiksel formüllerle süsleyelim ki tam olsun:
AlphaFold 2 (yoruldum bundan sonra AF2 diyeceğim) bir proteinin amino asit dizisini alır ve bu diziden MSA oluşturur. MSA da boyutunda bir matristir; burada hizalanan dizilerin sayısı, ise proteinin uzunluğudur.
Model, MSA'dan elde edilen bilgiyi kullanarak amino asitler arasındaki etkileşimleri tahmin eder. Bunun için Eşikli Matris Ağırlıklı Ortalama ve Çapraz Dikkat mekanizmaları kullanılır.
Protein yapısı amino asitlerin üç boyutlu uzayda konumlandırılmasıyla elde edilir. Model de bu konumları tahmin etmek için İteratif Yapı İyileştirme (hatırlayın önceki kısımdan) adımları kullanır. Burada, tahmini yapıyı optimize etmek için bir Enerji Fonksiyonu minimize edilir.
Burada tahmin edilen mesafe ise gerçek mesafedir. ise ağırlık faktörüdür.
Eğitim sırasında kullanılan kayıp fonksiyonu (bunu da hatırlayın) tahmin edilen yapıyla gerçek yapı arasındaki farkı ölçer. Bu hem mesafeleri hem de açıları dikkate alır.
Modelin parametreleri de kayıp fonksiyonunu minimize edecek şekilde güncellenir. Bunun için Adam veya AdaGrad gibi optimize ediciler kullanılır. (Umarım burada kullanılan optimizerler bunlardır, emin de olamadım olmadı bi check ederiz sonra)
Teknik kısmın da üstesinden geldik. Şimdi zorluklara bakalım:
Veri eksikliği var. Deneysel olarak belirlenmiş protein yapıları sınırlı. Bu sorunu aşmak için model, veri artırma ve transfer öğrenme teknikleri kullandı.
Hesaplama gücü yetersiz. Modelin eğitimi muazzam bir hesaplama gücü gerektiriyor. DeepMind özel optimize edilmiş TPU'lar ve dağıtık sistemler kullanarak bu sorunu çözdü.
Bir de genel sorunlar var. Bazı proteinlerin yapısı tahmin edilmesi çok zor olabiliyor, özellikle de esnek bölgeler veya düzensiz yapılar söz konusuysa. Model de bu durumlarda belirsizlik ölçümleri sağlayarak kullanıcıya bilgi veriyor.
AF2'nin bir diğer önemli yönü, DeepMind'ın bu modeli ve tahminlerini bilim dünyasıyla paylaşma kararı. Tüm protein yapılarının tahminlerini içeren bir veritabanı oluşturdular ve bunu ücretsiz olarak erişime açtılar. Bu da bilimsel araştırmaları hızlandırmak ve küresel iş birliğini teşvik etmek adına büyük bir adım. O yüzden kendilerini tebrik ediyorum. Ha güzel reklam yaptılar orası ayrı konu ama açıkçası ben böyle bir durumda elime geçen veriye bakarım, ister reklam yapsın ister başka bir şey pek umrumda olmaz. Tabii bu benim görüşüm siz kendiniz karar verin.
AF2, protein yapısı tahmininde bir devrim yarattı tamam ama hikâye burada bitmiyor. Bundan sonra:
Protein-Protein etkileşimleri var. Yani İki veya daha fazla proteinin bir araya gelerek oluşturduğu kompleks yapılarının tahmini.
Protein-DNA/RNA etkileşimleri var. Yani Gen ekspresyonu ve genetik düzenlemede kritik olan bu etkileşimlerin anlaşılması durumu.
Dinamik yapı tarafı da var. Yani proteinlerin zaman içindeki hareketleri ve farklı konformasyonları.
AF2, yapay dar zekânın ne kadar güçlü olabileceğinin mükemmel bir örneği. Spesifik bir probleme odaklanarak o alanda insan üstü performans sergileyebiliyor. Bu da yapay dar zekânın sınırlarının doğru yaklaşımlar ve yoğun çalışmalarla ne kadar genişletilebileceğini gösteriyor.
Şimdi bunları anlattığımıza göre ana sorunun cevabına dönelim.
Anlattığım bu detaylı örneklerle aslında neyi vurgulamak istediğimi merak ediyor olabilirsiniz, eğer fark etmediyseniz ki cevap çoktan oturmuş da olabilir kafanızda ama oturmayanlar için de netleştirelim, neden AlphaGo Zero ve AlphaFold 2 gibi iki dev yapay zeka örneğini derinlemesine inceledik? Amacım aslında yapay dar zekânın belirli alanlarda ne kadar ileri gidebileceğini ve aynı zamanda sınırlarını göstermekti. Bu örnekler yapay zekânın spesifik problemlere odaklanarak insanüstü performans sergileyebileceğini gösteriyor. Ancak bu başarılar genel zekâya ulaşmanın ne kadar karmaşık ve zor olduğunu da ortaya koyuyor.
AlphaGo Zero ve AlphaFold 2 efsane örnekler ancak her ikisi de kendi alanlarının dışına çıkamıyor. AlphaGo Zero, Go oyununda insanüstü performans sergilerken, bir dil çevirisi yapamaz veya bir araba süremez. Hatta bu kadar örnekler vermeyelim, heykel gibi davranmasını bile bekleyemeyiz çünkü onun için eğitilmedi. Benzer şekilde AlphaFold 2 protein yapılarını tahmin etmede HİÇBİR insanın iyi olamayacağı kadar iyi olabilir, ama bardak nedir diye sorsanız bile öyle bekler çünkü duyması veya doğal dil işlemesini anlaması için gereken yeteneklere sahip değildir. Yani bu sistemler dar ama derinlemesine uzmanlaşmış tabiri caizse bilim insanlarıdır. Ya da bilim algoritması mı denir bilmiyorum artık 😅
Tekrara düşmek istemiyorum ama yazmam gerekiyor ister istemez. Yapay dar zekâ belirli bir görevi veya dar bir görev kümesini yerine getirmek üzere tasarlanmış yapay zekâ sistemleridir buraya kadar her şey tamam. Bu sistemler kendi alanlarında insanları geride bırakabilir, ancak genel bir zekâya sahip değillerdir, buraya kadar da her şey tamam. Yapay dar zekânın daha da gelişmesi için birkaç temel faktörü inceleyelim:
Yapay zekâ modellerinin daha karmaşık ve güçlü hale gelmesi daha fazla hesaplama gücü ve enerji gerektirir. Moore Yasası'na göre işlemci gücü her iki yılda bir iki katına çıksa da fiziksel sınırlamalar nedeniyle bu eğilim yavaşlamaktadır. Transistör boyutları nanometre ölçeğine indiğinde kuantum etkileri devreye girer ve bu da verimliliği düşürür.
Sonuçta fizik kanunlarıyla pazarlık yapmak pek kolay değil...
Üstteki cümleyi kanıtlayalım. Bir yapay zekâ modelinin enerji tüketimi , hesaplama karmaşıklığı ile orantılıdır:
Burada veri boyutunu, algoritmanın derecesini ve enerji katsayısını temsil eder. Veri boyutu ve model karmaşıklığı arttıkça, enerji tüketimi üstel olarak artar, aslında basit.
GPT-3 gibi büyük dil modellerinin eğitimi, yüzlerce ton karbondioksit emisyonuna eşdeğer enerji tüketimine sahiptir. Bu sadece çevresel bir sorun değil, aynı zamanda ekonomik bir engeldir. Hatta eskimiş GPT-3 modeline bi bakalım:
GPT-3'ün eğitiminin yaklaşık 1.287 megavat-saat elektrik tükettiği ve yaklaşık 502 metrik ton emisyonuna neden olduğu tahmin edilmektedir. Bu da işte yıllık olarak 100 küsür benzinle çalışan arabanın emisyonlarına denk geliyor sanıyorum herhalde yani ortalaması işte. Aşağı yukarı değişebilir ona takılmayın.
GPT-3: 175 Milyar Parametre
GPT-4: Açıklayamıyorlar artık neden bilmiyorum ama ortalama 1.8 Trilyon parametre olduğu tahmin ediliyor bazı kaynaklarda ancak güvenilir tabii değil fakat ortalama mantıklı bir sayı diyebiliriz.
GPT-4o: En ufak açıklama yine yok ancak kendi deneyimlerden yola çıkarak çok aşırı büyük bir fark olmadığını düşünüyorum. Fakat işin içine resim, ses, dosya, pc versiyonları falan da girdi yani en kötü ihtimalle 10 Trilyon parametre vardır. Bu benim tahminim, bilimsel bir araştırma bunun üstüne olduğunu sanmıyorum, kendilerinin açıklamaları lazım onu da yapmıyorlar.
o1-Preview: Şu anda en iyi LLM bu. Şu kadarını söyleyeyim, hiç abartmıyorum 4o Van gölüyse, o1-Preview Pasifik okyanusu. Ha bunu rakamsal benzerlik olarak algılamayın tabii yoksa haha 44bin katı falan olur da, yani 100 trilyon parametre vardır diye düşünüyorum. Ki bu daha tamamlanmamış versiyonu. Tamamlanmış versiyonu da en az bunun 2 katı olacaktır. Rakamları görüyorsunuz değil mi astronomik boyutlara ulaşıyor.
(Burası tamamıyla varsayım o yüzden kesin bilgi olarak görmeyin, siz kendiniz test edin, anlatmış olduğum modellerin çalışma potansiyellerini ve yapabildiklerini test edin, çok detaylı promptlar girin zaten az çok dediklerime yakın bir görüşe sahip olacaksınızdır diye düşünüyorum)
Ben kendi varsayımlarıma göre yani üstte gördüğümüz parametrelere göre matematik hesaplamalarını yaptım arka planda sizi burada sıkmamak için sonuçlar şu şekilde:
GPT-3
- Parametre: 175 milyar
- Elektrik Tüketimi: 1,287 MWh
- CO₂ Emisyonu: 502 ton
GPT-4
- Parametre: 1.8 trilyon
- Elektrik Tüketimi: 13,234 MWh
- CO₂ Emisyonu: 5,162 ton
GPT-4o
- Parametre: 10 trilyon
- Elektrik Tüketimi: 73,543 MWh
- CO₂ Emisyonu: 28,691 ton
o1-Preview
- Parametre: 100 trilyon
- Elektrik Tüketimi: 735,429 MWh
- CO₂ Emisyonu: 286,909 ton
o1-Preview Tamamlanmış Versiyon
- Parametre: 200 trilyon
- Elektrik Tüketimi: 1,470,857 MWh
- CO₂ Emisyonu: 573,819 ton
Tabii şunu söylemekte de fayda var:
Parametre sayısı arttıkça modelin eğitimi için gereken hesaplama kaynakları ve enerji tüketimi genellikle artar. Ancak hesaplama karmaşıklığı sadece parametre sayısına değil aynı zamanda model mimarisine ve optimizasyon tekniklerine de bağlıdır.
Modelin eğitildiği donanımın enerji verimliliği (örneğin, GPU'lar, TPU'lar veya özel AI hızlandırıcıları) enerji tüketimini çok büyük ölçüde etkiler.
Kullanılan enerji kaynağının karbon yoğunluğu (örneğin, yenilenebilir enerji veya fosil yakıtlar) emisyonları üzerinde doğrudan etkiye sahiptir. Yani OpenAI ne kadar kullanır bilmem orasını ama yine de ben varsayımımda bile olabildiğince tarafsız kalmaya çalışıyorum.
Modelin eğitim süresi ve kullanılan optimizasyon algoritmaları (bunlardan bahsetmiştik) enerji tüketimini belirleyen önemli faktörlerdir.
Enerji tüketimi ve emisyonlarını hesaplarken aşağıdaki genel formül kullanılır:
emisyonları ise enerji tüketiminin enerji kaynağının karbon yoğunluğu ile çarpılmasıyla hesaplanır:
Ancak işte bu hesaplamalar için eğitim süresi, donanım özellikleri ve enerji kaynağının karbon yoğunluğu gibi spesifik bilgilere ihtiyaç vardır. E elde bunlar olmayınca da ne derseniz deyin ortaya çıkan tüm varsayımlar spekülatif kalıyor. Ben deneyimlerimden yola çıkarak ve aşağı yukarı tahminlerde bulunarak parametreler üzerinden genelleme yaptım. Başta da belirttim bunlar net bilgiler değildir. Orasını düşünmek ve hesabını yapmak artık size kalmış. İyimser de olabilirsiniz kötümser de, ha iyimser tarafı bile pek iç açıcı olmayacaktır orası ayrı.
Uzatmayayım o tarafı, daha kesin hesaplamalar için tabii şunlar da lazım:
- Modelin eğitiminde kullanılan toplam işlemci zamanı (FLOPs)
- Donanımın enerji verimliliği (FLOPs/Watt)
- Eğitim süresi (saat veya gün)
- Enerji kaynağının karbon yoğunluğu
bilginiz olsun. Hızlı geçiş olacak ama yapacak bir şey yok, en son üstteki cümleyi kanıtlayalım dedik ve birinci örneği detaylandırdık, şimdi ikincisine geçiyoruz.
Yapay zekâ modelleri öğrenmek için büyük miktarda veriye ihtiyaç duyar. Ancak bu verilerin toplanması, depolanması ve işlenmesi hem maliyetli hem de zaman alıcıdır. Ayrıca verilerin kalitesi de son derece önemlidir. Kalitesiz veya yanlı veriler, modelin performansını olumsuz etkiler. Buna zaten detaylıca değinik alphago örneğinde, tekrar etmeye gerek yok. Ama yeni olarak kısaca şuna değinmemiz gerekiyor:
Modelin genel hatası , önyargı () ve varyans hatalarının yanı sıra veri gürültüsü ile ilişkilidir:
veri gürültüsünü temsil eder. Verinin kalitesi düştükçe artar bu da toplam hatayı yükseltir. Bu çok önemli çünkü ana sorumuzun cevabını etkileyen adımlardan birisi bu.
Mevcut algoritmalar belirli görevlerde başarılı olsa da genelleme yetenekleri sınırlıdır bunu da detaylıca örneklendirdik. Derin öğrenme modelleri büyük veri setlerine ihtiyaç duyar ve "kara kutu" olarak kabul edilir; yani iç işleyişleri tam olarak anlaşılamaz.
Örneklendirmem gerekirse, bir görüntü tanıma modeli kedileri köpeklerden ayırt etmekte mükemmel olabilir, ancak küçük bir değişiklikle (örneğin, görüntüye biraz gürültü eklemekle) başarısız olabilir ve bu o kadar kolaydır ki delirirsin. Sonra ne demiştik garanti olsun diye? Sil baştan. Bu da haliyle işte algoritmik sınırlamalar içerisine giriyor.
Bilgi işleminin de fiziksel sınırları vardır. Landauer Prensibi'ne göre, bir bitlik bilgi işlemi için minimum enerji gereksinimi vardır:
Burada Boltzmann sabiti ve mutlak sıcaklıktır. Bu da bilgi işleminin enerji tüketiminin alt sınırını belirler.
Şuna değinmekte fayda var. Kuantum bilgisayarlar teorik olarak bu sınırlamaları aşabilir ancak pratikte henüz geniş çapta uygulanabilir değiller. Kuantum dekoheransı ve hata düzeltme gibi sorunlar kuantum hesaplamanın önündeki engellerdir. İleride olabilir o yüzden henüzün altını çizdim.
Yapay zekânın gelişimi haliyle etik ve sosyal sorunları da beraberinde getirir. Veri gizliliği, ayrımcılık, iş gücü piyasasındaki etkiler gibi konular, yapay zekânın sınırsız bir şekilde ilerlemesini engelleyebilir. Bunu çok fazla açmayacağım ancak formülde bunun da yeri var tabii. Sadece kestirilmesi hani zor ya, o yüzden çok açmaya gerek yok diyorum. Çok açarsam bu sefer yanlı gibi konuşmuş olurum gerek yok. Sadece şunu söyleyebilirim, otomatik karar verme sistemlerinin şeffaf olmaması, yanlış veya adil olmayan kararların alınmasına yol açabilir. Bu da toplumsal güveni sarsabilir. Bu sefer ne olur yavaşlar. Dediğim gibi kestirilemez bir şey.
Tüm bu faktörleri göz önünde bulundurduğumuzda yapay dar zekânın ulaşabileceği "nihai nokta"nın pratik ve teorik sınırlamalar nedeniyle ----- olduğunu söyleyebiliriz. Başta da dediğim gibi siz karar verin. Belirli mi yoksa belirsiz mi? Ben o sırada sorunun cevabını gerçekliklere dayanarak anlatmaya devam edeyim.
Daha gelişmiş yapay dar zekâ sistemleri, belirli alanlarda insanüstü performans sergileyebilirler, ancak bu gelişmeler üstel değil, kademeli olacaktır.
Belirli görevlerde insanları geride bırakabilir. Örneğin tıbbi teşhislerde daha yüksek doğruluk oranları, finansal piyasalarda daha iyi tahminler, dil çevirilerinde mükemmeliyet. (Yaşandı yaşanıyor, yani varsayım sayılmaz)
Kendi kendine giden araçlar, otonom robotlar ve endüstriyel otomasyon gibi alanlarda tam otonomi sağlayabilir. (Yaşandı yaşanıyor, bu da varsayım sayılmaz)
Büyük veri setlerini analiz ederek yeni ilaçların keşfi, malzeme bilimi alanında yenilikler yapabilir. (Yaşandı yaşanıyor, ve bu da varsayım sayılmaz)
Ancak:
Bu sistemler bir alanda mükemmel olsa da başka bir alanda işlevsel olmayacaktır.
Daha karmaşık modeller daha fazla enerji ve hesaplama gücü gerektirir. Bu da sürdürülebilirlik sorunlarına yol açar. Kaçınılmaz bu. Zaten işlemcilere eklenebilecek transistör sayısında limitlere dayanmaya yakınız, çok fazla şansımız kalmadı, artık ya yeni bir inovasyon gerekecek ya da işlemci tarlası yapacaklar ki yapmaya başladılar.
Ayrıca karar verme süreçlerinin şeffaf olmaması ve potansiyel ayrımcılık gibi etik sorunlar, bu teknolojilerin benimsenmesini engelleyedebilir.
Yapay zekânın daha da gelişmesi, enerji tüketimiyle doğrudan ilişkilidir. Dünya genelinde enerji kaynaklarının sınırlı olması ve iklim değişikliği gibi faktörler, enerji tüketimini azaltma gerekliliğini doğurur. Bu değişmezdir.
Bir yapay zekâ modelinin toplam enerji tüketimi , modelin hesaplama karmaşıklığı , eğitim süresi ve donanımın enerji verimliliği ile ilişkilidir daha önce de bahsettik ancak tazeleyelim ki farazi konuşmuş gibi görünmeyeyim:
Donanım verimliliğini artırmak ve algoritmaları optimize etmek enerji tüketimini azaltmanın yollarından biridir. Hatırlarsınız bahsettik. Ancak fiziksel sınırlar ve mevcut teknolojik sınırlamalar bu iyileştirmelerin de bir noktaya kadar etkili olabileceğini gösterir. Yani bu da uzun vadeli bir çözüm yolu değildir.
Uluslararası Enerji Ajansı’na (IEA) göre veri merkezleri şu an dünya genelindeki elektrik tüketiminin yaklaşık %1’ini oluşturuyor. Bu oranın yapay zekâ uygulamalarının daha yaygın hale gelmesiyle artması bekleniyor. IEA’nın verilerine göre 2022’de veri merkezlerinin elektrik tüketimi yaklaşık 240 ila 340 teravat-saat (TWh) arasında seyretti ve bu da toplam küresel tüketimin %1 ila %1,5’ü civarında.[3][4]
Ki biliyorsunuz bu tarih bu yapay zekânın son dönem popülerliğinden önceki bir tarih. Gpt 3.5, 2023 15 Mayıs'da çıktığına göre, aslında daha önce de çokça kez bahsettiğimiz o anormal artış yaşandı. Hani demiştik ya kestirilemez diye, işte bir anda böyle fırlaması kestirilemezken, bir anda düşmesi de kestirilemez. Ancak bir gerçek var o da IEA'nın açıklamaları. 2026'ya kadar bu enerji tüketiminin 1000 TWh'ye ulaşacağını düşünüyorlar.[5] Tabii buna kripto tarafı da dahil. Yani bu enerji artışı için aslında optimist bir yaklaşım bile denilebilir çünkü, yapay zekânın popüleritesi bu şekilde devam ederse, ya da yeni bir şok dalgası gelirse bu oran çok daha hızlı ve çok daha yükseklere çıkar. Tabii bunun hesabını yine de siz yapın ve kendiniz bir sonuca varın.
Anlattığımız örnekler ve detaylar yapay dar zekânın potansiyelini ve sınırlamalarını net bir şekilde ortaya koyuyor diye düşünüyorum. Buradan sonraki cümlelerin bir kısmı benim yorumum, bir kısmını da desteklediğini düşünüğüm kanıtlara yer verdim, o yüzden isterseniz bu kısmı okumayabilirsiniz.
Yapay genel zekâya ulaşmadan önce, yapay dar zekânın belirli alanlarda çok ciddi anlamda derinleşeceğini ancak genel zekâ seviyesine ulaşamayacağını söyleyebilirim.
Daha gelişmiş yapay dar zekâ sistemleri günümüzdekilere göre daha yüksek doğruluk, hız ve verimlilik sunabilir. Ancak bu gelişmeler marjinal olacaktır ve mevcut sınırlamalar nedeniyle radikal bir dönüşüm beklenemeyebilir. Zaten üstteki anlattığım sebepler de benim yorumumu aslında destekler niteliktedir. Ancak yoruma açık olduğu için burayı yorumum kısmına katmayı uygun gördüm.
Yapay dar zekânın daha da gelişmesi için gereken enerji ve kaynaklar, mevcut teknolojik ve ekonomik koşullar altında sürdürülebilir olmayabilir. Enerji tüketimindeki artış, hem çevresel hem de ekonomik maliyetleri artıracak buna zaten çok kez değindik.
Bilgi işleminin fiziksel sınırları ve enerji tüketimi göz önüne alındığında yapay zekânın gelişimi için bir üst sınır vardır. Bu sınır mevcut teknolojilerle aşılamaz.
Burada Landauer Prensibi'ne göre bir bitlik bilgi işlemi için gereken minimum enerjidir. Bundan zaten bahsettik. Bu da benim için yeterli kanıtlardan birisidir.
Buraya kadar anlattığım tüm detaylar, yapay dar zekânın ne kadar ileri gidebileceğini ve hangi sınırlamalarla karşılaşabileceğini göstermek içindi. Yapay genel zekâya ulaşmak, sadece teknik değil, aynı zamanda etik, sosyal ve ekonomik zorlukları da beraberinde getiriyor. Sorumuzun temeli YGZ olmadığından dolayı oraya girmiyorum.
Eğer buraya kadar geldiyseniz, gerçekten takdire şayansınız.😊 Ben bile yazdıklarımı tekrardan okuyup eksik bıraktığım yer var mı diye kontrol edecek vakti bulabileceğimi sanmıyorum. Anlattıklarımın ışığında yapay dar zekânın geleceği hakkında daha net bir fikir sahibi olmuş olmanızı umuyorum. Yapay zekânın potansiyeli kesinlikle büyük ancak sınırlamaları ve zorlukları da maalesef göz ardı edemeyiz. Sabırla okuduğunuz için teşekkür ederim. Unutmayın, yapay zekâ alanı sürekli gelişiyor ve belki de gelecekte bugün imkânsız görünen şeyler mümkün hale gelir. Ancak şu anki verilere dayanarak, yapay dar zekânın "nihai noktasına" ulaşmasının önünde ciddi engeller olduğunu söyleyebiliriz. Fakat şu da var ve kabul etmezsem kendime yalan söylemiş olurum:
Umutsuz durumlar yoktur, umutsuz insanlar vardır. Ben hiçbir zaman umudumu yitirmedim. - Mustafa Kemal Atatürk
Kaynaklar
- D. Silver, et al. (2017). Mastering The Game Of Go Without Human Knowledge. Nature, sf: 354-359. doi: 10.1038/nature24270. | Arşiv Bağlantısı
- J. Jumper, et al. (2021). Highly Accurate Protein Structure Prediction With Alphafold. Nature, sf: 583-589. doi: 10.1038/s41586-021-03819-2. | Arşiv Bağlantısı
- IEA. Data Centres & Networks - Iea. Alındığı Tarih: 8 Kasım 2024. Alındığı Yer: IEA | Arşiv Bağlantısı
- datacenterdynamics. Global Data Center Electricity Consumption To "Increase Significantly," But Remain A Small Part Of Overall Usage. Alındığı Tarih: 8 Kasım 2024. Alındığı Yer: datacenterdynamics | Arşiv Bağlantısı
- IEA. Executive Summary – Electricity 2024 – Analysis - Iea. Alındığı Tarih: 8 Kasım 2024. Alındığı Yer: IEA | Arşiv Bağlantısı