Oyunlarla Öğrenen Makinelerin Gerçek Dünyayla İmtihanı

Bu yazının içerik özgünlüğü henüz kategorize edilmemiştir. Eğer merak ediyorsanız ve/veya belirtilmesini istiyorsanız, gözden geçirmemiz ve içerik özgünlüğünü belirlememiz için [email protected] üzerinden bize ulaşabilirsiniz.

Tıpkı bir çocuğun oyunlar oynayarak ve öğrenerek hayata hazırlanıyor oluşu gibi yapay zekaya sahip makineler de kendi kendilerine oyunlar oynayarak gerçek hayatta karşılaşabilecekleri zorlu durumlara hazırlanmaktadırlar.

Çok yakın zamanlara kadar belli oyunlarda insan şampiyonları alt eden yapay zekâlar, insanların tecrübelerinden öğrendikleri ile başarılı sonuçlar çıkarmıştı. Örneğin, IBM’in geliştirmiş olduğu Deep Blue adlı yapay zekanın dünya satranç şampiyonu Garry Kasparov’u 1997’de yenebilmesi için mühendisler yüzyıllık satranç bilgeliğini robotlara öğretmişlerdi. Ve yine 2016’da Google’ın geliştirmiş olduğu AlphaGo, insanlar tarafından oynanmış binlerce Go oyununu ve bu oyunda yapılmış milyonlarca hamleyi inceledikten sonra oyunun dünya şampiyonu olan Lee Sedol’ü ezip geçmişti.

Son zamanlarda yapay zekâ araştırmacıları, insanın kazandığı bilgiler bütününü robotların kendilerine entegre edebileceği bir yöntem arayışına girmişlerdir. Bu yeni yönelimin adı ise “Zahmet etme”.

 

Tek Rakibi Yine Kendi!

Geçtiğimiz Ekim ayında Google geliştirmiş olduğu AlphaGo Zero’yu tanıttı. Bu yapay zekâ önceki versiyonları gibi insanlardan öğrenmiyor, yani insanlar bir şeyler öğretmek için “zahmete girmiyor”. Daha ziyade, oyunun kuralları verildikten sonra yapay zekamız, kendi rakibi yine kendi olmak üzere oyunlar oynuyor (self-play). Oynadığı ilk hamleler tamamen rastgele, ancak her bir oyunun sonunda bir öncekinde işe yaramış olan hamleleri kullanıp işe yaramayanları eliyor ve tekrar oynamaya başlıyor. Hatta bir seferinde, bu şekilde fazlaca oyun tekrarladıktan sonra, insanların öğretmenliğini yapmış olduğu ve Lee Sedol’ü yenen eski versiyonu ile kafa kafaya bir maç yaptı ve 100 oyunun hepsini kazandı.

Daha sonra, DeepMind şirketi AlphaGo ailesinde başka bir usta oyuncu olacak olan botu yaratmaya koyuldu. Bu seferki sadece AlphaZero adındaydı. Yaptıkları bu çalışmayı Aralık 2018’de arvix.org’da paylaştılar. Araştırmacılar, oyunun kuralları hariç, oyun alanına dair hiçbir bilgi vermeden başlattıklarında ve rastgele oynamasına izin verdiklerinde Alpha Zero’nun, AlphaGo Zero’ya galip geldiğini, yani dünyadaki en iyi Go oyuncularını yenen botu (AlphaGo) ve onu yenen botu da (AlphaGo Zero’yu da) yendiğini söylemişlerdir. Ayrıca Alpha Zero sadece bildiğimiz satranç değil Japan oyunu shogi’yi de 24 saatlik kısa diyebileceğimiz bir zaman zarfı içinde öğrenmiştir. Programın bir süre sonra saldırgan ve farklı bir tarzda oyun oynamasından sonra ünlü Danimarkalı satranç ustası olan Peter Heine Nielsen şu yorumu yapmıştır:

“ ‘Üstün bir uzaylı ırkı dünyaya gelip satranç oynasaydı, nasıl oynardı acaba?’ diye hayal ederdim. İşte şimdi bunun cevabını aldım.”

Buna benzer yapay zekâlar geçtiğimiz yıllarda poker ve DOTA 2 gibi oyunlarda da kullanılmıştır.

Elbette bu firmaların amacı sadece insanları mağlup edip video oyunu turnuvalarını ele geçirmek değil. DeepMind gibi ekipler bu teknolojiyi gerçek hayatta nasıl uygulayabileceklerini de araştırmaktadırlar. Örneğin oda sıcaklığında çalışan süper iletkenler oluşturma veya etkili ilaç moleküllerini oluşturmak için protein katlanmalarını anlamaya yönelik çalışmalar yapmaktadırlar. Çalışanlar, bu araştırmaların sonunda genel yapay zekâyı, yani tıpkı bir insan gibi düşünebilen ve probleme farklı noktalardan yaklaşan bir sistemi inşa edebileceklerini düşünüyorlar. Bu tip çalışmalara yapılan büyük yatırımlara rağmen oyun üzerinden daha ne kadar ileri gidilebileceği konusunda ise soru işaretleri bulunmaktadır.

 

"Belirsiz" Bir Dünya İçin Mükemmel Hedefler

Satranç ve Go oyunu gibi pek çok oyunda, oyuncular oyun sathını ve her bir taşın bulunduğu poziyonu görebilir ve buna dayanarak başlangıçta rahat bir şekilde hamle yapabilir. Hatta, oyun ne kadar karmaşık hale gelirse gelsin bir sonraki hamleyi yapabilmek için sadece o anki durumun bilgisini değerlendirip ona göre hareket etmek yeterlidir.

Elbette gerçek hayatta çoğu durum bu şekilde değildir. Örneğin, bilgisayardan bir hastalığı teşhis etmesini veya bir iş görüşmesi yapmasını istediğinizi bir düşünün… Carnegie Mellon Üniversitesinde bilgisayar biliminde doktora öğrencisi olan Noam Brown, gerçek hayattaki stratejik etkileşimlerin çoğunun gizli bilgiler (öngörülemeyen durumlar) içerdiğini fakat YZ camiasının neredeyse tamamının bunu ihmal ettiğini düşünmektedir.

Bu nedenle Brown, akademik olarak uzmanlaşmış olduğu poker oyununda değişik ve zorlu bir durum ortaya koyuyor: Onun oyununda rakibinizin kartlarını asla göremiyorsunuz, yani tam bir bilinmezlik durumu hakim. Hal böyle iken, bir süre sonra “kendine karşı oynama (self-play) sayesinde makineler, insandan daha iyi oynamaya başlıyorlar. Ocak 2017’de Brown ve yardımcısı Tuomas Sandholm’ün geliştirmiş olduğu Libratus adlı program, dört profesyonel poker oyuncusuna karşı kafa kafaya maçlar yaptıktan sonra 20 günün sonunda rakiplerinden 1.7 milyon dolar daha fazla kazanmıştır.

Belirsizliğin hakim olduğu başka bir oyuna örnek verecek olursak StarCraft 2 adlı çok oyunculu oyunu gösterebiliriz. Bu oyunda oyuncular kendi takımlarını oluşturarak karşı takımla savaşırlar. Savaşın geçtiği bölge ise yoğun sisli bir alan. Düşmanın nereden saldıracağı belirsiz… YZ hala bu oyunu oynayamamaktadır. Bunun sebebi sadece sis veya düşmanın nereden geleceğinin kestirilemez oluşu değil. Oyunda binlerce kişinin aynı anda oynuyor oluşunu, yani yapılması gereken hızlı ve sayısızca hareketin bulunuşunu ve (insan veya makine fark etmeksizin) her bir oyuncunun her fare dokunuşunda olası bir geleceği değiştirmesini diğer faktörler arasında sayabiliriz. Şimdilik YZ’nin bu oyunun üst düzey insan oyuncuları ile mücadele etmesi imkânsız ama DeepMind bunun için çalışmalarını sürdürüyor.

Bu tip sistemlerde ortaya çıkan problemler belli bir amaca hizmet etmektedir. Örneğin AlphaZero satranç oynadığında üç ihtimal vardı: beraberlik, galibiyet veya mağlubiyet. AlphaZero bunları optimize edip kendisi için en iyi hamleyi yapmaya, yani hedefi tutturmaya çalışmıştı. Poker oyunu için yapılan algoritma da bu şekilde çalışmaktadır. Hedef, daha çok para kazanmaktır.

Ancak gerçek hayatta yapılan işler bu kadar basit değildir. Örneğin otonom bir aracın güvenli bir şekilde gidebilmesi için çok ayrıntılı ifadelerle optimize edilmesi gerekir. Yani aracınıza şunu harfiyen öğretmeniz gerekmektedir: Tehlikeli ve belirsiz durumlarda insana vermesi gereken önceliği, tüm kurallara uymayı ve bunları yaparken de yolcuyu gitmek istediği yere ulaştırmayı. Bunları ayrıntılı halde yapabilmek ise makine öğrenmesi üzerine çalışan bir araştırmacıyı diğerlerinden ayıran önemli bir unsurdur.

Microsoft’un 2016’da geliştirmiş olduğu Tay isimli sohbet botunun da amacı belliydi: İnsanlarla muhabbet ederek onlarla ilgilenecekti ve bunu makine öğrenmesi sayesinde yapacaktı ama Tay ile iletişime geçen kişiler genelde ırkçı ve kaba ifadeler kullandıkları için maalesef Tay, insanlarla “ilgilenme” yolunun onlar gibi ırkçı söylemler kullanmayı “öğrenmesine” yol açtı. Bu nedenle Tay’in ömrü kısa oldu ve bir gün bile sürmeden bot kapatıldı.

 

Oyunlar ve Pekiştirmeli Öğrenme

Günümüzün strateji oyunlarında kullanılan mantık yıllarca önce tasarlanmış ve hala kullanıma devam etmekte olan sistemlerdir. Oyunlardaki stratejiler genellikle “pekiştirmeli öğrenme”ye dayalı bir sistem üzerine kuruludur. Pekiştirmeli öğrenme, herhangi bir öğreticinin olmadığı bir ortamda sistemin ilk başta gözlemler yapıp ardından gözlemlerine dayalı olarak hareketlerini yaptığı bir öğrenme şeklidir. Fazlasıyla detay içeren bir algoritma yerine mühendisler, makinelerin çevreyi kendilerinin keşfetmesine ve hedefe gidebilmesi için denemeler ve hatalar yapmasına izin verirler.

IBM mühendisi olan Arthur Samuel, 1950’lerde oyunları izleyen bir satranç programı geliştirmiş ve bu program alfa ve beta takımlarının maçlarını izleyerek oyunu öğrenmiştir.

1990’larda kendi kendine karşı oynayan bir tavla programı IBM’den Gerald Tesauro tarafından yapıldı. Bu program, kendi kendine alışılmadık fakat etkili stratejiler öğrenerek insan ustaların geldiği seviyelere ulaştı.

DeepMind şirketi AlphaGo ve kardeşlerini tanıtmadan önce 2013 yılında büyük bir başarıya imza attı: Pekiştirmeli öğrenme üzerine kurulu olan botları, yedi adet “Atari 2600” oyununu öğrendi ve üç tanesinde uzman seviyesine ulaştı.

Bu gelişme devam etti ve DeepMind, 5 Şubat 2018’de IMPALA’yı tanıttı. Bu YZ öncekine kıyasla 57 adet “Atari 2600” oyununu öğrenmenin yanı sıra üç boyutlu 30 farklı bölüm (seviye) tasarladı. Bu seviyelerde oyuncu farklı ortamlarda dolaşırken kilitli kapıları açmak veya tarlada mantar toplamak gibi farklı yelpazedeki görevleri de yapmaya çalışıyordu. IMPALA, görevlerini bir bir tamamlarken görevleri arasında bilgi transferi yaparak, aynı zamanda, sonraki oyunlarında daha iyi hale gelebilmek için bu bilgileri kullanıyor gibi gözüküyordu.

Defalarca ve kendi rakibi yine kendi olmak üzere oyun oynayan bir algoritma, herhangi bir hamle veya küçük bir değişiklikte rakibin hamlesini hemen öğrenip stratejisini ona göre değiştirebilmektedir. OpenAI adlı kar amacı gütmeyen organizasyon Ağustos 2017’de kendi kendine öğrenen bir algoritmaya sahip olan Shadow Fiend adlı oyun karakterini yöneten DOTA 2 botunu piyasaya sürmüş ve bu bot dünyanın en iyi oyuncularını birebir maçta çok rahat bir şekilde yenmiştir. Buna benzer bir çalışma da sumo maçı video oyununda yapılmıştır ve bu çalışmaların üzerine organizasyonun kurucu ortaklarından Sutskever “Bu sistemlere karşı kendinizi asla tekrar edemezsiniz; her zaman hamlelerinizi geliştirmeniz gerekli” demiştir.

 

Gerçek Hayat, Sanal Durumlara Karşı

Görüldüğü gibi, kendi kendine öğrenebilen oyun sistemi aslında eski bir fikir olup bugünlerde her oyunda oyunu tecrübe etmek ve stratejileri anlayabilmek için yaygınlıkla kullanılmaktadır. Fakat satranç, Go ve DOTA 2 gibi oyunlar, evrendeki atomlardan daha fazla hamle kombinasyonuna sahip oyunlardır. Bu tip sistemler kendi kendine sayısız maç yapsa bile bütün senaryoları önceden hesaplayamaz ya da hamleleri tablo şeklinde not edip gelecekte karşılaşacağı rakibinin olası hamlelerine göre o tabloya başvuramaz.

Bu olasılıklar denizinde boğulmamak için genelleştirme yapıp öze tutunmak gerekmektedir. IBM’in Deep Blue botu kendisine entegre edilmiş satranç formülü sayesinde bunu başarmıştır. Daha önce hiç görmediği hamlelerin gücünü sınama yeteneğiyle donanmış olan bu bot, kazanma şansını artırması beklenen hareketleri ve stratejileri öğrenebilmiştir. Ancak son yıllarda çıkan yeni bir teknik ise bu formülü hepten rafa kaldırdı: “Deep net (derin ağ ya da derin öğrenme)”, aniden, tüm bunları yapabilmeye başlamıştır.

Son yıllarda popülerliğini iyiden iyiye arttırmış olan derin öğrenme, yapay nöronların katman katman dizilmesi ile bir yapay sinir ağı oluşturur ve bu şekilde her bir katman bir sonrakine sinyal gönderir. Bu katmanlar birbirinden farklı olan girdileri ilgili bir çıktıya dönüştürebilir, hatta bunlar soyut bağlantılar olsa bile… Örneğin, derin öğrenmeye sahip bir sisteme İngilizce bir metin verilip onu Türkçe’ye çevirmesi istenirse kendini bu yönde eğitebilecektir. Bir grup hayvan fotoğrafında kedi olanları ayıklamasını istediğimizde bunu pekala yapabilir. Söz konusu bir masa oyunu olduğunda kazanma ihtimalinin ne olduğunu gösterebilir. Tabii ki bunları yapabilmesi için, üzerinde pratik yapabileceği her biri tanımlanmış örneklerden (fotoğraflardan) oluşan çok sayıda katman gösterip sistemin bunu öğrenmesi sağlanmalıdır.

Kendi kendine öğrenmede rastgele yapılan hamleler ile oyunda veriler oluşur ve bu veriler derin öğrenme sayesinde işlenerek botun oyunu öğrenmesi sağlanır. Fakat bu arada bir parantez açmak gerekir… Kendi kendine oynayarak öğrenen sistemlerin kullanışlı veriler elde edebilmesi için oynayabilecekleri gerçek bir saha olması lazımdır. Ancak her ortamı simüle etmek ise o kadar kolay olmayabilir. Örneğin otonom bir araç, kötü hava şartlarında veya arabanın kamerasına doğru gelen bir kuş gibi düşük ihtimalli olayları saptamada zorluk yaşayabilir. Veya bir ağaç dalının dur işareti levhasının üzerine düşmesiyle onu kısmen kapatıp görünmesini zorlaştırdığı durumlarda otonom aracın karar vermesini engelleyici koşullar gerçekleşebilir. 

Görüleceği üzere, olasılıklar arttıkça gerçek durumları simule etmek de zorlaşmaktadır. Bu tür durumlarda kendi kendine oyun oynayarak öğrenme beklenilen faydayı sağlayamayabilir. Gerçek hayatta karşılaşılan olaylar ile öğrenilen durumlar arasında büyük bir uçurum olabilir. Çok katmanlı derin öğrenme bir umut vadetse de olasılıklar denizi, karşısında dağ gibi durmaktadır. Yine de bu durum YZ araştırmacılarını engelleri aşma konusunda çözümler aramaktan alıkoymamalıdır.


Kaynaklar ve İleri Okuma:

  1. Bu yazının omurgası Quanta Magazine sitesindeki bir yazıya dayanmaktadır.
  2. arxiv.org - 1
  3. arxiv.org - 2

Sigaranın Bebeklerin Sinir Sistemi Gelişimi Üzerindeki Olumsuz Etkisi

Schrödinger'in Kedisi ve İyi Haber, Kötü Haber

Yazar

Katkı Sağlayanlar

Ayşegül Şenyiğit

Ayşegül Şenyiğit

Editör

Evrim Ağacı'nın genel editörü, popüler bilim yazarı ve çevirmenidir. İstanbul Üni. İngiliz Dili ve Edebiyatı mezunudur. Yıldız Teknik Üni. Yabancı Diller Yüksek Okulunda İngilizce öğretim görevlisi olarak çalışmaktadır

Konuyla Alakalı İçerikler

Göster

Şifremi unuttum Üyelik Aktivasyonu

Göster

Göster

Şifrenizi mi unuttunuz? Lütfen e-posta adresinizi giriniz. E-posta adresinize şifrenizi sıfırlamak için bir bağlantı gönderilecektir.

Geri dön

Eğer aktivasyon kodunu almadıysanız lütfen e-posta adresinizi giriniz. Üyeliğinizi aktive etmek için e-posta adresinize bir bağlantı gönderilecektir.

Geri dön

Close
Geri Bildirim