OpenAi o3 hakkında agi benchmark testini geçtiği söyleniyor. Bu konuda bir içi boş bir heyecan mı yaratılıyor yoksa gerçekten böyle bir durum var mı?

medium.com/future-of-work...

1 Cevap - 383 görüntülenme

Cevap Ver

1 Cevap

Cevap

Sena Küçükkıvanç

917.7K UP

Bilgisayar Mühendisi 23 Aralık 2024

Aynı "mucize vişne suyu içip bir anda 30 kilo verme" vaatleri gibi, "o3 AGI benchmark'ı yardırdı, her şeyi çözdü!" demek kulağa hoş geliyor. Ama bir tahlil yapalım değil mi? Gerçekten 'Genel Yapay Zekâ' (AGI) dediğimiz o efsanevi fenomene bu kadar yaklaşmak mümkün mü? Pek sanmam.

Zira bugüne kadar gördüğümüz modeller — GPT, PaLM-2, Claude vs. — her ne kadar dil işleme, mantık yürütme, hatta bazen matematikte üst düzey performans gösterseler de, "gerçek anlamda çeviklik ve insana benzer esneklik" söz konusu olduğunda hep duvara çarpıyorlar. Yani spesifik veri kümelerinde şahane işler yaparlar; ama yepyeni, hiç görmedikleri, bir o kadar da "saçma" sorunlar karşısında kolayca tökezlerler. İşte ARC-AGI de tam bu "makinenin adaptif zekâsını" ölçüyor. Duyduğuma göre, o3 bu testte müthiş puanlar almış, ama "müthiş" lafını kimin gözünden okuduğumuz önemli.

Bir iki matematiksel dayanak da serpiştirelim değil mi? Mesela, derin öğrenme modelinin temelinde şu tip bir fonksiyon vardır:

Burada aktivasyon fonksiyonunu (örneğin ReLU, sigmoid vb.) simgeler; ve ise parametre matrisleri ve önyargılardır. Büyük modellerde bu katmanların sayısı yüzlerceyi bulur, parametre sayısı milyarlarca olur — GPT-3, GPT-4, bilmemkâç, hep bu yolla geliyor. Tamam olağanüstü bir hesaplama gücü ile "dil örüntülerini" öğrenebiliyorlar, ama ne kadar parametre eklersen ekle, esas mesele "bu parametrelerin yepyeni durumlara nasıl tepki verdiği." AGI dediğimiz zaman şöyle bir denklem düşünebilirsin:

Yani modeli alıp alakasız yepyeni senaryolara soktuğunda, parametrelerin sonsuz çeşitliliğe yaklaşırken bile makul çözümler üretmesi istenir. Oysa büyük dil modelleri, kadar parametreyle (kâğıt üzerinde değil, büyük ama sonlu) eğitilir ve tam da "" senaryosunda tabiri caizse topu taca atabilir. "o3" testte "yüzde 75-85 arası" başarı aldı deniyor; eh, bu rakam ilk bakışta büyüleyici. Ama neyin 75-85'i olduğu, testin hangi alt setine uygulandığı, hangi "compute" limitleriyle yapıldığı vb. epey can alıcı detay, tabii ki bu bilgileri vermemek daha hoş değil mi??

Yani bir nevi "şampiyon güreşçi 120 kilo kaldırdı, dünya rekoru!" derken, halterin boş bar ağırlığında test yaptık demek gibi. Bir de 200 kilo deneyelim, bakalım orada ne oluyor?

Geçmişte de neler neler oldu… Mesela AlphaGo, Go oyununda insanı yenince hemen "Eyvah AGI geldi, makineler hepimizi ele geçirecek" denmedi mi? (Hoş, bazı medyalarda dendi.) Sonra gördük ki AlphaGo, Go tahtasını bırakıp Sudoku çözmek isteyince "ben Sudoku nedir bilmiyorum ki!" diye afalladı. Keza GPT-3 zamanında da "Artık tüccarın, avukatın, yazarın, şarkıcının işi bitti, AGI doğdu" şamataları koptu. Bir sürü heyecan, bir sürü abartı. Şimdi "o3" sahneye çıktı. Acaba... yine aynı senaryo mu tekrarlanıyor? Yoksa buradan ekmek yiyenler insanları sömürmeye devam mı ediyor?

Tam bir "Yeni telefon çıktı, kamerası 100 MP olmuş, e tabii bu sefer Hubble Teleskobu'nu geçer" durumu. Hubble Teleskobu'nu cep telefonuna sıkıştırdığını iddia eden varsa, bana da göstersin, bayıla bayıla izleyeyim.

AGI'a ulaşmak için sadece devasa parametreler değil, daha farklı mekanizmalar da gerekiyor. Örneğin, "zincirleme akıl yürütme" zaten GPT-4 gibi modellerde kısmen kullanılıyor, ama derin sebeplendirmede yeni bir evreye ihtiyaç var: Plan yapma, eylem seçeneklerini test etme, uzun vadeli hafıza ve geri bildirim döngüsü gibi süreçler…

Bunların hepsi "OODA loop" (Observe–Orient–Decide–Act) mantığıyla bir sistem içinde gerçekten uygulanırsa, belki AGI yolunda büyük bir adım atılacak. Ancak halihazırda, HPC (High-Performance Computing) çiftliklerinde bile böylesi karmaşık süreçleri gerçek zamanlı işletmek, GPU'lara, TPU'lara ne kadar yük bineceğini anlatmaya kelimelerrrr yetmez. Bir de karbon ayak izi var tabii: "o3" gibi dev bir modelin "benchmark" koşusunda bile muhtemelen tonlarca CO2 salınımı gerçekleşiyordur. Tabii kim takar CO2'yi değil mi?

Bu kadar devasa bir modeli "her hafta 5 kere yeni veriyle güncelleyelim, durmak yok yola devam" demek, Disneyland hayali gibi. Maliyet, veri toplama, etik sorunlar… Hepsi masanın üstünde duruyor.

Hani diyorlar ya, "Efendim, o3 neredeyse insan gibi düşünüyor, ARC-AGI'ı pat diye geçti, 2025'te insanlık "yapay tanrıyı" görecek." E tabii, Star Wars'taki ışın kılıcını da belki buluruz, kim bilir. Bu hızla gidersek 2025'te uçan arabalarımız da olur, tatilde Mars'a kaçarız, Orta Dünya'yı da visit ederiz, hepsi pek yakında!

Gerçekçi olalım: AGI denen şey, sadece bir test puanını yükseltmek değil. "Geniş ve esnek zihinsel faaliyet" gerektiriyor — yani yeni ortamlara ayak uydurup yepyeni problemleri insan gözüyle (hatta ondan da öte) algılayabilmek. Tek bir benchmark'ta, üstelik "kısıtlı senaryolarla" bile olsa yüksek skor almak, AGI demek değildir. Tabii "Güzel bir ilerleme, heyecan verici" diyebiliriz. Ama "AGI tamamdır, bitti bu iş, kahveler bizden!" demek… Abartı... Abartı ya bunu görmemek için gözü kapalı yaklaşmak lazım bütün konulara.

Sonuçta "OpenAI o3" için yapılan tantana, aynen yeni bir pop starın bir anda "Dünya'nın en büyük müzisyeni oldu" denmesi gibi. E, belki bir iki hit şarkı çıkarır, rekorlar kırar, ama daha Beethoven düzeyinde kalıcılığa sahip mi, orası şüpheli. Yani ortada belli bir ilerleme var, ama "hakiki" AGI'a ulaşmak için daha çok sabırrrrrr, çok paraaaaaaa, muazzam altyapıııııı ve yeni yöntemlerrrrr gerekli.

Kısacası, "o3'le birlikte AGI kapıda, ARC-AGI testini geçmişler, heyooo!" diye atlamaya gerek yok. Bu sadece yolun ufak bir virajı. "Daha gelecek Benchmark'lar, ARC-AGI-2'ler, bambaşka zorluklar var." O zaman belki, "evet, ciddi bir şeyler oluyor" deyip kadeh kaldırabiliriz. Şu anki hype ise bence çoğunlukla PR ve "hadi hep birlikte coşalım" kafası.

AGI yakın görünmüyor. Kendini kandırmak isteyen "Bir iki sene sonra makineler tahtımızı elimizden alacak" masalını dinlemeye devam edebilir. Ama ben bu filmin sonunu öyle pek yakın zamanda göreceğimizi sanmıyorum. Formüllerin dediği, verinin dediği, hesap gücünün sınırları, altından kalkılması gereken masraflar filan… Daha teknolojik altyapıya girmedim onu da belirteyim aslında en önemli olan kısma değinmedim bile. Hepsi bize "hele durun, sakin olun" diyor. Ha tabii yakın görünmüyor derken de çok da uzak demiyorum. "Mantık" çerçevesinde bir yakınlık ve uzaklıktan bahsediyorum.

Şimdilik bu kadar. Hadi çayınızı kahvenizi için, o3'ün "sözde AGI" oluşu hakkındaki fısıltıları bir kenara koyun, güzel bir nefes alın. AGI geldiğinde zaten missss gibi anlayacağız: Muhtemelen haberleri kendisi yazıp, stok fotoğraf yerine kendi resmini çizecek; bunu yaparken de bulup buluşturduğu GPU'ları toplayıp yeni bir gezegene doğru yola çıkacak. Ama o güne kadar yolumuz var, öyle "koşa koşa geldik" yok. "Uf, AGI olsa da evin işini makine yapsa," diyenler, biraz daha beklesin diyorum. Ha belki 2045'te falan kapımızı çalar… kim bilir. Benim buna bile pek ümidim yok ama genel yargının da dışına çok çıkmaya gerek yok.

Daha Fazla Cevap Göster

Cevap Ver

Evrim Ağacı Soru & Cevap Platformu, Türkiye'deki bilimseverler tarafından kolektif ve öz denetime dayalı bir şekilde sürdürülen, özgür bir ortamdır. Evrim Ağacı tarafından yayınlanan makalelerin aksine, bu platforma girilen soru ve cevapların içeriği veya gerçek/doğru olup olmadıkları Evrim Ağacı yönetimi tarafından denetlenmemektedir. Evrim Ağacı, bu platformda yayınlanan cevapları herhangi bir şekilde desteklememekte veya doğruluğunu garanti etmemektedir. Doğru olmadığını düşündüğünüz cevapları, size sunulan denetim araçlarıyla işaretleyebilir, daha doğru olan cevapları kaynaklarıyla girebilir ve oylama araçlarıyla platformun daha güvenilir bir ortama evrimleşmesine katkı sağlayabilirsiniz.

Popüler Yazılar

30 gün

90 gün

1 yıl

Evrim Ağacı'na Destek Ol

Evrim Ağacı'nın %100 okur destekli bir bilim platformu olduğunu biliyor muydunuz? Evrim Ağacı'nın maddi destekçileri arasına katılarak Türkiye'de bilimin yayılmasına güç katın.

Evrim Ağacı'nı Takip Et!

OpenAi o3 hakkında agi benchmark testini geçtiği söyleniyor. Bu konuda bir içi boş bir heyecan mı yaratılıyor yoksa gerçekten böyle bir durum var mı?

Bize Ulaşın