Yeni Yapay Zeka Modeli GPT o3, Yapay Genel Zekaya Yönelik Geliştirilen Bir Testte Büyük Başarı Gösterdi!
o3 Modeli ARC-AGI Testi'nde Büyük Bir Atılım Gerçekleştirse de Halen Bir Yapay Genel Zeka Değil!

- Basın Bildirisi
- Yapay Zeka
- Bilim Haberciliği
Bu haber 3 ay öncesine aittir. Haber güncelliğini yitirmiş olabilir; ancak arşivsel değeri ve bilimsel gelişme/ilerleme anlamındaki önemi dolayısıyla yayında tutulmaktadır. Ayrıca konuyla ilgili gelişmeler yaşandıkça bu içerik de güncellenebilir.
Yapay zeka şirketi OpenAI, 20 Aralık 2024'te yeni yapay zeka modeli o3'ü duyurdu.[1] o1 modelinin ardından gelen bu model (o2 adlandırması es geçildi), insan düzeyinde yapay zekayı ifade eden bir yapay genel zeka sistemine yönelik geliştirilen ve prestijli bir test kabul edilen ARC-AGI Testi'nde ("Abstraction and Reasoning Corpus - Artificial General Intelligence Challenge" / Tr: "Soyutlama ve Akıl Yürütme - Yapay Genel Zeka Testi") yüksek bir puan elde ederek test rekorunu kırmayı başardı!
Yapay zeka alanında ses getiren bu başarı, yapay zeka meraklılarının o3 modelinin yapay genel zekaya ulaştığına dair spekülasyonlarda bulunmasına neden oldu. Ne var ki ARC-AGI Testi'ni yaratan bilim insanları, o3 modelinin bir yapay genel zeka olmadığını ancak bu yolda önemli bir kilometre taşı olarak değerlendirilebileceğini ifade ediyor.

o3 modeli, ChatGPT'nin ardındaki büyük dil modellerinin (İng: "LLM") devamı niteliğinde olan bir dizi yapay zeka sürümünün en yenisidir. ARC-AGI Testi'nin ana yaratıcısı olan ve Google'da yapay zeka araştırmacısı olarak çalışan bilim insanı François Chollet, yayımladığı bir blog yazısında bu başarıyı şu şekilde değerlendiriyor:[2]
o3, GPT ailesindeki modellerde daha önce eşine rastlanmamış bir şekilde yeni görevlere uyum yeteneği göstermektedir ve bu atılım, yapay zeka yeteneklerinde beklenmedik ve önemli bir sıçramadır.
o3 Modeli Tam Olarak Neyi Başardı?
2019'da François Chollet, 600 bin dolar tutarında ödüle sahip olan ARC-AGI Testi'ni, yapay zekaların renkli ızgara çiftleri arasındaki doğru desenleri bulma yeteneğini değerlendirme amacıyla geliştirmiştir. Bu tür görsel bulmacalar, yapay zekanın temel akıl yürütme yetenekleriyle bir tür genel zeka sergilemesini gerektirmektedir. Ancak bu bulmacalarda yeterli miktarda hesaplama gücü kullanılacak olursa yapay zeka modeli, akıl yürütme yapmaksızın yalnızca kaba kuvvet kullanarak bu bulmacaları çözebilir. Bundan ötürü test, resmi puanların belirli hesaplama gücü sınırları içinde kalmasını şart koşmaktadır.
2025'in başlarında piyasaya sürülmesi planlanan OpenAI'ın yeni o3 modeli, "yarı-özel" ARC-AGI Testi'nde %75,7’lik resmi bir atılım puanı elde etmiştir. Bu test, katılımcı modellerin herkese açık şekilde bir liderlik tablosunda sıralanmasını sağlamaktadır. o3 modeli, görsel bulmaca görevi başına yaklaşık 20 dolar olan hesaplama maliyeti ve toplamda 10 bin doların altında kalma şartını yerine getirerek bu sonuca imza atmayı başarmıştır. Ancak 600 bin dolarlık büyük ödül sonucunu belirlemek için kullanılan daha zorlu olan "özel" testte, görev başına yalnızca 10 cent harcanmasını gerektiren daha katı bir hesaplama sınırı ve kullanılan modelin açık kaynak olması zorunluluğu bulunmaktadır ve OpenAI'ın o3 modeli bu gereksinimleri karşılayamamıştır.
o3 modeli, bu testte resmi sınırın yaklaşık 172 katından daha fazla bir hesaplama gücü kullanarak %87,5'lik resmi olmayan bir puan elde etmiştir. Karşılaştırma yapmak gerekirse, sıradan bir insanın bu testteki ortalama puanı %84'tür ve %85'lik bir puan, hesaplama maliyetinin belirlenen sınırlar içinde kalması koşuluyla ARC-AGI Testi'nin 600 bin dolarlık büyük ödülünü kazanmaya yeterlidir. Ancak o3 modelinin maliyeti, resmi olmayan bu %87,5'luk puana ulaşmak için her görev başına binlerce dolara ulaşmıştır. OpenAI, testin geliştiricilerinden bu maliyetlerin tam detaylarını yayımlamamaları talebinde bulunmuştur.
Yüksek hesaplama kapasitesine sahip o3 modelinin testlerinden elde edilen verileri (sonuçlar, denemeler ve istem) aşağıdan inceleyebilirsiniz.



o3 Modelinin Başarısı Yapay Genel Zekaya Ulaşıldığını Gösteriyor mu?
Kısa cevap: Hayır. ARC-AGI Testi'nin geliştiricileri, bu yarışma kriterinin aşılmasının yapay genel zekaya ulaşıldığının bir göstergesi olmadığını açıkça belirtmektedirler. ARC-AGI Testi'nin geliştiricilerinden biri olan Mike Knoop, sosyal medya platformu X üzerinden yaptığı bir paylaşımda o3 modelinin çok yüksek miktarda hesaplama gücü kullanmasına rağmen 100'den fazla görsel bulmaca görevini çözmeyi başaramadığını belirtmektedir.
Santa Fe Enstitüsünde profesörlük yapan bilişsel bilimci Melanie Mitchell ise sosyal medya platformu Bluesky'da yaptığı bir paylaşımda şöyle söylüyor:
Bu görevlerin kaba kuvvet kullanarak hesaplama yoluyla çözülmesi, orijinal amacın boşa çıkarılması anlamına gelir.
François Chollet, o3 modelinin ilerlemesini değerlendirdiği bir X paylaşımında şu ifadeleri kullanıyor:
Yeni model çok etkileyici ve yapay genel zekaya giden yolda büyük bir dönüm noktasını temsil ediyor. Ancak bu model bir yapay genel zeka değildir; halen o3'ün testte çözemediği oldukça kolay görevler bulunmaktadır.
Ayrıca Chollet yapay zekanın bir insan seviyesinde zeka sergilediğinin nasıl anlaşılacağı konusunda şunları söylüyor:
Aslında maddi destek istememizin nedeni çok basit: Çünkü Evrim Ağacı, bizim tek mesleğimiz, tek gelir kaynağımız. Birçoklarının aksine bizler, sosyal medyada gördüğünüz makale ve videolarımızı hobi olarak, mesleğimizden arta kalan zamanlarda yapmıyoruz. Dolayısıyla bu işi sürdürebilmek için gelir elde etmemiz gerekiyor.
Bunda elbette ki hiçbir sakınca yok; kimin, ne şartlar altında yayın yapmayı seçtiği büyük oranda bir tercih meselesi. Ne var ki biz, eğer ana mesleklerimizi icra edecek olursak (yani kendi mesleğimiz doğrultusunda bir iş sahibi olursak) Evrim Ağacı'na zaman ayıramayacağımızı, ayakta tutamayacağımızı biliyoruz. Çünkü az sonra detaylarını vereceğimiz üzere, Evrim Ağacı sosyal medyada denk geldiğiniz makale ve videolardan çok daha büyük, kapsamlı ve aşırı zaman alan bir bilim platformu projesi. Bu nedenle bizler, meslek olarak Evrim Ağacı'nı seçtik.
Eğer hem Evrim Ağacı'ndan hayatımızı idame ettirecek, mesleklerimizi bırakmayı en azından kısmen meşrulaştıracak ve mantıklı kılacak kadar bir gelir kaynağı elde edemezsek, mecburen Evrim Ağacı'nı bırakıp, kendi mesleklerimize döneceğiz. Ama bunu istemiyoruz ve bu nedenle didiniyoruz.
Sıradan insanlar için kolay ama yapay zeka için zor olan görevler oluşturmanın imkânsız hale geldiği gün, yapay genel zekanın burada olduğunu anlayacaksınız.
Oregon Üniversitesinde yapay zeka araştırmacısı olan önde gelen bilgisayar bilimci Thomas Dietterich, yapay genel zekanın tanımlanması konusunda şöyle söylüyor:
Bu tür sistemlerin insan bilişinde gerekli olan tüm işlevsel bileşenleri içereceği öne sürülmektedir. Bu ölçüte göre piyasadaki yapay zeka sistemleri; episodik bellek, planlama, mantıksal akıl yürütme ve en önemlisi metabilişim gibi bileşenlerden yoksundur.
Sonuç: o3 Modelinin Başarısının Önemi
o3 modelinin aldığı yüksek puan, yapay zeka modellerinin 2024'teki gelişim hızının 2023'teki sarsıcı ilerlemelerle karşılaştırıldığında daha yavaş bir seyir izlediği bir dönemde elde edilmiş olması bakımından önemlidir.
ARC-AGI Testi'ni geçememiş olsa da o3'ün yüksek puanı, yapay zeka modellerinin yakın gelecekte önemli kriterleri aşabileceğini açıkça göstermektedir. Chollet, o3 modelinin resmi olmayan yüksek puanının ötesinde, resmi olarak düşük hesaplama gücüyle teste giren birçok diğer yapay zeka modelinin, "özel" değerlendirme test setinde daha şimdiden %81'in üzerinde puanlar aldığını belirtmektedir.
Yapay genel zeka kavramına şüpheyle yaklaşan bilgisayar bilimci Dietterich de, bu performans sıçramasını "çok etkileyici" olarak nitelendirmektedir. Dietterich, şöyle söylüyor:
Bu sonuç çok etkileyici olsa da OpenAI'ın o1 ve o3 modellerinin nasıl çalıştığı hakkında daha fazla bilgi olmadan bu yüksek puanın ne derece etkileyici olduğunu değerlendirmek mümkün değildir. Tam anlamıyla bir değerlendirme yapabilmek için testin açık kaynaklı şekilde tekrarlanmasını beklememiz gerekecek.
Ayrıca, o3 modelinin ARC-AGI Testi'ndeki problemleri uygulama imkânına erişmiş olması, gelecek modellerin başarısını kolaylaştırabilir. Öte yandan ARC-AGI geliştiricileri, 2025 yılında daha zorlu bir dizi yeni kıyaslama testi başlatmayı planlamaktadır.
Evrim Ağacı'nda tek bir hedefimiz var: Bilimsel gerçekleri en doğru, tarafsız ve kolay anlaşılır şekilde Türkiye'ye ulaştırmak. Ancak tahmin edebileceğiniz gibi Türkiye'de bilim anlatmak hiç kolay bir iş değil; hele ki bir yandan ekonomik bir hayatta kalma mücadelesi verirken...
O nedenle sizin desteklerinize ihtiyacımız var. Eğer yazılarımızı okuyanların %1'i bize bütçesinin elverdiği kadar destek olmayı seçseydi, bir daha tek bir reklam göstermeden Evrim Ağacı'nın bütün bilim iletişimi faaliyetlerini sürdürebilirdik. Bir düşünün: sadece %1'i...
O %1'i inşa etmemize yardım eder misiniz? Evrim Ağacı Premium üyesi olarak, ekibimizin size ve Türkiye'ye bilimi daha etkili ve profesyonel bir şekilde ulaştırmamızı mümkün kılmış olacaksınız. Ayrıca size olan minnetimizin bir ifadesi olarak, çok sayıda ayrıcalığa erişim sağlayacaksınız.
Makalelerimizin bilimsel gerçekleri doğru bir şekilde yansıtması için en üst düzey çabayı gösteriyoruz. Gözünüze doğru gelmeyen bir şey varsa, mümkünse güvenilir kaynaklarınızla birlikte bize ulaşın!
Bu makalemizle ilgili merak ettiğin bir şey mi var? Buraya tıklayarak sorabilirsin.
Soru & Cevap Platformuna Git- 1
- 0
- 0
- 0
- 0
- 0
- 0
- 0
- 0
- 0
- 0
- 0
- ^ OpenAI. O3 Preview & Call For Safety Researchers. (20 Aralık 2024). Alındığı Tarih: 24 Aralık 2024. Alındığı Yer: OpenAI | Arşiv Bağlantısı
- ^ F. Chollet. Openai O3 Breakthrough High Score On Arc-Agi-Pub. (20 Aralık 2024). Alındığı Tarih: 24 Aralık 2024. Alındığı Yer: ARC Prize | Arşiv Bağlantısı
- A. Wilkins. $1M Prize For Ai That Can Solve Puzzles That Are Simple For Humans. (25 Haziran 2024). Alındığı Tarih: 24 Aralık 2024. Alındığı Yer: New Scientist | Arşiv Bağlantısı
Evrim Ağacı'na her ay sadece 1 kahve ısmarlayarak destek olmak ister misiniz?
Şu iki siteden birini kullanarak şimdi destek olabilirsiniz:
kreosus.com/evrimagaci | patreon.com/evrimagaci
Çıktı Bilgisi: Bu sayfa, Evrim Ağacı yazdırma aracı kullanılarak 16/04/2025 08:40:12 tarihinde oluşturulmuştur. Evrim Ağacı'ndaki içeriklerin tamamı, birden fazla editör tarafından, durmaksızın elden geçirilmekte, güncellenmekte ve geliştirilmektedir. Dolayısıyla bu çıktının alındığı tarihten sonra yapılan güncellemeleri görmek ve bu içeriğin en güncel halini okumak için lütfen şu adrese gidiniz: https://evrimagaci.org/s/19381
İçerik Kullanım İzinleri: Evrim Ağacı'ndaki yazılı içerikler orijinallerine hiçbir şekilde dokunulmadığı müddetçe izin alınmaksızın paylaşılabilir, kopyalanabilir, yapıştırılabilir, çoğaltılabilir, basılabilir, dağıtılabilir, yayılabilir, alıntılanabilir. Ancak bu içeriklerin hiçbiri izin alınmaksızın değiştirilemez ve değiştirilmiş halleri Evrim Ağacı'na aitmiş gibi sunulamaz. Benzer şekilde, içeriklerin hiçbiri, söz konusu içeriğin açıkça belirtilmiş yazarlarından ve Evrim Ağacı'ndan başkasına aitmiş gibi sunulamaz. Bu sayfa izin alınmaksızın düzenlenemez, Evrim Ağacı logosu, yazar/editör bilgileri ve içeriğin diğer kısımları izin alınmaksızın değiştirilemez veya kaldırılamaz.