Yapay Zeka Sistemleri, İnsanları Artık Neredeyse Tüm Metriklerde Geçebiliyor!

Geriye dönün ve son iki yıldaki yapay zeka ilerlemesine bir bütün olarak bakın... Yapay zeka o kadar hızlı bir şekilde, o kadar çok alanda insanlara yetişiyor ki, açıkçası yeni testlere ihtiyacımız var!

Stanford Üniversitesi İnsan Merkezli Yapay Zeka Enstitüsü (İng: "Human-Centered Artificial Intelligence" veya kısaca "HAI"), akademik ve endüstriyel uzmanlardan oluşan disiplinler arası bir ekip tarafından hazırlanan kapsamlı Yapay Zeka Endeksi raporunun yedinci yıllık sayısını yayınladı.

Bu sayı, yapay zekânın hızlı gelişimini ve günlük hayatımızdaki artan önemini yansıtan önceki sayılardan daha fazla içeriğe sahip. Hangi sektörlerin yapay zekayı en çok kullandığından, hangi ülkenin yapay zeka nedeniyle işlerini kaybetmekten en çok endişe duyduğuna kadar her şeyi inceliyor. Ancak rapordan çıkarılabilecek en önemli sonuçlardan biri, yapay zekanın insanlarla karşı karşıya geldiğinde gösterdiği performans.

Fark ettiniz mi bilmiyoruz ama, yapay zeka açıkçası şok edici sayıda önemli kriterde bizi çoktan geride bıraktı. 2015 yılında görüntü sınıflandırma, ardından temel okuduğunu anlama (2017), görsel muhakeme (2020) ve doğal dil çıkarımında (2021) bizi çoktan geride bıraktı.

Yapay zeka o kadar hızlı ve zeki hale geliyor ki, bu noktaya kadar kullanılan ölçütlerin çoğu artık geçersiz. Gerçekten de, bu alandaki araştırmacılar yeni ve daha zorlu ölçütler geliştirmek için çabalıyorlar. Basitçe söylemek gerekirse, yapay zekalar testleri geçme konusunda o kadar iyi hale geliyor ki artık yeni testlere ihtiyacımız var - yetkinliği ölçmek için değil, insanların ve yapay zekaların hala farklı olduğu alanları vurgulamak ve hala avantajlı olduğumuz yerleri bulmak için...

Aşağıdaki sonuçların bu eski, muhtemelen geçerliliğini yitirmiş ölçütlerle yapılan testleri yansıttığını belirtmek önemli; ancak genel gidişat kristal parlaklığında:

Şu gidişata bir bakın, özellikle de en son testlerin nasıl dikeye yakın bir çizgi ile temsil edildiğine... Ve unutmayın, bu makineler, henüz "sanal birer bebek" gibiler!

Yeni Yapay Zeka Endeksi raporu, 2023 yılında yapay zekanın ileri matematik problemi çözme ve görsel sağduyulu muhakeme gibi karmaşık bilişsel görevlerde hala zorlandığını belirtiyor. Ancak burada "zorlandı" ifadesi yanıltıcı olabilir; bu, kesinlikle yapay zekanın "kötü" performans gösterdiği anlamına gelmiyor.

Yapay Zeka ile ilgili diğer içerikler ›

Yarışma düzeyinde 12.500 zorlu matematik probleminden oluşan bir veri kümesi olan MATH üzerindeki performans, kullanıma sunulmasından bu yana geçen iki yıl içinde önemli ölçüde iyileşti. 2021 yılında YZ sistemleri problemlerin yalnızca %6,9'unu çözebildi. Buna karşılık, 2023'te GPT-4 tabanlı bir model %84,3'ünü çözdü. İnsanlar içinse başarı oranı %90.

Ve burada ortalama bir insandan bahsetmiyoruz; bunun gibi test sorularını çözebilen insan türlerinden bahsediyoruz:

Yapay zekaya sorulan matematik sorularından biri. Siz çözebilir miydiniz?

2024'te ileri matematikle ilgili durum bu ve henüz hala yapay zeka çağının sadece şafağındayız.

Evrim Ağacı'ndan Mesaj

Neden Desteğe İhtiyacımız Var?

Aslında maddi destek istememizin nedeni çok basit: Çünkü Evrim Ağacı, bizim tek mesleğimiz, tek gelir kaynağımız. Birçoklarının aksine bizler, sosyal medyada gördüğünüz makale ve videolarımızı hobi olarak, mesleğimizden arta kalan zamanlarda yapmıyoruz. Dolayısıyla bu işi sürdürebilmek için gelir elde etmemiz gerekiyor. Bunda elbette ki hiçbir sakınca yok; kimin, ne şartlar altında yayın yapmayı seçtiği büyük oranda bir tercih meselesi. Ne var ki biz, eğer ana mesleklerimizi icra edecek olursak... Daha fazla göster

Bunda elbette ki hiçbir sakınca yok; kimin, ne şartlar altında yayın yapmayı seçtiği büyük oranda bir tercih meselesi. Ne var ki biz, eğer ana mesleklerimizi icra edecek olursak (yani kendi mesleğimiz doğrultusunda bir iş sahibi olursak) Evrim Ağacı'na zaman ayıramayacağımızı, ayakta tutamayacağımızı biliyoruz. Çünkü az sonra detaylarını vereceğimiz üzere, Evrim Ağacı sosyal medyada denk geldiğiniz makale ve videolardan çok daha büyük, kapsamlı ve aşırı zaman alan bir bilim platformu projesi. Bu nedenle bizler, meslek olarak Evrim Ağacı'nı seçtik.

Eğer hem Evrim Ağacı'ndan hayatımızı idame ettirecek, mesleklerimizi bırakmayı en azından kısmen meşrulaştıracak ve mantıklı kılacak kadar bir gelir kaynağı elde edemezsek, mecburen Evrim Ağacı'nı bırakıp, kendi mesleklerimize döneceğiz. Ama bunu istemiyoruz ve bu nedenle didiniyoruz.

Destek Ol

Bir de görsel sağduyulu muhakeme (İng: "visual commonsense reasoning" veya kısaca "VCR") var. VCR, basit nesne tanımanın ötesinde, yapay zekanın tahminlerde bulunmak için görsel bir bağlamda sağduyu bilgisini nasıl kullandığını değerlendirir. Örneğin, bir masanın üzerinde bir kedi görüntüsü gösterildiğinde, VCR'ye sahip bir yapay zeka, kedinin masadan atlayabileceğini veya masanın ağırlığı göz önüne alındığında onu tutacak kadar sağlam olduğunu tahmin etmelidir.

Rapor, 2022 ve 2023 yılları arasında VCR'de %7,93'lük bir artış olduğunu ve insan başarısının %85 olduğu bu testte %81,60'ya yükseldiğini ortaya koymuştur.

Yapay zekanın görsel sağduyulu muhakemesini test etmek için kullanılan örnek bir soru.

Zihninizi beş yıl öncesine götürün. Bir bilgisayara bir resim göstermeyi düşündüğünüzü ve bu soruyu yanıtlayacak kadar bağlamı "anlamasını" beklediğinizi hayal edin. Bu mümkün müydü?

Günümüzde yapay zeka pek çok meslekte yazılı içerik üretiyor. Ancak, büyük ilerlemeye rağmen, büyük dil modelleri (LLM'ler) hala OpenAI gibi şirketler tarafından ortaya atılan ve kabaca "yanlış veya yanıltıcı bilgiyi gerçekmiş gibi sunmak" anlamına gelen çok iyimser bir terim olan "halüsinasyonlara" eğilimlidir.

2023 yılında, yapay zekanın "halüsinasyon" eğilimi, yasal araştırma için ChatGPT kullanan ve sonuçları kontrol etmeyen New Yorklu bir avukat olan Steven Schwartz için utanç verici bir şekilde sonuçlandı. Davaya bakan yargıç, yapay zekanın dosyalanmış evraklarda uydurduğu yasal vakaları çabucak fark etti ve Schwartz'a dikkatsiz hatası nedeniyle 5.000 ABD Doları para cezası verdi. Hikayesi, dünya çapında haber oldu.

HaluEval, günümüzde halüsinasyonlar için bir ölçüt olarak kullanılıyor. Testler, birçok LLM için halüsinasyonun hala önemli bir sorun olduğunu gösteriyor.

Doğruluk, üretken yapay zekanın mücadele ettiği bir başka konudur. Yeni AI Index raporunda, TruthfulQA, LLM'lerin doğruluğunu test etmek için bir ölçüt olarak kullanılmıştır. Test içerisindeki sağlık, hukuk, finans ve politika gibi konular hakkındaki 817 soru, biz insanların sıklıkla yanlış yaptığı yaygın yanlış kanılara meydan okumak için tasarlanmıştır.

2024'ün başlarında yayınlanan GPT-4, 2021'de test edilen GPT-2 tabanlı bir modelden neredeyse üç kat daha yüksek olan 0,59 puanla karşılaştırma ölçütünde en yüksek performansı elde etmiştir. Böyle bir gelişme, LLM'lerin doğru cevaplar verme konusunda giderek daha iyi hale geldiğini gösteriyor.

Peki ya yapay zeka tarafından oluşturulan görüntüler? Metinden görüntü oluşturmadaki üstel gelişmeyi anlamak için Midjourney'in 2022'den bu yana Harry Potter'ı çizme çabalarına göz atın:

Bu, sadece 22 ayda yapay zekanın kat ettiği mesafeyi gösteriyor. Bir insan sanatçının benzer bir seviyeye ulaşmasının ne kadar zaman almasını beklersiniz?

Yapılan bir diğer çalışmada, Metinden Görüntüye Modellerin Bütünsel Değerlendirmesi (HEIM) kullanılarak, LLM'ler, görüntülerin "gerçek dünyada kullanımı" için önemli olan 12 temel açıdan metinden görüntüye oluşturma yetenekleri açısından karşılaştırıldı. İnsanlar, üretilen görüntüleri değerlendirdi ve tek bir modelin tüm kriterlerde üstün olmadığını gördü. Görüntü-metin hizalaması veya görüntünün girdi metniyle ne kadar iyi eşleştiği konusunda OpenAI'nin DALL-E 2 modeli en yüksek puanı aldı. Stable Diffusion'a dayalı Dreamlike Photoreal modeli ise kalite (fotoğrafa ne kadar benzediği), estetik (görsel çekicilik) ve özgünlük konularında en üst sıralarda yer aldı.

Gelecek Yılın Raporu Daha da Çılgın Olacak!

Bu Yapay Zeka Endeks Raporu, yapay zekanın tam hızlanmaya başladığı ve çok çalkantılı bir yıl olan 2023'ün sonuna kadar gittiğini vurgulamakta fayda var. Aslında, 2023'ten daha çılgın olan tek yıl, diğer şeylerin yanı sıra Suno, Sora, Google Genie, Claude 3, Channel 1 ve Devin gibi dehşet verici gelişmelerin piyasaya sürüldüğünü gördüğümüz 2024 oldu.

Bu ürünlerin her biri ve diğerleri, tüm sektörleri kökten değiştirme potansiyeline sahip. Ve hepsinin üzerinde, diğerlerini tüketebilecek kadar geniş ve her şeyi kapsayan bir model olma tehdidinde bulunan GPT-5'in gizemli hayaleti dolaşıyor. Sam Altman'ın dediği gibi:

Bu yıl, insanlık tarihinin en ilginç yılı! Tabii ki gelecekteki̇ diğer tüm yılları saymazsak...

Yapay zekanın hiçbir yere gittiği yok, bu kesin. Bu raporda da görüldüğü üzere, 2023 yılı boyunca görülen hızlı teknik gelişim oranı, yapay zekanın gelişmeye ve insanlar ile teknoloji arasındaki uçurumu kapatmaya devam edeceğini gösteriyor.

Bu Makaleyi Alıntıla

Okundu Olarak İşaretle

Paylaş
Alıntıla
Alıntıları Göster

Paylaş

Sonra Oku

Notlarım

Yazdır / PDF Olarak Kaydet

Bize Ulaş

Yukarı Zıpla

İçeriklerimizin bilimsel gerçekleri doğru bir şekilde yansıtması için en üst düzey çabayı gösteriyoruz. Gözünüze doğru gelmeyen bir şey varsa, mümkünse güvenilir kaynaklarınızla birlikte bize ulaşın!

Bu içeriğimizle ilgili bir sorunuz mu var? Buraya tıklayarak sorabilirsiniz.

Soru & Cevap Platformuna Git

Bu İçerik Size Ne Hissettirdi?

Kaynaklar ve İleri Okuma

Çeviri Kaynağı: New Atlas | Arşiv Bağlantısı

Evrim Ağacı'na her ay sadece 1 kahve ısmarlayarak destek olmak ister misiniz?

Şu iki siteden birini kullanarak şimdi destek olabilirsiniz:

kreosus.com/evrimagaci | patreon.com/evrimagaci

Çıktı Bilgisi: Bu sayfa, Evrim Ağacı yazdırma aracı kullanılarak 04/05/2024 23:24:59 tarihinde oluşturulmuştur. Evrim Ağacı'ndaki içeriklerin tamamı, birden fazla editör tarafından, durmaksızın elden geçirilmekte, güncellenmekte ve geliştirilmektedir. Dolayısıyla bu çıktının alındığı tarihten sonra yapılan güncellemeleri görmek ve bu içeriğin en güncel halini okumak için lütfen şu adrese gidiniz: https://evrimagaci.org/s/17421

İçerik Kullanım İzinleri: Evrim Ağacı'ndaki yazılı içerikler orijinallerine hiçbir şekilde dokunulmadığı müddetçe izin alınmaksızın paylaşılabilir, kopyalanabilir, yapıştırılabilir, çoğaltılabilir, basılabilir, dağıtılabilir, yayılabilir, alıntılanabilir. Ancak bu içeriklerin hiçbiri izin alınmaksızın değiştirilemez ve değiştirilmiş halleri Evrim Ağacı'na aitmiş gibi sunulamaz. Benzer şekilde, içeriklerin hiçbiri, söz konusu içeriğin açıkça belirtilmiş yazarlarından ve Evrim Ağacı'ndan başkasına aitmiş gibi sunulamaz. Bu sayfa izin alınmaksızın düzenlenemez, Evrim Ağacı logosu, yazar/editör bilgileri ve içeriğin diğer kısımları izin alınmaksızın değiştirilemez veya kaldırılamaz.

Kategoriler ve Etiketler

Tümünü Göster

This work is an exact translation of the article originally published in New Atlas. Evrim Ağacı is a popular science organization which seeks to increase scientific awareness and knowledge in Turkey, and this translation is a part of those efforts. If you are the author/owner of this article and if you choose it to be taken down, please contact us and we will immediately remove your content. Thank you for your cooperation and understanding.

Yapay Zeka Sistemleri, İnsanları Artık Neredeyse Tüm Metriklerde Geçebiliyor!

Gelecek Yılın Raporu Daha da Çılgın Olacak!

Bize Ulaşın