Mesele şu: OpenAI'ın ChatGPT'sini öyle "daha büyük model = daha iyi performans" gibi doğrudan bir çizgiyle ilerletmek sandığımız kadar kolay değil. Bunu şöyle düşünün: Yüksek bir dağa tırmandığınızı varsayalım. Başlangıçta hafif sırt çantanızı ve birkaç temel ekipmanınızı alıp yukarıya tırmanmak nispeten kolay değil mi?. Hatta ne kadar çok ekipman, ne kadar çok gıda, ne kadar çok araç-gereç alırsanız, yolculuğunuzun kalitesinin artacağını zannedersiniz. Fakat bir noktadan sonra o yük o kadar ağırlaşır ki daha fazla malzeme taşımanız size ekstra bir fayda getirmez, aksine sizi yavaşlatır. İşte büyük dil modellerini büyütme çabaları da tam olarak böyle bir doruk noktasına ulaştı.
Size teknik boyutuyla anlatayım. Hani şu Chinchilla scaling denilen, model boyutu (N) ile veri boyutu (D) arasındaki hassas orantıyı sağlayan bir denklem var ya:
Burada , kaybı temsil ediyor; , , , , ise deneysel olarak belirlenmiş sabitler. Açıkçası bu formül bize diyor ki: "Modeli büyüttükçe (N), doğru oranda veri de büyütürseniz (D), kaybı düşürebilirsiniz." Ama her şeyin işte bir optimal noktası var. Nitekim Chinchilla yasasına göre, belli bir hesaplama bütçesi (C) için en uygun model boyutu ve veri miktarı aşağıdaki gibi belirleniyor:
Dikkat edin, bu formüllerde güçler 1'den küçük. Yani hesaplamayı iki katına çıkarmak "lineer" bir şekilde iki kat daha iyi bir model anlamına gelmiyor. Daha çok, zorla yukarı tırmanan bir dağcı gibi, bir basamak ileride daha büyük bir oksijen tüpü, daha ağır bir çanta, ama aynı zamanda o ilerlemeden elde edilen faydanın giderek azalması söz konusu.
Bakın GPT-4'ten sonraki aşama olan Orion'u göz önüne getirin. Söylenene göre, Orion için devasa miktarda ek veri ve devasa boyutta bir model denendi. Sonuç? Özellikle kodlama görevlerinde "eh işte" diyebileceğimiz, sınırlı bir performans artışı. Yani o dağın tepesinde nefes artık öyle kolay kolay açılmıyor. Çünkü sorun sadece modelin parametre sayısını artırmakla bitmiyor; verinin niteliği, insan üretimi kaliteli veri bulmanın zorluğu, eğitim sürecinin maliyeti… Bunlar hep birer tıkanma noktası.
Elinizdeki veri kalitesi azaldıkça, o veri içindeki "sinyal" yerini "gürültü"ye bırakıyor. Kuru gürültüyle beslenen bir model ne yapsın? Bu, tıpkı bir kuyumcunun giderek daha az saf altın içeren maden cevheriyle uğraşması gibi yani. İlk başta her avuç topraktan birkaç gram altın elde ediyorken, zaman geçtikçe yığınla toprağı elekten geçiriyorsun, sonuçta "bir damla" altın elde ediyorsun.
Ayrıca mimari sınırlamalardan da bahsedelim. Transformer tabanlı mimariler, uzun sekansları işlerken girdi boyutu arttıkça hesaplama yükünü yani karesel oranda artırıyor. Siz modele daha uzun inputlar verip daha detaylı bağlam sağlamak istediğinizde, modelin beyni (parametreleri) patlayacak gibi şişiyor. Bu da, pratikte sınırsız büyümeye olanak tanımıyor. "Ama MoE (Mixture-of-Experts) gibi yöntemler var" diyebilirsiniz. Evet, uzman harmanlamalı mimariler bir nevi orkestrada farklı müzisyenlere ayrı ayrı bölümleri çaldırmak gibi. Sadece o anda gerekli "uzmana" hesaplama kaynağı veriyorsun. Ama bu sefer de orkestrayı yönetecek, her uzmanın ne zaman çalacağını belirleyecek üst seviye bir kural seti, bir kontrol mekanizması gerekiyor. Oradaki karmaşıklık da başka bir engele dönüşüyor.
Yani çok parametreli çok devasa bir modeli eğitmek tıpkı tonlarca malzemeyle Evereste tırmanmaya çalışmak gibi: İlk birkaç bin metrede evet, daha çok ekipman sizi daha dayanıklı kılar. Ama zirveye yaklaştıkça havadaki oksijen düşer, çantadaki yük artar, her ek adım geometrik maliyetlere yol açar. Sadece parayı basıp daha büyük model yapmak, her zaman linear bir kazanç sağlamaz. Chinchilla formüllerindeki o üstel ifadeler, bizim "doyma noktasına" yaklaştığımızı matematiksel olarak yüzümüze vuruyor. Yani, OpenAI'ın ChatGPT'yi şu andan sonra daha da geliştirmesi elbette mümkün, ama bu gelişmenin hızı giderek yavaşlayacak, marjinal kazançlarımız giderek "sinekten yağ çıkarma" misali olacak.
Daha basit bir dilde söylemek gerekirse: Elinizdeki büyüteci her ne kadar büyütseniz de, göreceğiniz detaylar bir yerden sonra limitlenecek. O büyüteci büyütmek daha çok malzeme, daha çok işçilik, daha çok kaynak gerektirecek, ama gördüğünüz yenilik o kadar da büyük olmayacak.
Bu nedenle de, ChatGPT'yi eski yöntemlerle daha ne kadar geliştirebiliriz sorusuna cevabım şu: Düşündüğünüz kadar değil. Artık ufukta büyüklük değil, yaratıcılık, veri kalitesi, yeni mimariler ve daha ince ayarlı yöntemler yatıyor. Bunları yapmadan, sırf boyutu artırarak ilerlemek artık size katlanarak değil, belki de logaritmik veya kök fonksiyonu gibi azalan oranda fayda sağlayacak. Bu da teknik, mali ve entelektüel sınırların "gerçekten" devreye girdiğini gösteriyor.