Konu oldukça derin bir konu. O sebepten aklıma gelen ilk eklemeyi yapacağım. Cevap veren diğer arkadaşlarla birlikte zaten çeşitlilik artacaktır.
İşlem büyük oranda dış uyaranlardan elde edilen verilerle beslenen beyni aç bırakmak gibi bir şey olur. Bu noktadan sonra tamamen kendi içine dönüp kendi kendini yemeye başlar diye düşünüyorum.
Dil modelleri ile ilgili bu konsepte benzeyen bir çalışma mevcut.[1] Çalışmada modelin kendi ürettiği sentetik veriler ile eğitilmeye devam edilmesi test ediliyor. Yöntem başlangıçta gelişme sağlasa da sonrasında modelin yaratıcılığını kaybetmesine sebep oluyor. Beyin daha çok RNN gibi çalıştığından benzer bir dış veri kesintisinin sonucunun çok daha kötü olacağını düşünüyorum. Çünkü hâli hazırda sahip olunan dış kaynaklı orijinal verilerin zamanla kaybedilmesi ve yerini içsel olarak üretilen verilere bırakması bir noktadan sonra gerçeklik algısında bozulma, delirme veya bilincin giderek sönmesi gibi bir durum ile sonuçlanabilir.
Anlatmak istediğim konuyu bir diğer destekleyici çalışma da diffusion modellerinin sentetik veri ile eğitilmesi üzerine.[2] Bu çalışmada da yine benzer bir probleme dikkat çekilmiş.
Kaynaklar
- M. Briesch, et al. Large Language Models Suffer From Their Own Output: An Analysis Of The Self-Consuming Training Loop. (28 Kasım 2023). Alındığı Tarih: 18 Şubat 2024. Alındığı Yer: arXiv doi: 10.48550/arXiv.2311.16822. | Arşiv Bağlantısı
- S. Yamaguchi, et al. On The Limitation Of Diffusion Models For Synthesizing Training Datasets. (22 Kasım 2023). Alındığı Tarih: 18 Şubat 2024. Alındığı Yer: arXiv doi: 10.48550/arXiv.2311.13090. | Arşiv Bağlantısı