Aslında yapay zekâların hepsini insan verisiyle eğitmiyoruz. Fakat birçok problemde insan verisi süreci ciddi şekilde hızlandırıyor. Bunun en büyük sebebi modelin ürettiği çıktıyı değerlendirebilecek bir ödül fonksiyonu yazmanın çoğu zaman mümkün olmaması. Eğer modelin verdiği cevabı matematiksel bir işlem gibi kesin biçimde test edebilen bir algoritma yazabilseydik o zaman insan verisine hiç ihtiyaç duymadan da model eğitebilirdik. Örneğin Satranç ve Go oyunu için böyle bir fonksiyon yazabildiğimiz için kendi kendine oynayarak öğrenen sistemler geliştirebildik. Bu şekilde eğitilen modeller insan seviyesini bile aşabiliyor. Fakat doğal dil gibi alanlarda bunu yapmak hiç kolay değil. Çünkü bir cevabın (rastgele kelimelerden bile oluşsa) “iyi” ya da “kötü” olduğunu net olarak belirleyebilecek genel bir fonksiyon yazmak pek mümkün değil. Bir cevabın kalitesi doğruluk, bağlam, anlam, stil gibi birçok farklı faktöre bağlı ve bazen öznel oluyor. Bu yüzden dil modellerini eğitirken insan üretimi veriler çok değerli bir başlangıç noktası sağlıyor ve öğrenme sürecini ciddi şekilde hızlandırıyor. Süreçte kullanılan bazı otonom değerlendirme teknikleri mevcut olsa da dediğim gibi her türlü çıktıyı değerlendirebilen genel bir ödül fonksiyonu yok.
Robotik tarafında ise doğaya biraz daha benzeyen yöntemler zaten kullanılıyor. Örneğin birçok robotu gerçek dünyaya benzeyen fizik simülasyonlarında eğitiyoruz. Bu simülasyonlarda robotlar milyonlarca deneme yaparak hareket etmeyi veya bir görevi yerine getirmeyi öğrenebiliyor. Eğitim tamamlandıktan sonra elde edilen model gerçek robota aktarılıyor. Buna sim-to-real yaklaşımı deniyor ve güncel robotik araştırmalarında oldukça yaygın. Doğada milyarlarca organizma ve milyonlarca yıl süren bir süreç olan biyolojik evrimi robotlarla gerçek dünyada yapmaya çalışmak teorik olarak mümkün olsa bile zaman, enerji ve maliyet açısından hiç pratik değil. Bu yüzden şu anda çoğu araştırma daha çok simülasyon ortamlarında hızlandırılmış öğrenme süreçleri kurmaya yönelmiş durumda.