Yapay zekaya bir görsel oluşturması için yazı girdiğinizde (prompt) bu bilgileri görsel oluşturmada uzmanlaşmış bir başka yapay zekaya gönderiyorlar. Örneğin Chatgpt ile sohbet ediyorsanız Dall-E serverına ya da Gemini ile yazışıyorsanız Imagen'e gönderiyor. Bu görsel üreticiler bu iş için eğitiliyorlar ve elimizdeki dil modelleriyle iş birliği içinde çalışıyorlar. Eğitim süreçlerinde mesela temelde kırmızı dediğimizde hangi renkten bahsettiğimizi bilmeleri için genel renk kodları onlara öğretiliyor ama daha çok bir görselde kullanılan terimler ve bunların görsel karşılıkları hafızalarına işlemeye başlıyor. Örneğin google'a "ağaç" yazdığımızda çıkan ağaç görselleri bu oluşturucularda oluyor ve kıyaslamalı belli sıfatları da öğreniyorlar örneğin uzun -kısa büyük küçük gibi. Bunun dışında belli tarzları da biliyorlar, çizgi film, foto realistik, 3d sunum gibi kavramları öğreniyorlar. Finalde siz prompt bilgisine "kırmızı elmalara sahip yeşil yaprakları olan uzun bir ağaç ve yanında kısa çimenler" dediğinizde bildiklerinden karıştırarak böyle bir görsel oluşturabiliyorlar. Bu görseli de chatgpt veya başka bir yapay zeka alıp size taşıyor.