Yapay zeka "video izliyor" dendiğinde, aslında sahne sahne kesilmiş kareler ve altyazı metinleri okuduğunu unutuyoruz sıkça. O "görme" dediğimiz şey, bizim videoyu nasıl algıladığımızdan çok farklı.
O aradaki sihir, aslında LLM'in kendisinde değil, ona beslenen veriyi ne kadar akıllıca hazırladığımızda. Yani asıl iş, videoyu gerçekten "anlamlı" parçalara bölüp AI'ın önüne koyan mühendislikte. Sanki AI bizden bir video anlasın istiyoruz ama videoyu ona insan gibi göstermenin yolunu biz bulmalıyız. Yoksa sadece bir metin okuyup, araya serpiştirilmiş resimlere bakıyor.