Piksellerin Ardındaki Matematik
Video Üretiminin Teknik Anatomisi: Kling’den MIT’ye
Microsoft Designer
- Blog Yazısı
# Video Üretiminin Teknik Anatomisi: Kling'den MIT'ye
---
## Giriş: Piksellerin Ardındaki Matematik
2024'ün sonlarında Kuaishou'nun Kling AI'ı piyasaya sürdüğünde, insanlar "Motion Brush" özelliğine hayran kaldı. Bir resmin üzerine ok çizerek nesneyi istediğin yöne hareket ettiriyordun. Sihir gibi görünüyordu.
Ama sihir değildi. Altında yatan şey, üç yıllık akademik araştırmanın birleşimi: Latent uzayda özellik yayılımı, 3D nedensel konvolüsyonlar, ve Rectified Flow optimizasyonu.
Bu yazıda o sihri parçalarına ayıracağız. Önce makine düzeyinde nasıl çalıştığını göreceğiz. Sonra aynı fikri, kod yazmayı hiç bilmeyen birine anlatır gibi açacağız.
---
## BİRİNCİ KATMAN: Teknik Derinlik
### 1. Rectified Flow: Difüzyonun Ötesinde Düz Çizgi Teorisi
Video üretiminde temel sorun şu: Bir gürültü dağılımını ($\pi_0$) nasıl veri dağılımına ($\pi_1$) dönüştürürsün?
Klasik difüzyon modelleri (DDPM) bunu stokastik bir süreç olarak ele alır. Eğri yörüngeler, 50-100 adım, yavaş çıkarım. Rectified Flow ise şunu söylüyor: "Neden direkt düz gitmiyoruz?"
Evrim Ağacı'nın çalışmalarına Kreosus, Patreon veya YouTube üzerinden maddi destekte bulunarak hem Türkiye'de bilim anlatıcılığının gelişmesine katkı sağlayabilirsiniz, hem de site ve uygulamamızı reklamsız olarak deneyimleyebilirsiniz. Reklamsız deneyim, sitemizin/uygulamamızın çeşitli kısımlarda gösterilen Google reklamlarını ve destek çağrılarını görmediğiniz, %100 reklamsız ve çok daha temiz bir site deneyimi sunmaktadır.
KreosusKreosus'ta her 50₺'lik destek, 1 aylık reklamsız deneyime karşılık geliyor. Bu sayede, tek seferlik destekçilerimiz de, aylık destekçilerimiz de toplam destekleriyle doğru orantılı bir süre boyunca reklamsız deneyim elde edebiliyorlar.
Kreosus destekçilerimizin reklamsız deneyimi, destek olmaya başladıkları anda devreye girmektedir ve ek bir işleme gerek yoktur.
PatreonPatreon destekçilerimiz, destek miktarından bağımsız olarak, Evrim Ağacı'na destek oldukları süre boyunca reklamsız deneyime erişmeyi sürdürebiliyorlar.
Patreon destekçilerimizin Patreon ile ilişkili e-posta hesapları, Evrim Ağacı'ndaki üyelik e-postaları ile birebir aynı olmalıdır. Patreon destekçilerimizin reklamsız deneyiminin devreye girmesi 24 saat alabilmektedir.
YouTubeYouTube destekçilerimizin hepsi otomatik olarak reklamsız deneyime şimdilik erişemiyorlar ve şu anda, YouTube üzerinden her destek seviyesine reklamsız deneyim ayrıcalığını sunamamaktayız. YouTube Destek Sistemi üzerinde sunulan farklı seviyelerin açıklamalarını okuyarak, hangi ayrıcalıklara erişebileceğinizi öğrenebilirsiniz.
Eğer seçtiğiniz seviye reklamsız deneyim ayrıcalığı sunuyorsa, destek olduktan sonra YouTube tarafından gösterilecek olan bağlantıdaki formu doldurarak reklamsız deneyime erişebilirsiniz. YouTube destekçilerimizin reklamsız deneyiminin devreye girmesi, formu doldurduktan sonra 24-72 saat alabilmektedir.
Diğer PlatformlarBu 3 platform haricinde destek olan destekçilerimize ne yazık ki reklamsız deneyim ayrıcalığını sunamamaktayız. Destekleriniz sayesinde sistemlerimizi geliştirmeyi sürdürüyoruz ve umuyoruz bu ayrıcalıkları zamanla genişletebileceğiz.
Giriş yapmayı unutmayın!Reklamsız deneyim için, maddi desteğiniz ile ilişkilendirilmiş olan Evrim Ağacı hesabınıza üye girişi yapmanız gerekmektedir. Giriş yapmadığınız takdirde reklamları görmeye devam edeceksinizdir.
**Matematiksel temel:**
$$Z_t = t \cdot Z_1 + (1-t) \cdot Z_0$$
Burada $Z_0$ gürültü, $Z_1$ gerçek video latent'ı. Model, hız alanını ($v$) tahmin ediyor:
$$\frac{dZ}{dt} = v_\theta(Z_t, t)$$
Kayıp fonksiyonu:
$$\mathcal{L} = \mathbb{E}_{t, Z_0, Z_1} \left[ \| v_\theta(Z_t, t) - (Z_1 - Z_0) \|^2 \right]$$
**Reflow prosedürü:** İlk modelin ürettiği çiftlerle tekrar eğitirsen, yörüngeler iyice düzleşir. 2-Rectified Flow modelleri 1-2 adımda üretim yapabilir.
**Wan 2.1'deki uygulama:** 14 milyar parametreli model, Logit-Normal zaman örneklemesi kullanarak orta zorluktaki adımlara odaklanıyor. Euler solver yerine RK45 kullanıldığında inversion (video editlenmesi) hatasını %80 azaltıyor.
---
### 2. 3D Causal VAE: Zamanda Geriye Bakma Yasağı
Video modellerinde VAE, ham piksel verilerini sıkıştırır. Ama standart 3D VAE'lerde tehlikeli bir özellik var: Bidirectional erişim. Yani $t$ anındaki latent, $t+1$ anındaki bilgiyi de görebilir.
**Sorun:** Bu, streaming üretimi imkansız kılar ve temporal flickering yaratır.
**Çözüm: CausalConv3D**
```python
# Konseptüel kod
class CausalConv3d(nn.Module):
def forward(self, x):
# x shape: (B, C, T, H, W)
# Zaman ekseninde asimetrik padding
# Sadece geçmişe (sola) padding ekle
x = F.pad(x, (0, 0, 0, 0, kernel_t - 1, 0))
return self.conv(x)
```
**Wan-VAE özellikleri:**
- 16 kanal latent (SD'nin 4'üne karşı)
- 4x8x8 sıkıştırma (zaman × uzay)
- Magvit-v2 backbone
Bu sayede model, 1080p 30fps videoyu latent'ta 135×120 boyutuna indiriyor. DiT için işlenebilir hale geliyor.
---
### 3. Wan-Move: Latent Trajectory Guidance
Kling'in Motion Brush'ının açık kaynak replikası.核心逻辑 şu:
**Adım 1: Trajectory Projection**
Kullanıcı piksel uzayında yörünge çiziyor: $\tau = \{(x_t, y_t)\}$
Latent uzaya projeksiyon:
$$\tilde{\tau} = \{(x_t / 8, y_t / 8)\}$$
**Adım 2: Feature Propagation**
İlk karenin latent'ını al: $Z_0$
Her $t$ anı için, $Z_0$'dan ilgili patch'leri al ve yörünge boyunca "warp" et:
```python
def propagate_features(z0, trajectories):
propagated = []
for t in range(num_frames):
grid = trajectories[:, t] # Akış alanı
z_warped = F.grid_sample(z0, grid,
mode='bilinear',
align_corners=True)
propagated.append(z_warped)
return torch.stack(propagated, dim=2)
```
**Adım 3: Attention Injection**
Warp edilmiş özellikler, DiT bloklarının self-attention'ına bias olarak eklenir. Model, nesnenin nereye gitmesi gerektiğini "tahmin etmez", doğrudan latent'tan "okur".
**MoveBench sonuçları:** EPE (End-Point Error) skoru 12.2 (rakip DragNUWA: 15.4). Nesne kimliği korunma oranı %94.
---
### 4. MotionCtrl: Kamera vs Nesne Ayrımı
Wan-Move nesne odaklı. MotionCtrl ise "modüler" bir yaklaşım.
**CMCM (Camera Motion Control Module):**
- Input: 12-boyutlu RT matrisi (Rotation-Translation)
- Injection point: Temporal Attention katmanları
- Mekanizma: Kamera parametreleri MLP'den geçip temporal self-attention'a eklenir
**OMCM (Object Motion Control Module):**
- Input: Trajectory points
- Injection point: Spatial Convolution/Attention
- Mekanizma: Sparse trajectory'ler dense heatmap'e dönüştürülüp spatial feature'lara concat edilir
**Neden ayrı?** Kamera hareketi global ve rigid. Nesne hareketi local ve deformable. Aynı katmanda karıştırırsan çakışma olur. MotionCtrl, bunları farklı transformer bloklarına enjekte ederek çatışmayı önlüyor.
---
### 5. Open-Sora: Verimlilik Mimarisi
14B model lüks bir dünya. Çoğu insan 200k dolara model eğitemez. Open-Sora, "nasıl ucuza yapılır" sorusunun cevabı.
**Video DC-AE (Deep Compression Autoencoder):**
- 4×32×32 sıkıştırma
- Standart VAE: 120 kare × 64×64 = 491K token
- DC-AE: 30 kare × 16×16 = 7.6K token
- Token sayısını 64 kat azaltıyor
**DeepSpeed Ulysses (Sequence Parallelism):**
```json
{
"sequence_parallel": {
"enabled": true,
"world_size": 8
}
}
```
Dikkat hesabı şöyle bölüştürülüyor:
1. All-to-All: Her GPU dizinin bir parçasını alıyor
2. Her GPU kendi attention head'lerini hesaplıyor
3. All-to-All: Sonuçlar tekrar takas ediliyor
**Kritik kısıt:** sp_size, attention head sayısına tam bölünmeli. 12 head varsa sp_size 2,3,4,6 olabilir; 5 olamaz.
**Eğitim maliyeti:**
- Stage 3 (65×512×512): 32 A800 GPU × 6 saat
- Toplam maliyet: ~$200k (OpenAI'nin milyonlarına karşı)
---
### 6. MIT HAN Lab: Kuantizasyon Cephesi
**SmoothQuant (W8A8):**
Transformerlarda aktivasyonlarda outlier'lar var. Bazı kanallar 100x büyük değerler taşıyor. Bu, uniform quantization'ı bozuyor.
Çözüm: Zorluk transferi
$$Y = (X \cdot \text{diag}(s)^{-1}) \cdot (\text{diag}(s) \cdot W)$$
$s$ faktörü, aktivasyonlardaki outlier'ları bastırıp ağırlıklara aktarıyor. Ağırlıklar statik olduğu için, offline optimize edilebiliyorlar.
**Video'ya etkisi:** 1080p üretimde aktivasyon belleğini %50 düşürüyor. Batch size ikiye katlıyor.
**AWQ (W4A16):**
Tüm ağırlıklar eşit önemli değil. "Salient weights" (önemli ağırlıklar) sadece %1. Bunlar büyük aktivasyonlarla çarpılan ağırlıklar.
AWQ, bu %1'i FP16'da tutuyor, geri kalanı 4-bit'e sıkıştırıyor. Model boyutu %75 küçülüyor. 14B model 24GB GPU'ya sığıyor.
---
### 7. MIT CSAIL: Fizik ve Süreklİlik
**Neural ODEs:**
Video ayrık adımlar değil, sürekli bir süreç.
$$\frac{dz}{dt} = f_\theta(z(t), t)$$
**Avantajlar:**
- Esnek frame rate: Model 24fps eğitilmiş ama 60fps üretebilir
- Irregular data: Eksik karelerle eğitilebilir
- Fiziksel tutarlılık: ODE çözücüsü momentumu korur
**V-JEPA:**
Model pikselleri değil, soyut özellikleri tahmin ediyor. "Orada kırmızı bir top var ve yuvarlanıyor" gibi yüksek seviye kavramlar.
Bulgu: V-JEPA ile eğitilen modeller, object permanence (nesne kalıcılığı) ve solidity (katılık) öğreniyor. Top engelin arkasına geçince, model "yok olmadı, arkada" diyor.
**Video üretimine transfer:** Kayıp fonksiyonuna fiziksel tutarlılık terimi eklenebilir. Model sadece "güzel piksel" için değil, "fiziksel olarak mümkün piksel" için eğitiliyor.
---
### 8. CausVid: Hibrit Mimari
Diffusion (yavaş ama kaliteli) + Autoregressive (hızlı ama hatası birikiyor)
**Teacher-Student Distillation:**
- Teacher: Bidirectional diffusion model (gelecek görebiliyor)
- Student: Causal autoregressive model (sadece geçmiş)
- Öğrenci, öğretmenin nihai çıktısını değil, ODE yörüngelerini taklit ediyor
**Asymmetric Distillation:** Öğrencinin causal yapısı, öğretmenin bidirectional yapısına adapte ediliyor.
**Sonuç:** 9.4 FPS üretim hızı. Neredeyse real-time.
---
## Geçiş: Şimdi Aynı Şeyi Bambaşka Anlatacağım
Yukarıda gördüğün formüller, kod parçaları ve mimari detaylar, makinenin diline aitti. Şimdi insan diline geçelim.
---
## İKİNCİ KATMAN: Evrensel Anlaşılabilirlik
### Rectified Flow: Düz Çizgi Hikayesi
Diyelim ki sana bir çuval çöp verdim ve "bunu bir Picasso tablosuna dönüştür" dedim.
Klasik yöntem (diffusion) şöyle çalışıyor: Çöpü yavaş yavaş temizliyorsun. Her adımda "bu şey biraz daha az çöp gibi görünüyor" diyorsun. Ama hangi yöne gideceğini tam bilmiyorsun. Zikzak çiziyorsun. 50 adım sonra Picasso'ya varıyorsun.
Rectified Flow ise diyor ki: "Çöpten Picasso'ya düz bir çizgi çiz. O çizgiyi takip et."
İlk başta zor görünüyor. Çünkü düz çizgi çizmek için "Picasso'nun nerede olduğunu" bilmen lazım. Ama burada bir numara var:
Model önce rastgele çöp-tablo çiftleri oluşturuyor. Sonra bu çiftler arasında düz çizgiler çiziyor. Tekrar ediyor. İkinci turda çizgiler iyice düzleşiyor.
Sonuç? İlk yöntem 50 adım atıyordu. Bu yöntem 2-3 adım atıyor. 20 kat hızlı.
Wan 2.1'in 14 milyar parametresi burada devreye giriyor. O kadar büyük ki, "düz çizgiyi" neredeyse mükemmel öğrenebiliyor.
---
### 3D Causal VAE: Gelecek Yasak
Video üretirken şöyle bir problem var: Bilgisayar videoyu "sıkıştırıyor" ki işlem yapabilsin. 1080p bir video, bilgisayar için çok büyük. Onu küçük bir "özet"e dönüştürüyor.
Ama burada bir tehlike var. Eğer bilgisayar videonun 5. saniyesini özetlerken 6. saniyeye bakıyorsa, o zaman "canlı üretim" imkansız oluyor. Çünkü 5. saniyeyi üretmek için 6. saniyeyi görmüş olman gerek. Ama 6. saniye henüz yok ki!
Causal VAE diyor ki: "5. saniyeyi özetlerken sadece 0-5 saniyeye bak. 6. saniyeyi görme."
Bunu nasıl yapıyor? Matematiksel olarak, videonun her noktasını özetlerken "zamanın sol tarafına" bakıyor, sağ tarafı maskeliyor.
Analoji: Bir kitap okuyorsun. Normal VAE, 50. sayfayı anlamak için 51. sayfaya da bakıyor. Causal VAE, sadece 1-50 arasına bakıyor. Bu sayede kitabı "canlı yazabiliyorsun" - yani 50. sayfayı yazarken 51. sayfa henüz yazılmamış olabiliyor.
Wan-VAE'nin 16 kanallı yapısı, bu "özet"in çok detaylı olmasını sağlıyor. Standart sistemler 4 kanal kullanıyor, bu da bilgi kaybına yol açıyor.
---
### Wan-Move: Ok Çizmek Nasıl Çalışıyor?
Kling'in "Motion Brush" özelliğini hatırla. Bir resmin üzerine ok çiziyorsun, araba o yöne gidiyor.
Peki bu nasıl oluyor?
**Adım 1: Ok çizdin**
Bilgisayar ekranında fareyle bir ok çizdin. Diyelim ki arabanın üzerine sağa doğru 10 santim bir çizgi.
**Adım 2: "Özet dünyası"na çeviri**
Bilgisayar o oku gerçek pikseller dünyasından "özet dünyası"na çeviriyor. Özet dünyası, videonun sıkıştırılmış hali. Orada her şey 8 kat daha küçük. Senin 10 santimlik okun orada 1.25 santim oluyor.
**Adım 3: "Bu araba sağa gidecek" bilgisi**
Model, videonun ilk karesine bakıyor. Arabayı görüyor. Arabanın "özellikleri"ni (rengi, şekli, dokusu) kaydediyor.
Sonra diyor ki: "Bu özellikleri bir sonraki karede sağa taşı."
**Adım 4: Sihir**
Model video üretirken normalde "araba nereye gidecek?" diye tahmin eder. Ama Wan-Move bu tahmine müdahale ediyor. Diyor ki: "Tahmin etme, ben sana söylüyorum. Araba sağa gidiyor."
Bunu nasıl yapıyor? İlk karedeki arabanın özelliklerini "kopyalıyor" ve senin çizdiğin ok boyunca "yapıştırıyor". Model, bu kopyalanmış özellikleri görünce "aa tamam, araba buraya gidecek" diye anlıyor.
**Sonuç:**
Sen sadece bir ok çizdin. Ama arkada:
1. Ok latent uzaya projekte edildi
2. İlk karenin özellikleri warp edildi
3. DiT'nin attention mekanizmasına enjekte edildi
4. Model bu enjekte bilgiyi "gerçek" gibi kabul etti
%94 doğrulukla nesne orada oluyor. Sihir değil, özellik yayılımı.
---
### MotionCtrl: Kamera mı Nesne mi?
Diyelim ki bir film çekiyorsun. Karakterin sağa yürümesini istiyorsun. Aynı anda kameranın sola kaymasını istiyorsun. Sonuç: Karakter ekranda daha hızlı sağa gidiyor gibi görünüyor.
Normal video modelleri bunu karıştırıyor. "Sağa git" komutu ile "sola kay" komutunu birbirine karıştırıyorlar.
MotionCtrl diyor ki: "Bunlar iki ayrı şey. Kamera hareketi global, nesne hareketi lokal. İkisini ayrı yerlerde işleyelim."
**Nasıl?**
Transformer modeli katmanlardan oluşuyor. Bazı katmanlar "zamana" bakıyor (temporal), bazıları "uzaya" bakıyor (spatial).
- **Kamera hareketi:** "Zaman" katmanlarına ekleniyor. Çünkü kamera hareket edince tüm video etkileniyor. Her kare bir öncekine göre farklı bir açıdan.
- **Nesne hareketi:** "Uzay" katmanlarına ekleniyor. Çünkü nesne sadece ekranın bir bölgesinde hareket ediyor.
İki farklı kapıdan girdikleri için çarpışmıyorlar. Kamera solda dönerken, karakter sağda yürüyebiliyor.
---
### Open-Sora: 200 Bin Dolarla Model
OpenAI'nin Sora'sını eğitmek muhtemelen milyonlarca dolara mal oldu. Open-Sora diyor ki: "Biz bunu 200 bin dolara yaptık. Nasıl mı?"
**1. Video sıkıştırmayı abartmak:**
Normal VAE videoyu 8 kat sıkıştırıyor. Open-Sora'nın VAE'si 64 kat sıkıştırıyor.
Analoji: 100 sayfalık bir kitabı özetlemek istiyorsun. Normal yöntem 12 sayfa özet yapıyor. Open-Sora 1.5 sayfa özet yapıyor. Çok daha az yer kaplıyor.
**2. GPU'ları akıllıca paylaştırmak:**
Uzun video üretirken sorun şu: Video GPU belleğine sığmıyor.
Çözüm: Videoyu parçalara bölüyorsun. Her GPU bir parçaya bakıyor. Ama burada bir problem var: GPU'lar birbirinin verdiği "dikkat" bilgisine ihtiyaç duyuyor.
DeepSpeed Ulysses adlı sistem şunu yapıyor: GPU'lar sürekli birbirleriyle "hey, benim kısmımda şu var" diye bilgi alışverişi yapıyor. Ring gibi. Halka.
Sonuç: 8 GPU, tek bir devasa videoyu sanki 1 GPU'ymış gibi işleyebiliyor.
**3. Aşamalı eğitim:**
İlk başta düşük kalitede eğitiyorsun (256p). Model genel kavramları öğreniyor. Sonra kaliteyi artırıyorsun (720p). Model detayları öğreniyor.
Bu, çocuğa önce basit kelimeler, sonra cümleler öğretmeye benziyor.
---
### MIT HAN Lab: Model Diyeti
14 milyar parametreli bir model çok yer kaplıyor. ~28GB. Çoğu insanın GPU'su bu kadar büyük değil.
**SmoothQuant: Sayıları küçültmek**
Normal şartlarda model, sayıları 16-bit (FP16) formatında tutuyor. Yani her sayı 2 byte. SmoothQuant diyor ki: "8-bit yapalım. Her sayı 1 byte. Yarı yarıya yer kurtarıyoruz."
Ama problem var: Model bazı çok büyük sayılar kullanıyor. 100 kat büyük. Eğer uniform ölçeklendirme yaparsan, küçük sayılar yok oluyor.
Çözüm: "Büyük sayıları küçült, küçük sayıları büyült." Nasıl? Bir çarpan kullan. Aktivasyonları böl, ağırlıkları çarp. Matematiksel olarak eşdeğer ama sayılar dengeli hale geliyor.
Sonuç: Model 8-bit'te çalışıyor ama kalite kaybı yok. Bellek %50 düşüyor.
**AWQ: Önemli olanı koru**
Diyelim ki bir kitabın özetini yapacaksın. Her kelime eşit mi önemli? Hayır. Ana fikri taşıyan %1'lik kısım var.
AWQ diyor ki: "Model ağırlıklarının %1'i kritik. Onları 16-bit tut. Geri kalanı 4-bit yap."
4-bit nedir? Her sayı yarım byte. Model boyutu %75 küçülüyor.
Kritik ağırlıklar nasıl bulunuyor? Hangi ağırlıkların "büyük aktivasyonlarla" çarpıldığına bakılıyor. Çünkü büyük sayılarla çarpılan ağırlıklar, hataya daha fazla katkı yapıyor.
Sonuç: 14B model 7GB'a iniyor. 24GB GPU'da çalışıyor.
---
### MIT CSAIL: Fizik Motoru
Video sadece güzel pikseller değil. Fiziksel olarak mantıklı olmalı. Top havada asılı kalamaz. İnsanın kolu aniden kaybolamaz.
**Neural ODEs: Sürekli zaman**
Normal modeller videoyu "kare 1, kare 2, kare 3..." diye işliyor. Ayrık adımlar.
Neural ODE diyor ki: "Video sürekli bir şey. Kare 1.5 de olabilir."
Matematikte buna diferansiyel denklem deniyor. Şu an nerede olduğunu ve hızını biliyorsan, gelecekte nerede olacağını hesaplayabilirsin.
Model, "hız alanı"nı öğreniyor. "Bu noktada nesne şu hızda şu yöne gidiyor."
Avantaj: Model 24 FPS eğitildi ama 60 FPS video üretebilir. Çünkü ara kareleri "entegre ederek" hesaplayabiliyor.
Analoji: Bir arabayı 30 km/saat hızla sürüyorsun. 1 saat sonra 30 km ilerde olacaksın. Ama 0.5 saat sonra neredesin? 15 km. Entegrasyon bu.
**V-JEPA: Pikselden kavrama**
Model pikselleri tahmin etmek yerine, "kavramları" tahmin ediyor.
Mesela videonun bir kısmını maskeliyorsun. Orada ne var? Model "kırmızı top var ve yuvarlanıyor" diyor. Tam rengini, tam piksel değerini tahmin etmiyor. Soyut bir tanım yapıyor.
Bu ne işe yarıyor? Model "nesne kalıcılığı" öğreniyor. Top bir engelin arkasına geçince, model "top yok oldu" demiyor. "Top orada, sadece göremiyorum" diyor.
Video üretimine etkisi: Model fiziksel tutarlılığı öğreniyor. Nesneler ortadan kaybolmuyor, içice geçmiyor.
---
### CausVid: İki Dünyanın Buluşması
Diffusion modeli: Çok kaliteli video üretiyor ama çok yavaş.
Autoregressive model: Hızlı ama kalite zamanla düşüyor (hatalar birikiyor).
CausVid diyor ki: "İkisini evlendirelim."
**Nasıl?**
"Öğretmen-öğrenci" sistemi. Öğretmen diffusion modeli. Yavaş ama mükemmel video üretiyor.
Öğrenci autoregressive model. Öğretmeni izliyor. Sadece sonucu değil, öğretmenin "düşünce sürecini" kopyalıyor.
Analoji: Bir usta ressam tabloyu boyuyor. Çırak sadece bitmiş tabloya bakmıyor. Ustanın her fırça darbesini, hangi sırayla ne yaptığını izliyor.
Öğrenci bu "ara adımları" öğrenince, hızlı ama kaliteli üretebiliyor.
Sonuç: Diffusion kalitesi ama autoregressive hız. 9.4 FPS. Neredeyse canlı.
---
## Kapanış: Sihir Değil, Mühendislik
Kling'in Motion Brush'ı sihir gibi görünüyordu. Ama değildi.
- Rectified Flow, 50 adımı 2 adıma indirdi
- Causal VAE, videoyu streaming yaparken tutarlı tuttu
- Wan-Move, ok çizmeyi latent uzayda özellik yayılımına çevirdi
- MotionCtrl, kamera ve nesneyi farklı kapılardan soktu
- Open-Sora, 200 bin dolarla replike etti
- HAN Lab, modeli diyete soktu
- CSAIL, fizik kurallarını kod yaptı
Her biri bir tuğla. Hepsi bir araya gelince, "pikselleri hareket ettirme" yeteneği doğdu.
Gelecek? Daha verimli, daha fiziksel, daha kontrol edilebilir sistemler. Video üretimi, "sanat aracı" olmaktan çıkıp "dünya simülatörü" oluyor.
Robotlar sanal ortamda eğitilecek. İlaçlar molekül simülasyonlarında test edilecek. Yapay zeka, dünyayı sadece "görme"yi değil, "anlama"yı öğrenecek.
# Teknik Referanslar Ve Makaleler
- 0
- 0
- 0
- 0
- 0
- 0
- 0
- 0
- 0
- 0
- 0
- 0
- ^ Patrick Esser, et al. (2026). Scaling Rectified Flow Transformers For High-Resolution İmage Synthesis. arXiv, sf: 01. | Arşiv Bağlantısı
- Zangwei Zheng, et al. (2026). Open-Sora 2.0: Training A Commercial-Level Video Generation Model İn $200K. arXiv, sf: 01. | Arşiv Bağlantısı
- ^ Zhouxia Wang, et al. (2026). Motionctrl: A Unified And Flexible Motion Controller For Video Generation. arXiv, sf: 01. | Arşiv Bağlantısı
- ^ Han Cai, et al. (2026). Efficientvit: Multi-Scale Linear Attention For High-Resolution Dense Prediction. arXiv, sf: 01. | Arşiv Bağlantısı
- Adrien Bardes, et al. (2026). V-Jepa: İntuitive Physics Understanding From Self-Supervised Pretraining. arXiv, sf: 01. | Arşiv Bağlantısı
- Ramin Hasani, et al. Liquid Neural Networks. Alındığı Tarih: 28 Ocak 2026. Alındığı Yer: MIT | Arşiv Bağlantısı
- ^ Tsai-Shien Chen, et al. (2026). Panda-70M: Captioning 70M Videos With Multiple Cross-Modality Teachers. researchgate, sf: 01. | Arşiv Bağlantısı
- ^ Siyu Huo, et al. (2026). Magicmotion: Controllable Video Generation With Dense-To-Sparse Trajectory. arXiv, sf: 01. | Arşiv Bağlantısı
Evrim Ağacı'na her ay sadece 1 kahve ısmarlayarak destek olmak ister misiniz?
Şu iki siteden birini kullanarak şimdi destek olabilirsiniz:
kreosus.com/evrimagaci | patreon.com/evrimagaci
Çıktı Bilgisi: Bu sayfa, Evrim Ağacı yazdırma aracı kullanılarak 04/04/2026 18:38:12 tarihinde oluşturulmuştur. Evrim Ağacı'ndaki içeriklerin tamamı, birden fazla editör tarafından, durmaksızın elden geçirilmekte, güncellenmekte ve geliştirilmektedir. Dolayısıyla bu çıktının alındığı tarihten sonra yapılan güncellemeleri görmek ve bu içeriğin en güncel halini okumak için lütfen şu adrese gidiniz: https://evrimagaci.org/s/22195
İçerik Kullanım İzinleri: Evrim Ağacı'ndaki yazılı içerikler orijinallerine hiçbir şekilde dokunulmadığı müddetçe izin alınmaksızın paylaşılabilir, kopyalanabilir, yapıştırılabilir, çoğaltılabilir, basılabilir, dağıtılabilir, yayılabilir, alıntılanabilir. Ancak bu içeriklerin hiçbiri izin alınmaksızın değiştirilemez ve değiştirilmiş halleri Evrim Ağacı'na aitmiş gibi sunulamaz. Benzer şekilde, içeriklerin hiçbiri, söz konusu içeriğin açıkça belirtilmiş yazarlarından ve Evrim Ağacı'ndan başkasına aitmiş gibi sunulamaz. Bu sayfa izin alınmaksızın düzenlenemez, Evrim Ağacı logosu, yazar/editör bilgileri ve içeriğin diğer kısımları izin alınmaksızın değiştirilemez veya kaldırılamaz.