Keşfedin, Öğrenin ve Paylaşın
Evrim Ağacı'nda Aradığın Her Şeye Ulaşabilirsin!
Paylaşım Yap
1,000 ATP Ödüllü Soru: “İnsanların başkalarını mutlu etmeye çalışması evrimsel açıdan gerçekten faydalı bir davranış mıdır, yoksa günümüz toplumunun yarattığı bir alışkanlık mıdır? Hemen cevapla! Hatice Kutbay'ın cevabı ödüllü bir soruda en iyi cevap seçildi! Ödüllü cevabı okumak için tıklayın!
Tüm Reklamları Kapat

Piksellerin Ardındaki Matematik

Video Üretiminin Teknik Anatomisi: Kling’den MIT’ye

12 dakika
19
Piksellerin Ardındaki Matematik Microsoft Designer
  • Blog Yazısı
Kapak Fotoğrafo
Blog Yazısı
Tüm Reklamları Kapat

# Video Üretiminin Teknik Anatomisi: Kling'den MIT'ye

---

## Giriş: Piksellerin Ardındaki Matematik

Tüm Reklamları Kapat

2024'ün sonlarında Kuaishou'nun Kling AI'ı piyasaya sürdüğünde, insanlar "Motion Brush" özelliğine hayran kaldı. Bir resmin üzerine ok çizerek nesneyi istediğin yöne hareket ettiriyordun. Sihir gibi görünüyordu.

Ama sihir değildi. Altında yatan şey, üç yıllık akademik araştırmanın birleşimi: Latent uzayda özellik yayılımı, 3D nedensel konvolüsyonlar, ve Rectified Flow optimizasyonu.

Bu yazıda o sihri parçalarına ayıracağız. Önce makine düzeyinde nasıl çalıştığını göreceğiz. Sonra aynı fikri, kod yazmayı hiç bilmeyen birine anlatır gibi açacağız.

---

Tüm Reklamları Kapat

## BİRİNCİ KATMAN: Teknik Derinlik

### 1. Rectified Flow: Difüzyonun Ötesinde Düz Çizgi Teorisi

Video üretiminde temel sorun şu: Bir gürültü dağılımını ($\pi_0$) nasıl veri dağılımına ($\pi_1$) dönüştürürsün?

Klasik difüzyon modelleri (DDPM) bunu stokastik bir süreç olarak ele alır. Eğri yörüngeler, 50-100 adım, yavaş çıkarım. Rectified Flow ise şunu söylüyor: "Neden direkt düz gitmiyoruz?"

Evrim Ağacı'ndan Mesaj

Evrim Ağacı'nın çalışmalarına Kreosus, Patreon veya YouTube üzerinden maddi destekte bulunarak hem Türkiye'de bilim anlatıcılığının gelişmesine katkı sağlayabilirsiniz, hem de site ve uygulamamızı reklamsız olarak deneyimleyebilirsiniz. Reklamsız deneyim, sitemizin/uygulamamızın çeşitli kısımlarda gösterilen Google reklamlarını ve destek çağrılarını görmediğiniz, %100 reklamsız ve çok daha temiz bir site deneyimi sunmaktadır.

Kreosus

Kreosus'ta her 50₺'lik destek, 1 aylık reklamsız deneyime karşılık geliyor. Bu sayede, tek seferlik destekçilerimiz de, aylık destekçilerimiz de toplam destekleriyle doğru orantılı bir süre boyunca reklamsız deneyim elde edebiliyorlar.

Kreosus destekçilerimizin reklamsız deneyimi, destek olmaya başladıkları anda devreye girmektedir ve ek bir işleme gerek yoktur.

Patreon

Patreon destekçilerimiz, destek miktarından bağımsız olarak, Evrim Ağacı'na destek oldukları süre boyunca reklamsız deneyime erişmeyi sürdürebiliyorlar.

Patreon destekçilerimizin Patreon ile ilişkili e-posta hesapları, Evrim Ağacı'ndaki üyelik e-postaları ile birebir aynı olmalıdır. Patreon destekçilerimizin reklamsız deneyiminin devreye girmesi 24 saat alabilmektedir.

YouTube

YouTube destekçilerimizin hepsi otomatik olarak reklamsız deneyime şimdilik erişemiyorlar ve şu anda, YouTube üzerinden her destek seviyesine reklamsız deneyim ayrıcalığını sunamamaktayız. YouTube Destek Sistemi üzerinde sunulan farklı seviyelerin açıklamalarını okuyarak, hangi ayrıcalıklara erişebileceğinizi öğrenebilirsiniz.

Eğer seçtiğiniz seviye reklamsız deneyim ayrıcalığı sunuyorsa, destek olduktan sonra YouTube tarafından gösterilecek olan bağlantıdaki formu doldurarak reklamsız deneyime erişebilirsiniz. YouTube destekçilerimizin reklamsız deneyiminin devreye girmesi, formu doldurduktan sonra 24-72 saat alabilmektedir.

Diğer Platformlar

Bu 3 platform haricinde destek olan destekçilerimize ne yazık ki reklamsız deneyim ayrıcalığını sunamamaktayız. Destekleriniz sayesinde sistemlerimizi geliştirmeyi sürdürüyoruz ve umuyoruz bu ayrıcalıkları zamanla genişletebileceğiz.

Giriş yapmayı unutmayın!

Reklamsız deneyim için, maddi desteğiniz ile ilişkilendirilmiş olan Evrim Ağacı hesabınıza yapmanız gerekmektedir. Giriş yapmadığınız takdirde reklamları görmeye devam edeceksinizdir.

**Matematiksel temel:**

$$Z_t = t \cdot Z_1 + (1-t) \cdot Z_0$$

Burada $Z_0$ gürültü, $Z_1$ gerçek video latent'ı. Model, hız alanını ($v$) tahmin ediyor:

$$\frac{dZ}{dt} = v_\theta(Z_t, t)$$

Kayıp fonksiyonu:

$$\mathcal{L} = \mathbb{E}_{t, Z_0, Z_1} \left[ \| v_\theta(Z_t, t) - (Z_1 - Z_0) \|^2 \right]$$

Tüm Reklamları Kapat

**Reflow prosedürü:** İlk modelin ürettiği çiftlerle tekrar eğitirsen, yörüngeler iyice düzleşir. 2-Rectified Flow modelleri 1-2 adımda üretim yapabilir.

**Wan 2.1'deki uygulama:** 14 milyar parametreli model, Logit-Normal zaman örneklemesi kullanarak orta zorluktaki adımlara odaklanıyor. Euler solver yerine RK45 kullanıldığında inversion (video editlenmesi) hatasını %80 azaltıyor.

---

Tüm Reklamları Kapat

### 2. 3D Causal VAE: Zamanda Geriye Bakma Yasağı

Video modellerinde VAE, ham piksel verilerini sıkıştırır. Ama standart 3D VAE'lerde tehlikeli bir özellik var: Bidirectional erişim. Yani $t$ anındaki latent, $t+1$ anındaki bilgiyi de görebilir.

**Sorun:** Bu, streaming üretimi imkansız kılar ve temporal flickering yaratır.

**Çözüm: CausalConv3D**

Tüm Reklamları Kapat

Agora Bilim Pazarı

```python

# Konseptüel kod

class CausalConv3d(nn.Module):

def forward(self, x):

# x shape: (B, C, T, H, W)

# Zaman ekseninde asimetrik padding

# Sadece geçmişe (sola) padding ekle

x = F.pad(x, (0, 0, 0, 0, kernel_t - 1, 0))

return self.conv(x)

```

Tüm Reklamları Kapat

**Wan-VAE özellikleri:**

- 16 kanal latent (SD'nin 4'üne karşı)

- 4x8x8 sıkıştırma (zaman × uzay)

- Magvit-v2 backbone

Tüm Reklamları Kapat

Bu sayede model, 1080p 30fps videoyu latent'ta 135×120 boyutuna indiriyor. DiT için işlenebilir hale geliyor.

---

### 3. Wan-Move: Latent Trajectory Guidance

Kling'in Motion Brush'ının açık kaynak replikası.核心逻辑 şu:

Tüm Reklamları Kapat

**Adım 1: Trajectory Projection**

Kullanıcı piksel uzayında yörünge çiziyor: $\tau = \{(x_t, y_t)\}$

Latent uzaya projeksiyon:

$$\tilde{\tau} = \{(x_t / 8, y_t / 8)\}$$

Tüm Reklamları Kapat

**Adım 2: Feature Propagation**

İlk karenin latent'ını al: $Z_0$

Her $t$ anı için, $Z_0$'dan ilgili patch'leri al ve yörünge boyunca "warp" et:

```python

Tüm Reklamları Kapat

def propagate_features(z0, trajectories):

propagated = []

for t in range(num_frames):

grid = trajectories[:, t] # Akış alanı

Tüm Reklamları Kapat

z_warped = F.grid_sample(z0, grid,

mode='bilinear',

align_corners=True)

propagated.append(z_warped)

Tüm Reklamları Kapat

return torch.stack(propagated, dim=2)

```

**Adım 3: Attention Injection**

Warp edilmiş özellikler, DiT bloklarının self-attention'ına bias olarak eklenir. Model, nesnenin nereye gitmesi gerektiğini "tahmin etmez", doğrudan latent'tan "okur".

Tüm Reklamları Kapat

**MoveBench sonuçları:** EPE (End-Point Error) skoru 12.2 (rakip DragNUWA: 15.4). Nesne kimliği korunma oranı %94.

---

### 4. MotionCtrl: Kamera vs Nesne Ayrımı

Wan-Move nesne odaklı. MotionCtrl ise "modüler" bir yaklaşım.

Tüm Reklamları Kapat

**CMCM (Camera Motion Control Module):**

- Input: 12-boyutlu RT matrisi (Rotation-Translation)

- Injection point: Temporal Attention katmanları

- Mekanizma: Kamera parametreleri MLP'den geçip temporal self-attention'a eklenir

Tüm Reklamları Kapat

**OMCM (Object Motion Control Module):**

- Input: Trajectory points

- Injection point: Spatial Convolution/Attention

- Mekanizma: Sparse trajectory'ler dense heatmap'e dönüştürülüp spatial feature'lara concat edilir

Tüm Reklamları Kapat

**Neden ayrı?** Kamera hareketi global ve rigid. Nesne hareketi local ve deformable. Aynı katmanda karıştırırsan çakışma olur. MotionCtrl, bunları farklı transformer bloklarına enjekte ederek çatışmayı önlüyor.

---

### 5. Open-Sora: Verimlilik Mimarisi

14B model lüks bir dünya. Çoğu insan 200k dolara model eğitemez. Open-Sora, "nasıl ucuza yapılır" sorusunun cevabı.

Tüm Reklamları Kapat

**Video DC-AE (Deep Compression Autoencoder):**

- 4×32×32 sıkıştırma

- Standart VAE: 120 kare × 64×64 = 491K token

- DC-AE: 30 kare × 16×16 = 7.6K token

Tüm Reklamları Kapat

- Token sayısını 64 kat azaltıyor

**DeepSpeed Ulysses (Sequence Parallelism):**

```json

{

Tüm Reklamları Kapat

"sequence_parallel": {

"enabled": true,

"world_size": 8

}

Tüm Reklamları Kapat

}

```

Dikkat hesabı şöyle bölüştürülüyor:

1. All-to-All: Her GPU dizinin bir parçasını alıyor

Tüm Reklamları Kapat

2. Her GPU kendi attention head'lerini hesaplıyor

3. All-to-All: Sonuçlar tekrar takas ediliyor

**Kritik kısıt:** sp_size, attention head sayısına tam bölünmeli. 12 head varsa sp_size 2,3,4,6 olabilir; 5 olamaz.

**Eğitim maliyeti:**

Tüm Reklamları Kapat

- Stage 3 (65×512×512): 32 A800 GPU × 6 saat

- Toplam maliyet: ~$200k (OpenAI'nin milyonlarına karşı)

---

### 6. MIT HAN Lab: Kuantizasyon Cephesi

Tüm Reklamları Kapat

**SmoothQuant (W8A8):**

Transformerlarda aktivasyonlarda outlier'lar var. Bazı kanallar 100x büyük değerler taşıyor. Bu, uniform quantization'ı bozuyor.

Çözüm: Zorluk transferi

$$Y = (X \cdot \text{diag}(s)^{-1}) \cdot (\text{diag}(s) \cdot W)$$

Tüm Reklamları Kapat

$s$ faktörü, aktivasyonlardaki outlier'ları bastırıp ağırlıklara aktarıyor. Ağırlıklar statik olduğu için, offline optimize edilebiliyorlar.

**Video'ya etkisi:** 1080p üretimde aktivasyon belleğini %50 düşürüyor. Batch size ikiye katlıyor.

**AWQ (W4A16):**

Tüm ağırlıklar eşit önemli değil. "Salient weights" (önemli ağırlıklar) sadece %1. Bunlar büyük aktivasyonlarla çarpılan ağırlıklar.

Tüm Reklamları Kapat

AWQ, bu %1'i FP16'da tutuyor, geri kalanı 4-bit'e sıkıştırıyor. Model boyutu %75 küçülüyor. 14B model 24GB GPU'ya sığıyor.

---

### 7. MIT CSAIL: Fizik ve Süreklİlik

**Neural ODEs:**

Tüm Reklamları Kapat

Video ayrık adımlar değil, sürekli bir süreç.

$$\frac{dz}{dt} = f_\theta(z(t), t)$$

**Avantajlar:**

- Esnek frame rate: Model 24fps eğitilmiş ama 60fps üretebilir

Tüm Reklamları Kapat

- Irregular data: Eksik karelerle eğitilebilir

- Fiziksel tutarlılık: ODE çözücüsü momentumu korur

**V-JEPA:**

Model pikselleri değil, soyut özellikleri tahmin ediyor. "Orada kırmızı bir top var ve yuvarlanıyor" gibi yüksek seviye kavramlar.

Tüm Reklamları Kapat

Bulgu: V-JEPA ile eğitilen modeller, object permanence (nesne kalıcılığı) ve solidity (katılık) öğreniyor. Top engelin arkasına geçince, model "yok olmadı, arkada" diyor.

**Video üretimine transfer:** Kayıp fonksiyonuna fiziksel tutarlılık terimi eklenebilir. Model sadece "güzel piksel" için değil, "fiziksel olarak mümkün piksel" için eğitiliyor.

---

### 8. CausVid: Hibrit Mimari

Tüm Reklamları Kapat

Diffusion (yavaş ama kaliteli) + Autoregressive (hızlı ama hatası birikiyor)

**Teacher-Student Distillation:**

- Teacher: Bidirectional diffusion model (gelecek görebiliyor)

- Student: Causal autoregressive model (sadece geçmiş)

Tüm Reklamları Kapat

- Öğrenci, öğretmenin nihai çıktısını değil, ODE yörüngelerini taklit ediyor

**Asymmetric Distillation:** Öğrencinin causal yapısı, öğretmenin bidirectional yapısına adapte ediliyor.

**Sonuç:** 9.4 FPS üretim hızı. Neredeyse real-time.

---

Tüm Reklamları Kapat

## Geçiş: Şimdi Aynı Şeyi Bambaşka Anlatacağım

Yukarıda gördüğün formüller, kod parçaları ve mimari detaylar, makinenin diline aitti. Şimdi insan diline geçelim.

---

## İKİNCİ KATMAN: Evrensel Anlaşılabilirlik

Tüm Reklamları Kapat

### Rectified Flow: Düz Çizgi Hikayesi

Diyelim ki sana bir çuval çöp verdim ve "bunu bir Picasso tablosuna dönüştür" dedim.

Klasik yöntem (diffusion) şöyle çalışıyor: Çöpü yavaş yavaş temizliyorsun. Her adımda "bu şey biraz daha az çöp gibi görünüyor" diyorsun. Ama hangi yöne gideceğini tam bilmiyorsun. Zikzak çiziyorsun. 50 adım sonra Picasso'ya varıyorsun.

Rectified Flow ise diyor ki: "Çöpten Picasso'ya düz bir çizgi çiz. O çizgiyi takip et."

Tüm Reklamları Kapat

İlk başta zor görünüyor. Çünkü düz çizgi çizmek için "Picasso'nun nerede olduğunu" bilmen lazım. Ama burada bir numara var:

Model önce rastgele çöp-tablo çiftleri oluşturuyor. Sonra bu çiftler arasında düz çizgiler çiziyor. Tekrar ediyor. İkinci turda çizgiler iyice düzleşiyor.

Sonuç? İlk yöntem 50 adım atıyordu. Bu yöntem 2-3 adım atıyor. 20 kat hızlı.

Wan 2.1'in 14 milyar parametresi burada devreye giriyor. O kadar büyük ki, "düz çizgiyi" neredeyse mükemmel öğrenebiliyor.

Tüm Reklamları Kapat

---

### 3D Causal VAE: Gelecek Yasak

Video üretirken şöyle bir problem var: Bilgisayar videoyu "sıkıştırıyor" ki işlem yapabilsin. 1080p bir video, bilgisayar için çok büyük. Onu küçük bir "özet"e dönüştürüyor.

Ama burada bir tehlike var. Eğer bilgisayar videonun 5. saniyesini özetlerken 6. saniyeye bakıyorsa, o zaman "canlı üretim" imkansız oluyor. Çünkü 5. saniyeyi üretmek için 6. saniyeyi görmüş olman gerek. Ama 6. saniye henüz yok ki!

Tüm Reklamları Kapat

Causal VAE diyor ki: "5. saniyeyi özetlerken sadece 0-5 saniyeye bak. 6. saniyeyi görme."

Bunu nasıl yapıyor? Matematiksel olarak, videonun her noktasını özetlerken "zamanın sol tarafına" bakıyor, sağ tarafı maskeliyor.

Analoji: Bir kitap okuyorsun. Normal VAE, 50. sayfayı anlamak için 51. sayfaya da bakıyor. Causal VAE, sadece 1-50 arasına bakıyor. Bu sayede kitabı "canlı yazabiliyorsun" - yani 50. sayfayı yazarken 51. sayfa henüz yazılmamış olabiliyor.

Wan-VAE'nin 16 kanallı yapısı, bu "özet"in çok detaylı olmasını sağlıyor. Standart sistemler 4 kanal kullanıyor, bu da bilgi kaybına yol açıyor.

Tüm Reklamları Kapat

---

### Wan-Move: Ok Çizmek Nasıl Çalışıyor?

Kling'in "Motion Brush" özelliğini hatırla. Bir resmin üzerine ok çiziyorsun, araba o yöne gidiyor.

Peki bu nasıl oluyor?

Tüm Reklamları Kapat

**Adım 1: Ok çizdin**

Bilgisayar ekranında fareyle bir ok çizdin. Diyelim ki arabanın üzerine sağa doğru 10 santim bir çizgi.

**Adım 2: "Özet dünyası"na çeviri**

Bilgisayar o oku gerçek pikseller dünyasından "özet dünyası"na çeviriyor. Özet dünyası, videonun sıkıştırılmış hali. Orada her şey 8 kat daha küçük. Senin 10 santimlik okun orada 1.25 santim oluyor.

Tüm Reklamları Kapat

**Adım 3: "Bu araba sağa gidecek" bilgisi**

Model, videonun ilk karesine bakıyor. Arabayı görüyor. Arabanın "özellikleri"ni (rengi, şekli, dokusu) kaydediyor.

Sonra diyor ki: "Bu özellikleri bir sonraki karede sağa taşı."

**Adım 4: Sihir**

Tüm Reklamları Kapat

Model video üretirken normalde "araba nereye gidecek?" diye tahmin eder. Ama Wan-Move bu tahmine müdahale ediyor. Diyor ki: "Tahmin etme, ben sana söylüyorum. Araba sağa gidiyor."

Bunu nasıl yapıyor? İlk karedeki arabanın özelliklerini "kopyalıyor" ve senin çizdiğin ok boyunca "yapıştırıyor". Model, bu kopyalanmış özellikleri görünce "aa tamam, araba buraya gidecek" diye anlıyor.

**Sonuç:**

Sen sadece bir ok çizdin. Ama arkada:

Tüm Reklamları Kapat

1. Ok latent uzaya projekte edildi

2. İlk karenin özellikleri warp edildi

3. DiT'nin attention mekanizmasına enjekte edildi

4. Model bu enjekte bilgiyi "gerçek" gibi kabul etti

Tüm Reklamları Kapat

%94 doğrulukla nesne orada oluyor. Sihir değil, özellik yayılımı.

---

### MotionCtrl: Kamera mı Nesne mi?

Diyelim ki bir film çekiyorsun. Karakterin sağa yürümesini istiyorsun. Aynı anda kameranın sola kaymasını istiyorsun. Sonuç: Karakter ekranda daha hızlı sağa gidiyor gibi görünüyor.

Tüm Reklamları Kapat

Normal video modelleri bunu karıştırıyor. "Sağa git" komutu ile "sola kay" komutunu birbirine karıştırıyorlar.

MotionCtrl diyor ki: "Bunlar iki ayrı şey. Kamera hareketi global, nesne hareketi lokal. İkisini ayrı yerlerde işleyelim."

**Nasıl?**

Transformer modeli katmanlardan oluşuyor. Bazı katmanlar "zamana" bakıyor (temporal), bazıları "uzaya" bakıyor (spatial).

Tüm Reklamları Kapat

- **Kamera hareketi:** "Zaman" katmanlarına ekleniyor. Çünkü kamera hareket edince tüm video etkileniyor. Her kare bir öncekine göre farklı bir açıdan.

- **Nesne hareketi:** "Uzay" katmanlarına ekleniyor. Çünkü nesne sadece ekranın bir bölgesinde hareket ediyor.

İki farklı kapıdan girdikleri için çarpışmıyorlar. Kamera solda dönerken, karakter sağda yürüyebiliyor.

---

Tüm Reklamları Kapat

### Open-Sora: 200 Bin Dolarla Model

OpenAI'nin Sora'sını eğitmek muhtemelen milyonlarca dolara mal oldu. Open-Sora diyor ki: "Biz bunu 200 bin dolara yaptık. Nasıl mı?"

**1. Video sıkıştırmayı abartmak:**

Normal VAE videoyu 8 kat sıkıştırıyor. Open-Sora'nın VAE'si 64 kat sıkıştırıyor.

Tüm Reklamları Kapat

Analoji: 100 sayfalık bir kitabı özetlemek istiyorsun. Normal yöntem 12 sayfa özet yapıyor. Open-Sora 1.5 sayfa özet yapıyor. Çok daha az yer kaplıyor.

**2. GPU'ları akıllıca paylaştırmak:**

Uzun video üretirken sorun şu: Video GPU belleğine sığmıyor.

Çözüm: Videoyu parçalara bölüyorsun. Her GPU bir parçaya bakıyor. Ama burada bir problem var: GPU'lar birbirinin verdiği "dikkat" bilgisine ihtiyaç duyuyor.

Tüm Reklamları Kapat

DeepSpeed Ulysses adlı sistem şunu yapıyor: GPU'lar sürekli birbirleriyle "hey, benim kısmımda şu var" diye bilgi alışverişi yapıyor. Ring gibi. Halka.

Sonuç: 8 GPU, tek bir devasa videoyu sanki 1 GPU'ymış gibi işleyebiliyor.

**3. Aşamalı eğitim:**

İlk başta düşük kalitede eğitiyorsun (256p). Model genel kavramları öğreniyor. Sonra kaliteyi artırıyorsun (720p). Model detayları öğreniyor.

Tüm Reklamları Kapat

Bu, çocuğa önce basit kelimeler, sonra cümleler öğretmeye benziyor.

---

### MIT HAN Lab: Model Diyeti

14 milyar parametreli bir model çok yer kaplıyor. ~28GB. Çoğu insanın GPU'su bu kadar büyük değil.

Tüm Reklamları Kapat

**SmoothQuant: Sayıları küçültmek**

Normal şartlarda model, sayıları 16-bit (FP16) formatında tutuyor. Yani her sayı 2 byte. SmoothQuant diyor ki: "8-bit yapalım. Her sayı 1 byte. Yarı yarıya yer kurtarıyoruz."

Ama problem var: Model bazı çok büyük sayılar kullanıyor. 100 kat büyük. Eğer uniform ölçeklendirme yaparsan, küçük sayılar yok oluyor.

Çözüm: "Büyük sayıları küçült, küçük sayıları büyült." Nasıl? Bir çarpan kullan. Aktivasyonları böl, ağırlıkları çarp. Matematiksel olarak eşdeğer ama sayılar dengeli hale geliyor.

Tüm Reklamları Kapat

Sonuç: Model 8-bit'te çalışıyor ama kalite kaybı yok. Bellek %50 düşüyor.

**AWQ: Önemli olanı koru**

Diyelim ki bir kitabın özetini yapacaksın. Her kelime eşit mi önemli? Hayır. Ana fikri taşıyan %1'lik kısım var.

AWQ diyor ki: "Model ağırlıklarının %1'i kritik. Onları 16-bit tut. Geri kalanı 4-bit yap."

Tüm Reklamları Kapat

4-bit nedir? Her sayı yarım byte. Model boyutu %75 küçülüyor.

Kritik ağırlıklar nasıl bulunuyor? Hangi ağırlıkların "büyük aktivasyonlarla" çarpıldığına bakılıyor. Çünkü büyük sayılarla çarpılan ağırlıklar, hataya daha fazla katkı yapıyor.

Sonuç: 14B model 7GB'a iniyor. 24GB GPU'da çalışıyor.

---

Tüm Reklamları Kapat

### MIT CSAIL: Fizik Motoru

Video sadece güzel pikseller değil. Fiziksel olarak mantıklı olmalı. Top havada asılı kalamaz. İnsanın kolu aniden kaybolamaz.

**Neural ODEs: Sürekli zaman**

Normal modeller videoyu "kare 1, kare 2, kare 3..." diye işliyor. Ayrık adımlar.

Tüm Reklamları Kapat

Neural ODE diyor ki: "Video sürekli bir şey. Kare 1.5 de olabilir."

Matematikte buna diferansiyel denklem deniyor. Şu an nerede olduğunu ve hızını biliyorsan, gelecekte nerede olacağını hesaplayabilirsin.

Model, "hız alanı"nı öğreniyor. "Bu noktada nesne şu hızda şu yöne gidiyor."

Avantaj: Model 24 FPS eğitildi ama 60 FPS video üretebilir. Çünkü ara kareleri "entegre ederek" hesaplayabiliyor.

Tüm Reklamları Kapat

Analoji: Bir arabayı 30 km/saat hızla sürüyorsun. 1 saat sonra 30 km ilerde olacaksın. Ama 0.5 saat sonra neredesin? 15 km. Entegrasyon bu.

**V-JEPA: Pikselden kavrama**

Model pikselleri tahmin etmek yerine, "kavramları" tahmin ediyor.

Mesela videonun bir kısmını maskeliyorsun. Orada ne var? Model "kırmızı top var ve yuvarlanıyor" diyor. Tam rengini, tam piksel değerini tahmin etmiyor. Soyut bir tanım yapıyor.

Tüm Reklamları Kapat

Bu ne işe yarıyor? Model "nesne kalıcılığı" öğreniyor. Top bir engelin arkasına geçince, model "top yok oldu" demiyor. "Top orada, sadece göremiyorum" diyor.

Video üretimine etkisi: Model fiziksel tutarlılığı öğreniyor. Nesneler ortadan kaybolmuyor, içice geçmiyor.

---

### CausVid: İki Dünyanın Buluşması

Tüm Reklamları Kapat

Diffusion modeli: Çok kaliteli video üretiyor ama çok yavaş.

Autoregressive model: Hızlı ama kalite zamanla düşüyor (hatalar birikiyor).

CausVid diyor ki: "İkisini evlendirelim."

**Nasıl?**

Tüm Reklamları Kapat

"Öğretmen-öğrenci" sistemi. Öğretmen diffusion modeli. Yavaş ama mükemmel video üretiyor.

Öğrenci autoregressive model. Öğretmeni izliyor. Sadece sonucu değil, öğretmenin "düşünce sürecini" kopyalıyor.

Analoji: Bir usta ressam tabloyu boyuyor. Çırak sadece bitmiş tabloya bakmıyor. Ustanın her fırça darbesini, hangi sırayla ne yaptığını izliyor.

Öğrenci bu "ara adımları" öğrenince, hızlı ama kaliteli üretebiliyor.

Tüm Reklamları Kapat

Sonuç: Diffusion kalitesi ama autoregressive hız. 9.4 FPS. Neredeyse canlı.

---

## Kapanış: Sihir Değil, Mühendislik

Kling'in Motion Brush'ı sihir gibi görünüyordu. Ama değildi.

Tüm Reklamları Kapat

- Rectified Flow, 50 adımı 2 adıma indirdi

- Causal VAE, videoyu streaming yaparken tutarlı tuttu

- Wan-Move, ok çizmeyi latent uzayda özellik yayılımına çevirdi

- MotionCtrl, kamera ve nesneyi farklı kapılardan soktu

Tüm Reklamları Kapat

- Open-Sora, 200 bin dolarla replike etti

- HAN Lab, modeli diyete soktu

- CSAIL, fizik kurallarını kod yaptı

Her biri bir tuğla. Hepsi bir araya gelince, "pikselleri hareket ettirme" yeteneği doğdu.

Tüm Reklamları Kapat

Gelecek? Daha verimli, daha fiziksel, daha kontrol edilebilir sistemler. Video üretimi, "sanat aracı" olmaktan çıkıp "dünya simülatörü" oluyor.

Robotlar sanal ortamda eğitilecek. İlaçlar molekül simülasyonlarında test edilecek. Yapay zeka, dünyayı sadece "görme"yi değil, "anlama"yı öğrenecek.

# Teknik Referanslar Ve Makaleler

[3] [1] [4], [7], [8] [9], [10], [12]

Okundu Olarak İşaretle
0
0
  • Paylaş
  • Alıntıla
  • Alıntıları Göster
Paylaş
Sonra Oku
Notlarım
Yazdır / PDF Olarak Kaydet
Raporla
Mantık Hatası Bildir
Yukarı Zıpla
Bu Blog Yazısı Sana Ne Hissettirdi?
  • Muhteşem! 0
  • Tebrikler! 0
  • Bilim Budur! 0
  • Mmm... Çok sapyoseksüel! 0
  • Güldürdü 0
  • İnanılmaz 0
  • Umut Verici! 0
  • Merak Uyandırıcı! 0
  • Üzücü! 0
  • Grrr... *@$# 0
  • İğrenç! 0
  • Korkutucu! 0
Kaynaklar ve İleri Okuma
  • ^ Patrick Esser, et al. (2026). Scaling Rectified Flow Transformers For High-Resolution İmage Synthesis. arXiv, sf: 01. | Arşiv Bağlantısı
  • Zangwei Zheng, et al. (2026). Open-Sora 2.0: Training A Commercial-Level Video Generation Model İn $200K. arXiv, sf: 01. | Arşiv Bağlantısı
  • ^ Zhouxia Wang, et al. (2026). Motionctrl: A Unified And Flexible Motion Controller For Video Generation. arXiv, sf: 01. | Arşiv Bağlantısı
  • ^ Han Cai, et al. (2026). Efficientvit: Multi-Scale Linear Attention For High-Resolution Dense Prediction. arXiv, sf: 01. | Arşiv Bağlantısı
  • Adrien Bardes, et al. (2026). V-Jepa: İntuitive Physics Understanding From Self-Supervised Pretraining. arXiv, sf: 01. | Arşiv Bağlantısı
  • Ramin Hasani, et al. Liquid Neural Networks. Alındığı Tarih: 28 Ocak 2026. Alındığı Yer: MIT | Arşiv Bağlantısı
  • ^ Tsai-Shien Chen, et al. (2026). Panda-70M: Captioning 70M Videos With Multiple Cross-Modality Teachers. researchgate, sf: 01. | Arşiv Bağlantısı
  • ^ Siyu Huo, et al. (2026). Magicmotion: Controllable Video Generation With Dense-To-Sparse Trajectory. arXiv, sf: 01. | Arşiv Bağlantısı
Tüm Reklamları Kapat

Evrim Ağacı'na her ay sadece 1 kahve ısmarlayarak destek olmak ister misiniz?

Şu iki siteden birini kullanarak şimdi destek olabilirsiniz:

kreosus.com/evrimagaci | patreon.com/evrimagaci

Çıktı Bilgisi: Bu sayfa, Evrim Ağacı yazdırma aracı kullanılarak 04/04/2026 18:38:12 tarihinde oluşturulmuştur. Evrim Ağacı'ndaki içeriklerin tamamı, birden fazla editör tarafından, durmaksızın elden geçirilmekte, güncellenmekte ve geliştirilmektedir. Dolayısıyla bu çıktının alındığı tarihten sonra yapılan güncellemeleri görmek ve bu içeriğin en güncel halini okumak için lütfen şu adrese gidiniz: https://evrimagaci.org/s/22195

İçerik Kullanım İzinleri: Evrim Ağacı'ndaki yazılı içerikler orijinallerine hiçbir şekilde dokunulmadığı müddetçe izin alınmaksızın paylaşılabilir, kopyalanabilir, yapıştırılabilir, çoğaltılabilir, basılabilir, dağıtılabilir, yayılabilir, alıntılanabilir. Ancak bu içeriklerin hiçbiri izin alınmaksızın değiştirilemez ve değiştirilmiş halleri Evrim Ağacı'na aitmiş gibi sunulamaz. Benzer şekilde, içeriklerin hiçbiri, söz konusu içeriğin açıkça belirtilmiş yazarlarından ve Evrim Ağacı'ndan başkasına aitmiş gibi sunulamaz. Bu sayfa izin alınmaksızın düzenlenemez, Evrim Ağacı logosu, yazar/editör bilgileri ve içeriğin diğer kısımları izin alınmaksızın değiştirilemez veya kaldırılamaz.

Aklımdan Geçen
Komünite Seç
Aklımdan Geçen
Fark Ettim ki...
Bugün Öğrendim ki...
İşe Yarar İpucu
Bilim Haberleri
Hikaye Fikri
Video Konu Önerisi
Başlık
Bugün bilimseverlerle ne paylaşmak istersin?
Gündem
Bağlantı
Ekle
Soru Sor
Stiller
Kurallar
Komünite Kuralları
Bu komünite, aklınızdan geçen düşünceleri Evrim Ağacı ailesiyle paylaşabilmeniz içindir. Yapacağınız paylaşımlar Evrim Ağacı'nın kurallarına tabidir. Ayrıca bu komünitenin ek kurallarına da uymanız gerekmektedir.
1
Bilim kimliğinizi önceleyin.
Evrim Ağacı bir bilim platformudur. Dolayısıyla aklınızdan geçen her şeyden ziyade, bilim veya yaşamla ilgili olabilecek düşüncelerinizle ilgileniyoruz.
2
Propaganda ve baskı amaçlı kullanmayın.
Herkesin aklından her şey geçebilir; fakat bu platformun amacı, insanların belli ideolojiler için propaganda yapmaları veya başkaları üzerinde baskı kurma amacıyla geliştirilmemiştir. Paylaştığınız fikirlerin değer kattığından emin olun.
3
Gerilim yaratmayın.
Gerilim, tersleme, tahrik, taciz, alay, dedikodu, trollük, vurdumduymazlık, duyarsızlık, ırkçılık, bağnazlık, nefret söylemi, azınlıklara saldırı, fanatizm, holiganlık, sloganlar yasaktır.
4
Değer katın; hassas konulardan ve öznel yoruma açık alanlardan uzak durun.
Bu komünitenin amacı okurlara hayatla ilgili keyifli farkındalıklar yaşatabilmektir. Din, politika, spor, aktüel konular gibi anlık tepkilere neden olabilecek konulardaki tespitlerden kaçının. Ayrıca aklınızdan geçenlerin Türkiye’deki bilim komünitesine değer katması beklenmektedir.
5
Cevap hakkı doğurmayın.
Aklınızdan geçenlerin bu platformda bulunmuyor olabilecek kişilere cevap hakkı doğurmadığından emin olun.
Size Özel
Makaleler
Daha Fazla İçerik Göster
Popüler Yazılar
30 gün
90 gün
1 yıl
Evrim Ağacı'na Destek Ol

Evrim Ağacı'nın %100 okur destekli bir bilim platformu olduğunu biliyor muydunuz? Evrim Ağacı'nın maddi destekçileri arasına katılarak Türkiye'de bilimin yayılmasına güç katın.

Evrim Ağacı'nı Takip Et!
Geçmiş ve Notlar
Yazı Geçmişi
Okuma Geçmişi
Notlarım
İlerleme Durumunu Güncelle
Okudum
Sonra Oku
Not Ekle
İşaretle
Göz Attım
Site Ayarları

Evrim Ağacı tarafından otomatik olarak takip edilen işlemleri istediğin zaman durdurabilirsin.

[Site ayalarına git...]
Bu Yazıdaki Hareketleri
Daha Fazla göster
Tüm Okuma Geçmişin
Daha Fazla göster
0/10000
Kaydet
Keşfet
Ara
Yakında
Sohbet
Agora

Bize Ulaşın

ve seni takip ediyor
Türkiye'deki bilimseverlerin buluşma noktasına hoşgeldiniz!

Göster

Şifremi unuttum Üyelik Aktivasyonu

Göster

Şifrenizi mi unuttunuz? Lütfen e-posta adresinizi giriniz. E-posta adresinize şifrenizi sıfırlamak için bir bağlantı gönderilecektir.

Geri dön

Eğer aktivasyon kodunu almadıysanız lütfen e-posta adresinizi giriniz. Üyeliğinizi aktive etmek için e-posta adresinize bir bağlantı gönderilecektir.

Geri dön

Close
"Evren'in merkezi olmamamız bir yana, hiçbir özel yaratılışa sahip olmayışımız bizim için bir şoktur. Bir çeşit kilden yola çıkıp, şu anki maymun mertebesine ulaştık. Bu gerçek hoşumuza gitmiyor."
Douglas Adams
Kapak Görseli Seç
Videodan otomatik olarak çıkartılan karelerden birini seçin.
Kareler yükleniyor…
Videoyu kaydırarak istediğiniz kareyi seçin.
0:00 / 0:00
Kendi kapak görselinizi yükleyin. Görsel otomatik olarak kırpılacaktır.
Görseli sürükleyin veya tıklayın PNG, JPG veya WEBP (Maks. 10MB)