DeepFake: Yapay Zeka ve Bilgisayarlar ile Gerçeği Nasıl Bükeriz?
Bu yazımızda, “DeepFake” kavramı ve uygulamaları üzerine düşüneceğiz ve odaklanmaya çalışacağız. “DeepFake” kavramı altında hem kitlesel algı yönetimi ve toplum mühendisliğine hem de internet kullanıcılarına yönelik kişiselleştirilmiş saldırılara zemin hazırlayacak yeni bir teknoloji uygulamasından söz edeceğiz. “DeepFake” kavramını “siber savaş” dediğimiz ve elektronik bilgi sistemlerine zarar verme, veri, bilgi ve kimlik hırsızlığı odaklı saldırı yöntemleri temelli olgunun “yapay zeka” desteğinde kazandığı yeni bir boyut olarak ele alacağız.
Yazının devamında öncelikle bilişsel sibernetik sistemlerin ve artık elektronik sistemlerin de temelindeki veri (İng: "data"), anlamlı bilgi (İng: "information"), yararlı bilgi (İng: "knowledge") ve uygulanmış bilgi (İng: "wisdom") piramidine dair hatırlatıcılar vereceğiz. Bu hiyerarşiyle bağıntılı olarak, “DeepFake” kavramının sizin üzerinizde, hayatı, olguları, olayları algılamanız, duygu ve düşüncelerinizin günümüz internet iletişim kanalları ile nasıl yönetilebileceği, kandırılabileceği ve sizden başlamak üzere, bir toplumun nasıl yönetilebileceği ya da yine sizden başlamak üzere, kişilerin internet üzerinden topluma karşı nasıl istismar edilebileceği, kandırılabileceğine değineceğiz.
Bir gecede bir siyasi liderin, bir sanatçının, bir gazetecinin, bir sivil toplum liderinin ve dahi bu satırı okuyan sizin, size maddi ve manevi olarak zarar vermek isteyen herhangi bir başka kişi tarafından nasıl örselenebileceğinize dair senaryolara ve tekniklere bir girizgah yapacağız. Yapay zekanın kötü amaçlı kullanımlarına biraz perde arkası bilgilendirmeyle birlikte bakacağız.
DeepFake'e Giriş: Temel Kavramlar
“DeepFake” dalışımızdan önce biraz "bilgi" ve "veri" kavramlarına bakış atalım. Çünkü “DeepFake” dediğimiz yeni yapılanma, aslında verinin ve bağlantılı olarak tüm bilgi zincirinin baştan aldatılması, saptırılması ve çökertilmesi temeline dayanıyor.
Bilgi Nedir?
Bilgi, zaman ile evrimleşen ve medeniyetin çağlarda tezahürüne imkan veren, katma değerli bir parametre olarak dünyadaki ilk günümüzden bu yana bizlerle ve sürekli artıyor. Bilgi çağında mı yaşıyoruz? Evet, bilgiyi son birkaç yüz yıldır ve mekanik, elektromekanik, elektronik sistemler sayesinde artık o kadar hızlı üretiyor, sentezleyerek yeni ve katma değerli bilgi üretiyor ve tüketiyoruz ki medeniyetin gerçekten “bilgi” odaklı bir zaman dilimini tecrübe ediyoruz. Her yerde bilgi ile iç içeyiz. Her açıdan, her an ve her anlamda bilgi ile besleniyoruz.
Bilgiye erişebilmek vazgeçilemez, temel bir ihtiyaç haline geldi. Bilgiyi öğrenmek, düşünmek, anlamak ve hissetmek için, maddi bir amaca ulaşmak için, değer yargıları oluşturmak için aklımızda işliyoruz, kaydediyoruz, hatırlıyoruz, gerektiğinde işimize geldiği gibi değiştirebiliyor, bilgiden türettiğimiz yeni gerçeklikleri savunabiliyor ya da daha masumca bakacak olursak, "yanlış hatırlıyoruz". Kısacası bilgiyi aslında biyolojik varlığımız ve vücut makinemizin haricinde, beynimizi ve ruhumuzu beslemek, tatmin etmek, geliştirmek için bir yakıt olarak kullanıyoruz. Karşılığında birey oluyoruz, vatandaş oluyoruz, taraftar, ebeveyn, eş, sevgili, arkadaş, öğrenci, vb. aklımıza gelebilecek çok sayıda toplumsal sıfatı da üstleniyoruz. Hepsinin toplamında insan oluyoruz.
Veriden Uygulanmış Veriye Bir Köprü...
Veri (İng: "data") alt katmanından uygulanmış veri (İng: "wisdom") seviyesine transfer sürecini kısaca inceleyelim:
Veri; yalın, çevresinden bağımsız ve yalıtılmış, tek başına anlam içermeyen, çevresel gözlemlerden sağlanan girdilere dair yığınsal, derlenmemiş, dağıtık, vb. farklı şekillerde indekslenerek depolanmış/ arşivlenmiş bir ham algı yığını olarak düşünülebilir.
Anlamlı Bilgi (İng: "information") ise, verinin belirli bir bağlam çerçevesinde kim, ne, nerede, ne zaman sorularıyla beslenen bir amaç için ölçülebilir, görselleştirilebilir ve analiz edilebilir şekilde işlendiği, hatta öncesinde hatalardan temizlenerek derlendiği, tüm bunların bir kural seti içinde gerçekleşebildiği disiplinli girdi bütünü olarak düşünülebilir.
Yararlı Bilgi (İng: "knowledge") ise, anlamlı bilginin nasıl sorusuna karşılık olarak amaç temelinde ve bağlam dahilinde diğer bilgi parçalarıyla ilişkisini ve bütünlüğünü ortaya koyan, katma değeri artırılmış girdi bütünü olarak düşünülebilir.
Son olarak, uygulanmış veri (İng: "wisdom") bizleri neden sorusunun karşılığına değer üretme sürecinin uygulamaya yansıyarak birşeyi neden yapmamız gerektiği ya da yapılması gereken en iyi şeyin ne olduğu cevaplarını bulmamız, bilginin değerini erdem ve bilgelik seviyesine yükseltmemizi sağlayan bir girdi bütünüdür.
Aslında maddi destek istememizin nedeni çok basit: Çünkü Evrim Ağacı, bizim tek mesleğimiz, tek gelir kaynağımız. Birçoklarının aksine bizler, sosyal medyada gördüğünüz makale ve videolarımızı hobi olarak, mesleğimizden arta kalan zamanlarda yapmıyoruz. Dolayısıyla bu işi sürdürebilmek için gelir elde etmemiz gerekiyor.
Bunda elbette ki hiçbir sakınca yok; kimin, ne şartlar altında yayın yapmayı seçtiği büyük oranda bir tercih meselesi. Ne var ki biz, eğer ana mesleklerimizi icra edecek olursak (yani kendi mesleğimiz doğrultusunda bir iş sahibi olursak) Evrim Ağacı'na zaman ayıramayacağımızı, ayakta tutamayacağımızı biliyoruz. Çünkü az sonra detaylarını vereceğimiz üzere, Evrim Ağacı sosyal medyada denk geldiğiniz makale ve videolardan çok daha büyük, kapsamlı ve aşırı zaman alan bir bilim platformu projesi. Bu nedenle bizler, meslek olarak Evrim Ağacı'nı seçtik.
Eğer hem Evrim Ağacı'ndan hayatımızı idame ettirecek, mesleklerimizi bırakmayı en azından kısmen meşrulaştıracak ve mantıklı kılacak kadar bir gelir kaynağı elde edemezsek, mecburen Evrim Ağacı'nı bırakıp, kendi mesleklerimize döneceğiz. Ama bunu istemiyoruz ve bu nedenle didiniyoruz.
"Fast Information": İnternetin Veri Akışındaki Rolü
Dış dünyadan sürekli bilgi alıyoruz. İnternet, bilgiyi herkesle paylaşmak, bilgiyi herkesten almak için en temel altyapı/ kanal olarak kullanılıyor. Gerçek dünyanın sayısal ikizi olma yolunda ilerleyen bu sistemle bağlantıda kalmak için en temelde akıllı saatler, cep telefonları gibi taşınabilir bilgi sayma, işleme makineleri de bu sisteme bağlanıp bilgiyi özümsememiz için en kolay erişim gereçleri olarak 7/24 yanı başımızda duruyor. İnsanı şekillendiren bilginin hazır, hap şeklinde tüketilebildiği, “fastfood” misali “fast information”, anlık bilgi tatmin makinesinden beslenmek hepimize daha kolay geliyor. Daha doğrusu beynimiz ve ruhumuz da bu şekilde zahmetsiz bir tek tuş hikayesini gün be gün daha çok özümsüyor.
İnternet denen bu uçsuz bucaksız, çarpan etkili büyük sistemde veri ve bilgi üreten, depolayan, yayınlayan, bilginin dolaşımını ve yaygınlaşmasını sağlayan milyonlarca alt sistem var. Tüm sosyal medya platformları, e-posta servisleri, kurum ve kuruluşların kar amaçlı/sız siteleri ve kişisel sitelerin oluşurduğu 2 milyar civarında aktif yayın platformuna 4,2 milyar kullanıcının ve 50 milyar cihazın bağlandığı bir sistemde yaklaşık 45 zetabayt (2020 sonu itibariyle; 1 ZB = 10247 = 1021 bayt) büyüklüğünde bir veri/bilgi dünyasından söz ediyoruz.
İnternet veri ve bilgi dünyası bu kadar büyüyüp genişlemiş ve Endüstri 5.0 gibi yeni kavramlarla artık makinelerin de doğrudan insanlarla etkileşimde olabileceği yeni bir uzaya ve Toplum 5.0 düzenine girmeye hazırlanıyor iken, dikensiz gül bahçesi olur mu? Elbette mümkün değil - ki bugün kurumlar ve kişiler çok şekilde siber saldırılara maruz kalıyorlar. Virüsler, solucanlar, truva atları, arka kapı uygulamaları, oltalama e-postaları, vb farklı yöntemler kişisel verilerimiz, banka hesabımız, kişisel sosyal medya hesaplarımız çalınmaya, bilgisayarlarımız kontrol edilmeye ve özel hayatımız dahil, gerçek hayatımıza zarar verilmeye çalışılıyor. Tüm bunlara artık gördüklerimiz ve işittiklerimiz üzerinden bizleri kandırmaya çalışan yeni bir siber güvenlik tehlikesi katılıyor ve bu tehlikeyi “DeepFake” kavramı altında inceleyebiliriz.
Tüm bu bilgi zincirinden neden bahsettik? Şu nedenle: DeepFake kavramı, tam da zincirin en başında, veri katmanında, tüm bilgi bütününü oluşturacak en alttaki yapı taşlarında oynayabilme, değişiklik yapabilme, gerçeği saptırabilme, algılarla oynayabilme imkanını verebilen, gördüklerimizi ve duydularımıza sorgulamamıza neden olabilecek, kitle iletişim yönetimi ve kişisel internet haklarında paradigma değişikliğine gidilmesi, yeni kurallar ve süreçlerin oluşturulmasını gerektirecek kadar etkin olabilecek bir teknoloji yansımasıdır.
DeepFake Nedir?
“DeepFake” kavramın ham tercümesi “derin sahte” gibi bir karşılık gelir. Çok şık durmakta mıdır? Bize göre şimdilik hayır - ki daha iyi bir Türkçe karşılık bulunana kadar bu yazının geri kalanında bu kavramın duyulduğu 2017’den bu yana kullanılan ifadeyi, DeepFake harf dizilimini tercih edeceğiz...
Peki “DeepFake” bir nevi gökten zembille inmiş bir olgu mudur? Elbette hayır; 2000’li yıllarda ve takribi yirmi yıllık bir süreçte "nesne tanıma" (İng: "Image Recognition") ve "bilgisayar görüsü" (İng: "Computer Vision") kavramları genelinde ve "yüz tanıma" (İng: "Face Recognition") kavramı özelinde toplayabileceğimiz, yıllara dayalı büyük bir akademik ve bilimsel literatür temelinde, derin öğrenme ve yapay zeka ağlarının otokodlayıcı mimarilerle bütünleştiği kesişim noktasında çoklu ortam sentetik içerik üretimi teknolojilerine yapay zeka bileşenin de katıldığı bir teknoloji devriminin gerçek hayata ilk yansımalarından birisi DeepFake uygulamalarıdır.
DeepFake ile işitsel ve görsel algılanabilir çoklu ortam (İng: "media") içeriklerinin orijinal kopyalarının sentetik veri üretimi ile değiştirilmesi, orijinal içerikte olmayan verilerin üretilip çoklanarak orijinal veriyle bütünleştirilmesi sonucu gerçek olmayan, kurgu, sahte görüntü ve ses dosyalarının üretilmesi mümkündür. DeepFake genel olarak, kişinin yüz, ses, vücut ve uzuvlarının yapay zeka temelli ses ve görüntü işleme teknolojileri ile yeniden modellenerek kişinin yer aldığı, orijinal olmayan ve gerçek türevi ses ve görüntü kayıtları oluşturma temelli çoklu ortam sentetik içerik üretimi teknolojisinin bir yansıması, uygulama örnekleri olarak nitelendirilebilir.
DeepFake'in ne olduğu ve nasıl çalıştığı ile ilgili daha basit (ve giriş düzeyindeki) bir yazımızı buradan okuyabilirsiniz.
DeepFake: Derin Sahtekarlık!
DeepFake dediğimiz kavramın ham tercümesi "derin sahte" çok mu anlamsızdır? Aslında hayır - ki buradaki "deep", yani “derin” nitelemesi ile yapay zeka genelinde ve “derin öğrenme” temelinde "yapay sinir ağları" (İng: "artificial neural networks") ile inşa edilen algoritmalardan istifade edilmesi söz konusudur.
Diğer tarafta, "fake", yani "sahte" nitelemesi ise algoritmalardan hareketle, gerçek verilerin istatistiksel bileşenleri çoğaltma temelinde veri çoklama (İng: "data augmentation") odaklı "sentetik veri" (İng: "synthetic data") girdisinden beslenen "oto kodlayıcı" (İng: "autoencoder") uygulama mimarisinin kullanımıyla gerçek çoklu ortam (media) unsurlarındaki veri bloklarından referansla gerçek olmayan veri blokları üreterek sahte, kurgu, yapay görsel ve işitsel bilgi içerikleri üretecek şekilde bir çalışmadan söz edilebiliriz.
İşin Özü: Herkes Tehlike Altında!
Çok fazla terimle herşey çorba olmaya mı başladı? Biraz daha kestirmeden ve temel bir dille şöyle diyebiliriz: DeepFake ile sizin görüntünüzün, sesinizin ve hatta tüm bedeninizin yer aldığı bir video ya da birden fazla resmi alıp, matematik ve istatistik marifetiyle geliştirilmiş algoritmalar üzerinden ve oto kodlayıcı temelli uygulamalar ile sizi bir kukla gibi kullanarak istediğimiz cümleleri söyletebilir, yüz kaslarınızı, gözleriniz, kaşlarınız, dudaklarınızı, başınızı ve vücuduzunu istediğimiz gibi hareket ettirip bunun üzerinden istediğimiz video ya da ses kaydını üretmek üzere sizin adınıza istediğimiz internet platformunda yayınlayabilir, açıklamada bulunabilir, çalıştığınız bankanın IVR sistemine talimat verebilir, müşteri temsilciniz ile görüşebilir, WhatsApp, Skype görüntülü aramaları üzerinde aileniz ve sevdiklerinizle “siz”mişiz gibi görüşebiliriz.
Bunu yapmak için sadece birkaç fotoğrafınız bile yeterli olabilir; ancak tercihen birkaç yüz fotoğraf daha da gerçekçi sonuçlar elde etmemizi sağlar. Modern çağda her şeyini internetten paylaşan insanlar düşünülecek olursa, bir kişiye ait bu sayıda fotoğraf bulmak birkaç dakikalık iştir. Bu fotoğraflar ne kadar yüksek çözünürlükte olursa ve ne kadar çok farklı açılardan çekildiyse, sizi taklit etme başarımız da o kadar yüksek olacaktır. Ancak nihayetinde sizin dijital bir kopyanızı yapay zeka algoritmaları sayesinde yaratmamız mümkün olmaktadır.
Burada bizim sizin adınıza ne söyleyeceğimiz belli olmamak üzere, internet üzerinden tüm profiliniz ve bilgileriniz saatler içinde hiç istemeyeceğiniz şekilde tüm tanıdıklarınıza ve tanımadıklarınıza yayınlanmak ve tüm kişisel verileriniz el değiştirmek üzere ertesi sabah gerçek hayatta yepyeni ve çok zor bir güne başlayabilirsiniz.
İhtiyacımız olan veri ise nispeten çok düşük ki sosyal medya hesaplarındaki fotoğraflarınız, yayınladığınız bilumum videolar (yüksek çözünürlük videolar çok daha iyi; her bir kareden çok farklı açılar ve ışıkta NN tane görsel karenizi üretebiliriz), kaydedilen telefon konuşmaları da (4G/5G, gürültü engelleme, vb. teknolojiler eksik olmaksın, artık kristal netlikte, 256/512 Kpbs genişlikte kayıtlar elde edebilmekteyiz) gibi ses ve görüntünüzü alabileceğimiz tüm veri girdileri uygundur. Hele ki sosyal mühendislik ve oltalama ile sosyal medya hesaplarınıza erişim bilgilerinizi alabilirsek, o zaman işimiz daha da hızlı tamamlanabilir.
Bu cümlelerde “biz” öznesini kullandığımıza bakmayın. bunu hiç görmeyeceğiniz bir bilgisayar korsanı ya da salt ego tatmini için size zarar vermek isteyen bir şahıs çok uzak diyarlardan gerçekleştirebilir.
Durum Ne Kadar Vahim?
DeepFake uygulamalarının kötü amaçlı kullamının yaygınlaşması açısından insanlık yukarıdaki korku senaryosunda belirtildiği kadar, sade vatandaşa indirgenmiş kadar trajik bir durumda mıdır? Şu an için "hayır" diyebiliriz; fakat bunun ne kadar süreciği belirsizdir.
Öngörümüz, birkaç yıl içinde kişiselleştirilmiş, seri üretim DeepFake videoların ve takiben ses kayıtlarının üretilebileceği yönündedir - ki bu da bizi, siber güvenlik açısından hem toplumsal hem de kişisel saldırıların artık veriye yönelik değil, doğrudan toplumun bütünlüğü ve kişinin haklarına yönelik olabileceği yeni bir tehdit çağını taşıyabilir.
DeepFake ile Yüz ve Ses Manipülasyonu
Şimdi bu gelişim çizgisinden biraz daha söz ederek üç yeni kavramdan daha bahsedelim: Yüz Değiştirme (İng: "Face Swap"), Yüz Yönetimi (İng: "Face Manipulation") ve Ses Klonlama (İng: "Audio Cloning")...
DeepFake teknolojisi henüz daha çok akademik ve bilimsel literatürde, mühendislik uygulamaları ve örnek çalışmalar olarak gelişim göstermekte, günümüzdeki erken dönem "orijinal" ve "gerçek" olmayan videolar ise ilgi araştırma ekiplerinin ilgi akademik çalışmanın çıktıları olarak sosyal medya sayfalarında ve kod paylaşım sitelerinde ve akademik makale yayın sitelerinde yayınlanmaktadır. Bunun dışında, grafik animasyon profesyonelleri kendi kişisel çalışmalarını yine sosyal medya ortamlarında yayınlamakta, büyük teknoloji şirketleri bu alandaki Ar-Ge çıktılarını basın bültenlerine konu olacak şekilde duyurmaktadır. Ancak halen ortalama bir bilgisayar okur yazarlığı olan standart bir internet kullanıcısının yararlanabileceği seviyede, standart, ticarileşmiş, kolaylıklar edinilebilen ve herkesin DeepFake üretmek üzere çalışabileceği serbest dağıtılan, hazır paket programları yoktur.
Şu anki kamuya açık platformda derlenmiş .exe seviyesinde paketlerine ya da kodlarına ulaşılabilen DeepFake uygulamaları ise daha çok "yüz değiştirme" olarak bilinen, kişinin yüzünün gerçekte yer almadığı bir video çekimine, ortama eklenmesi esasındaki çıktılardır. İki görüntü arasındaki renk, ışık, açı, yansıma, vb. çoklu parametrik uyumsuzluktan ötürü bu gibi uygulamalardaki görüntüler halen insan gözü ile ayırt edilebilir, yüksek çözünürlükte olamayan, bundan birkaç yıl sonraki olası çıktılara görece amatör olan ve inandırıcı olmayan, ancak eğlencelik sosyal medya paylaşımında gülücüklere konu olan veyahut müstehcen sitelerde insanların dürtülerini geçici olarak tatmin etmek üzere, kadın sinema yıldızlarının görsellerinin uygunsuz sahnelerdeki yüzlere yerleştirilmeye çalışıldığı "popüler kültür" uygulamalarıdır.
Ancak işin bir sonraki aşaması daha vahim ve tehlikeli olarak yavaştan şekillenmektedir. DeepFake uygulamalarında "yüz yönetimi/hilesi/yönlendirmesi" (İng: "Face Manipulation") tekniği sayesinde, orijinal kişinin gözleri, kaşları, dudakları dahil olmak üzere, 60 adet yüz kasının kontrol edilebilmesine yönelik çalışmalar devam etmekte, bu çalışmalarının kod blokları 2019 yılı sonunda ilgi araştırmalar çerçevesinde kamuya açık yazılım geliştirme platformlarında da paylaşılmaya başlayacaktır. Şu anki "amatör" DeepFake uygulamalarının yüz değiştirme yerine yüz yönetimi seviyesine çıkabileceği önümüzdeki birkaç yıllık süreçte DeepFake'in artık bir “şaka” değil sahtenin temelli “gerçek” olması yolunda, görsel çıktı üretiminde kaliteyi yükseltecektir.
Görüntü işlemedeki bu atılıma "ses çoğaltma" (İng: "Audio Cloning") ile "ses" sentezlemenin de eşlik etmesi gerekmektedir - ki şu ana kadarki çalışmaların olgunluğuna baktığımızda "ses" halen görece geride kalmakta ve ses sentezi daha çok İngilizcede daha iyi bir seviyede olduğunu, diğer dillerde çok geride ve temel seviye kaldığını görüyoruz. Bununla birlikte, 2020 yılı sonunda ses çoğaltma alanında da ilk araştırma sonuçları ve kod bloklarının kamuya açık yazılım geliştirme platformlarında da paylaşılmasıyla birlikte ses sorunun da İngilizce ile başlamak ve diğer dillere uyarlanmak üzere çözümlenmeye başlayacağını öngörüyoruz.
“DeepFake” ile Neler Yapılabilir?
Aslında işe kaynağından ve en temele müdahale edilmesi üzerine uğraşılıyor. Bizi “insan” yapan temel bileşenlerden "beyin" ve dış dünya algımızı sağlayan duyularımızı düşündüğümüzde günümüz dünyasında zevkle tüketilen internet kaynaklı video, fotoğraf, film gibi görsel ve işitsel bilgi bütünlerinin veri bütünlüğü ve yapısıyla oynanmak, değiştirilmek üzere görsel ve işitsel duyularımız tarafından yanlış, hatalı, eksik algılamasına, orijinalinden farklı, gerçek dışı bilginin üretilerek görsel ve işitsel olarak beynimiz tarafından gerçek/ orijinal gibi algılanmasına imkan veren bir teknoloji ve buna bağlı bir sektör geliştirilebilir. Bu sektör, toplumların gerçek dışı haberlerle panik ve huzursuzluk yaşamasından insanların kişilik haklarının ihlali ve internet ortamındaki rencidenin gerçek hayatı baltalamasına kadar, yeni nesil siber savaş uygulamalarından insan hakları ihlallerine kadar, geniş bir frekansta çıktılar ve uygulamalar üretebilir.
Çoklu ortam sentetik içerik üretimi teknolojisi temelli DeepFake uygulamaları ile neler yapılabileceğine yönelik olarak, mevcut küresel yansımalarını şu an devlet liderleri ve politikacıların hiç söylemeyecekleri cümleleri sarf ettikleri, sinema yıldızlarının yüzlerinin hiç oynamadıkları sahnelere eklendiği videolarda görebiliyoruz.
Yalan haber, uygunsuz videolar, hatalı/ eksik basın demeçleri, vb. gibi kamuya yanlış bilgilendirme ve yönlendirmelerinin getireceği toplumsal riskin büyüklüğü özellikle 2020 yılında başkanlık seçimlerine gidecek olan ABD'de Temsilciler Meclisi dahil olmak üzere, ABD kamu otoriteleri tarafından değerlendirilmekte, önleyici çözümler aranmakta ve bu kapsamda Microsoft, Amazon, Facebook gibi küresel teknoloji şirketleri tarafından DeepFake tespit araçları geliştirilmesine yönelik ödüllü yarışmalar dahi düzenlenerek çözüm geliştirmede hızlandırıcı yöntemlere gidilmektedir.
Konu sadece sivil toplum açısından değil, askeri alanda ve siber savaş olgusu olarak da kendisine yer buluyor - ki ABD askeri araştırmalar ve Ar-Ge kurumu DARPA, 2016-2017 döneminde DeepFake tespit teknolojilerinin geliştirilebilmesi için 68 milyon dolar harcadı.
DeepFake uygulamaları ile şu anki “amatör” seviyemizde dahi neler yapılabildiğini görmek için sosyal paylaşım platformlarında “DeepFake” yazıp sonuçları izlememiz yapılabileceklere dair fikir edinmek için yeterli olabilir. Gerçek hayattaki kişilerin görüntülerinden yüz bileşenlerini derlemek üzere gerçek hayatta var olmayan bir yüzün tasarlanması ve ses eklemek üzere sanki canlı bir kişi gibi video görüntüsünün kaydedilmesi mümkündür.
Gerçek bir insanın farklı açılardan ve sadece 16 adet özçekim görüntüsünü alıp yüz ifadelerini kontrol edebildiğiniz ve gerçek insan yüzünü bir kukla gibi kullanıp istediğiniz metinlerden dahi metinden sese çevrimlerle videoya kaydedilmiş açıklamalar yapmasını sağlayabilirsiniz.
Daha ileri gidip, sadece Da Vinci nin Mona Lisa tablosundaki çizimden hareketle, kişinin gözleri, dudakları ve kaşlarının hareket ettirilebildiği "yaşayan resimler" dahi üretebilirsiniz.
DeepFake ile, bir adım ötesinde neyi mi konuşabiliriz? Sadece gerçek insan yüzünün temsili benzetimi üzerinden yüz ifadeleri kontrol edilerek ve ses kopyalama ile taklit edilmesine ilaveten vücut ve uzuvlarının hareketlerinin de bir ikinci şahsın hareketlerine göre şekillendirildiği, bu sayede kişilerin fiziksel faaliyetlerinin de sanki o kişiler gerçekleştiriyormuş gibi, o kişilerin vücutlarının yer aldığı ve fakat başka kişilerin hareketlerinin uyarlandığı videolar ve resimler de üretebilirsiniz.
Gerçeğin büküldüğü ve gerçekte sanalın algıda gerçek olduğu, herkesin özgürce ve mükemmel dans ettiği videoları birbiriyle paylaştığı, ilginç bir dünyaya hoş geldiniz; daha doğrusu kapı eşiğinde duruyorsunuz. Hazırlıklı olun!
DeepFake Kötü Bir Şey mi?
Aslında DeepFake dediğimiz kavram bir doğaçlama, teknolojik imkanların insan güdüleriyle birleşiminin bir yansıması ve alışılageldik bir senaryo ile, akademik ve bilimsel araştırmalara konu olan bir teknolojinin önce bir kişinin ve sonra birden fazla kişinin yetenekleriyle ilk başta eğlence amaçlı ve bir yenilik olarak teknoloji/ yazılım forumlarında ilk örnekleri görülmeye başlanan bir uygulamadır. Ancak temelde konu aldığı kişiyi küçük düşürücü ve aşağılayıcı görüntüler ve genel ahlak kurallarına uygun olmayan sahnelerde de kullanıldığı durumda kötü amaçlı kullanımlara da imkan veren bir yapay zeka teknolojisidir.
Bu teknoloji kişinin bilgisi, iradesi, izni ve kişilik hakları ihlal edilmek üzere, kötü amaçlı ve kişiyi rencide etme, kişiye maddi-manevi zarar verme amacıyla gerçekleşmekte ise "yapay zeka temelli kişisel veri sahteciliği" olarak da nitelendirilebilir ve hatta kişinin yüz, ses, vücut ve uzuvlarının kişinin rızası olmadan sayısız video görüntülerinde sentezlenmek üzere kullanılması da aslında sayısal ortam ve internet dünyasında da olsa insan haklarının bir ihlal olarak da düşünülebilir.
Bu durumda tekrar soralım: DeepFake kötü bir şey mi? Teknoloji mutlak veya içsel olarak kötü değildir; insan tarafından kötü amaçlı kullanılabilir. DeepFake uygulamaları, yapay zeka temelli çoklu ortam sentetik içerik üretimi teknolojilerinin bir yansımasıdır. Bu teknolojilere dair bilimsel birikim ve arkasındaki akademik araştırmalar ve uygulamalar düşünüldüğünde gelecekte sinema sektörü ve kişisel eğlence sektöründe çığır açacak bir teknoloji doğmaktadır.
Öyle ki, kendi görüntünüz ve sesinizin yer aldığı profil bilgilerinizle herhangi bir sinema filminin baş kahramını olabilmeniz, yıllar ve hatta yüzyıllar önce vefat etmiş sanatçılar, yazarlar, kaşifler, vb. görüntüsü ve sesi/ seslendirmesi ile kendi ağızlarından eserlerini dinleyebilmek, çok pahalı, çok uzmanlık gerektiren film efektleri ve canlandırmalarının çok daha düşük maliyetlerle ve çok daha yoğun uygulanabilmesi gibi farklı uygulama alanları şekillenebilecektir.
Ancak “DeepFake” olarak adlandırılmış, ilk başta kişiler arası eğlencelik içerikler olarak şekillense de zaman içinde müstehcen ve ahlaka aykırı içeriklerin üretilmesini de beraberinde getirmiş uygulama örnekleri sahte içerikleri orijinal görüntü-ses olarak kitlelere sunduğu ve kişilik haklarına zarar verdiği sürece yapay zeka temelli kişisel veri sahteciliği konusu kötü amaçlı çalışmalardır.
DeepFake Nasıl Oluşturulur?
Bu kısımda sizi çok yormadan, statik resim görsellerinden yüzleri değiştirme temalı bir aktarım ile genel bir teknik görüş vermeye çalışacağız.
Günümüzde ve ulaşılabilen iki yaygın uygulama vardır: FakeApp ve FaceSwap. Yüz değiştirme temelli uygulamaların çalışma yapısında üç aşama vardır:
- "Çıkarma, ayıklama" (İng: "Extraction")
- "Eğitme" (İng: "Training")
- Oluşturma/Yaratma (İng: "Creation")
Ayıklama Aşaması
Bir derin öğrenme sürecinde eğitim öncesinde çok yüksek miktarda (yüzlerce, hatta binlerce) veriye ihtiyaç duyulabilir. Bu nedenle ayıklama aşamasında yüzlerini değiştirmek istediğiniz insanların internet üzerinden resimleri değil ama videolarını bulmaya çalışırsınız. Videolar, aslında saniyede 23-25 kare fotoğraf barındıran görsel akışlardır. Bu videoları, binlerce resim görüntüsü içeren parçacıklara bölümlendirmek, bu bölümlerde yüzleri tanımak ve hizalamak işlemleri ayıklama aşaması içindedir. Bir nevi, eğitimden önce ders materyalleri hazırlanır. Bu aşamada hizalama kritiktir - ki tüm görüntülerin aynı piksel büyüklüklerinde ve açıda olması yapay sinir ağının derin öğrenmesi için esastır.
Eğitme Aşaması
Eğitme aşamasında yapay sinir ağının bir resim görüntüsünü diğerine dönüştürmesi için gerekli eğitme aşamasının belki de saatlerce sürmek üzere ve fakat sadece bir kez yapılacak şekilde tamamlanması gerekir. Eğitim aşaması sonrası sinir ağının A kişisinin mutlu yüzünü alıp B kişisinin üzgün yüzü ile ifade değişikliği yapmak üzere değiştirmesi mümkün olabilecektir.
Eğitme aşamasında yapay sinir ağı ve otokodlayıcılar arası ilişkiden ve buradaki teknolojiden biraz daha söz edeceğiz ama önce temel işlemi tamamlayalım.
Yaratma Aşaması
Eğitim sırasında kişi A ve kişi B için mutlu ve üzgün yeniden yapılandırmalarının öğretilmesini takiben, Yaratma aşamasında B kişisinin öğrenilmiş ve yeniden yapılandırılmış “mutlu” yüzü alınarak A kişisinin mutlu yüzü ile değiştirilir ve dönüştürülmüş yüz orijinal fotoğraftaki açı ve konumlandırma ile yeniden orijinal açısına yerleştirilir.
Yaratma aşaması, makine öğrenmesi ve sinir ağlarının kullanılmadığı, algoritmanın doğrudan satır kodlamaları üzerinden yeni yüzü hizalamaya çalıştığı ve hataların görüntü karesi bazında tespit edilemediği, ayrıca her bir karenin aralarında bir bağıntı olmaksızın, bağımsız işlendiği, bu nedenle eşlenen yüzler arası renk ve ton farklılıkları uygulamada düzeltilse bile video görüntü akışında titremelerin olabildiği ve birçok DeepFake uygulamasının da son aşamada başarısız olduğu, görece hassas ve kontrol dışı bir işlemdir.
Yapay Sinir Ağları
“DeepFake nasıl oluşturulur?” sorusuna temel bir cevap sonrası DeepFake temelindeki teknolojilere, biraz değinmemiz isabet olur. İlk olarak, yapay sinir ağları ile başlayalım...
Beyindeki nöronların bilgiyi işleme ve transfer etme amaçlı ağ yapısından esinlenmek üzere, yapay sinir ağları da "düğüm" (İng: "Node") denen, birbirlerine özel tasarımlarla bağlantılandırılmış yapay nöronlardan oluşur. Düğümler katman yapıları üzerinde düzenlenmiştir ve düğümler arası bağlar, yapay sinir ağının yapısını ve veri işleme performansını da belirler. İlk katman, girdi katmanı olmak üzere, buradaki düğümlerin temel görevi dış dünyadan gelen veriyi/sinyali almak ve bir sonraki gizli katmanda, kendisiyle bağlantıda olan tüm düğümlere yayınlamaktır.
Bir yapay sinir ağında birden fazla gizli katman olabilir. Her katmandaki her bir düğüm, kendisine önceki katmandaki diğer tüm düğümlerden gönderilen verilere göre hesaplama yapıp, bir sonraki katmandaki bağlantıda olduğu düğümlere yayınlar. En son gizli katmandaki düğümler tüm hesaplanmış verileri son katmanda, çıktı katmanındaki bir ya da daha fazla düğüme yayınlar. Çıktı katmanında birden fazla değer/cevap verilebilir - ki her bir ÇIKTI katmanı düğümü bir tek sonuç verir.
Örneğin birden fazla özelliği sayısallaştırılabilecek tek bir kavramın (mesela "hava durumu"nun) özelliklerindeki değişime göre bir sonraki halini (örneğin "Yarın hava nasıl olacak?") hesaplamak için girdi katmanındaki her bir düğüm, varılmak istenen sonuca dair bir özelliği, parametreyi (nem, sıcaklık, rüzgar hızı, basınç, vb.) sayısal bir değer olarak üzerinde kodlar; bir sonraki katmanda bağlantılı olduğu diğer düğümlere bu değeri yayınlar. Her bir düğüm, kendisine iletilen tüm değerleri belirlenmiş ağırlık katsayıları ile çarpar, birbirleriyle toplar ve sahip olduğu aktivasyon fonksiyonuna (bu fonksiyonlar ReLU, Tanh, Sigmoid, Doğrusal gibi fonksiyonlar olabilirler) göre yeni bir değer üreterek bir sonraki katmandaki bağlantılı olduğu diğer düğümlere yayınlar.
Tüm katmanlar arası geçişleri takiben çıktı katmanında tek bir düğümden tek bir statüye (örneğin "yağmurlu olması olasılığı") dair hesaplama alınabilir. Girdi katmanın verilen sinyallerin/ değerlerin sayısına bağlı olarak ara katmanlardaki düğüm sayısı ve ilişki karmaşıklığının artması, çıktı katmanında ise birden fazla düğümde birden fazla değerin sonuçlandırılması mümkündür.
Örneğin bu örnekte, düğüm X0X_0, kendisine bağlanan tüm girdi düğümlerindeki değerleri, aradaki bağlantının gücünü gösteren ağırlık katsayısı ile çarpmak ve 11 sabit değeri ile kendi bb ağırlığına sahip bir önyargı değeri eklemek üzere, Y0Y_0'a yayınlacağı değeri bir aktivasyon fonksiyonu ile birlikte hesaplar ve süreç tüm katmanlardaki tüm düğümler arası ilişkiler boyunca ve çıktı katmanında sonuç düğümlerindeki son hesaplamaya kadar devam eder.
Bir ağırlık, bir önceki düğümden gelen hesaplanmış değerin mevcut düğümdeki hesaplamada ne kadar etkili olacağını belirler. Bir sinir ağının eğitilmesi ise temel olarak düğümler arasındaki bağlantının gücünü gösteren ağırlıkların sinir ağının performansını yükseltecek ve hatadan arındıracak şekilde yeniden ayarlanması şeklinde gerçekleşir. Bu ayar, "geriye yayılım" (İng: "back propagation") denilen bir hesaplama yöntemi ile kayıp fonksiyonu ve hata değeri üzerinden gerçekleştirilir.
Yüz tanıma ve görüntü oluşturmanın ardındaki temel fikir, her katmanın aşamalı olarak temel karmaşık özellikleri temsil edeceğidir. Örneğin, bir yüz durumunda, birinci katman kenarları, ikinci katman yüzün özelliklerini ve üçüncü katman yüz görüntüsünü algılamak için kullanılabilir.
Bu süreci biraz daha irdelemek ve anlamak isterseniz TensorFlow Playground uygulamasını incelemenizi ve parametrelerle oynayarak bazı denemeler yapmanızı önerebiliriz.
OtoKodlayıcılar
Yapay sinir ağlarının arkadasındaki temel yaklaşıma bir girizgah sonrası, bu ağların daha etkin ve öğrenen yapıda çalışmasını sağlayan bir ağ yapı türünü tanımak üzere yolumuza devam edelim...
"Otokodlayıcılar" (İng: "Autoencoders") özel bir yapay sinir ağı türü olmak üzere, temel olarak girdi-çıktı katmanları arasındaki transferde gizli katmandaki düğümlerin asgari sayıda olduğu, bu amaçla gizli katmanlardaki düğümlerin GİRDİ ve ÇIKTI katmanlarındakilerle bire bir eşlenmediği ve daha az olduğu bir model yapılanır. Otokodlayıcılar, sınıflandırma, kümeleme ve özellik sıkıştırma için kullanılır.
Buradaki amaç her bir girdi düğümüne karşılık her bir gizli katmanda bir düğüm vermek üzere çoklu bağlantılar üzerinden sadece "ileri besleme" (İng: "Feed Forwarding") ile işlenmiş veri transferi neticesinde bir "denetimli öğrenme" (İng: "Supervised Learning") ile sonuca gitmek değildir. Bunu gizli katmanlardaki hesaplamalarda asgari sayıda düğüm üzerinden gerçekleştirebilmektir - ki bu da hız ve verimliliği getirir.
Burada girdi-çıktı katmanlarındaki düğümler eş sayıda iken, gizli katmanlardaki hesaplayıcıların daha az sayıda olması; fakat girdi-çıktı eşlemesini en yüksek seviyede vermek zorunda olmaları, otokodlayıcıların ileri beslemeli denetimli öğrenme yerine veriyi genelleştirmeye ve ortak kalıplar aramaya, hesaplanacak veriyi sıkıştırmaya çalışmasını getirir. Otokodlayıcının girdi gelen veriyi eldeki düğümlere göre sıkıştırması ve çıktı katmanında sunulmadan önce yeniden yapılandırması gerekecektir.
Bu aşamada otokodlayıcı iki ayrı ağ yapısı olarak düşünülebilir: Bir tarafta kodlayıcı diğer tarafta çözücü katmanlar, ortadaki katmanı paylaşımlı kullanmaktadır. Otokodlayıcılar, yapıları gereği veri sıkıştırması nedeniyle, kayıplara maruz kalmaları kaçınılmazdır. Çıktı katmanında girdi verilerini bire bir yeniden yapılandırmaları mümkün değildir. Bunu, aşağıdaki gibi bir görsel örnekte betimleyebiliriz.
Bununla birlikte, otokodlayıcılar girdi görüntülerini mümkün olan en iyi seviyede yeniden oluşturmaya çalışma sürecinde görüntünün en anlamlı, temsili ve işe yarar özelliklerini tanımlamayı öğrenmeleri sayesinde görüntüye gerçek bilgi katmayan ve doğal özelliği olmayan gürültü verilerini yok sayma ve görüntüyü temizleme anlamında iyi iş çıkarabilirler. Bunu, aşağıdaki gibi bir görsel örnekte betimleyebiliriz.
Otokodlayıcı ile DeepFake Üretimi
“DeepFake nasıl oluşturulur?” sorusuna temel cevaplarımızda, bu noktaya kadar temel bir "face swap" uygulamasında ayıklama-eğitim-yaratma aşamalarına dair bir örnekleme yaptık. Şimdi de, DeepFake temelindeki yapay sinir ağlarının oluşum, işleme ve iyileştirilme temel yapısına ve otokodlayıcı tipi yapay sinir ağının temel mimarisi ile işleyiş karakteristiğine göz atmış olduk. Şimdi, tüm bu edinimleri tek potada eritmek üzere, Otokodlayıcı kullanımı ile face swap süreciyle DeepFake üretimine bakalım...
Yukarıdaki çizimde takip edeceğimiz üzere, bir otokodlayıcıda kodlayıcının bir insan yüzü görüntüsü ile beslenmesini takiben, kodlayıcı ile çözümleyici arasında ortak kullanıma esas ara gizli katmanda aynı yüzün düşük boyutsal gösterimi oluşturulur. Bu gösterim, "gizli yüz" (İng: "latent face") ya da "temel vektör" (İng: "Base Vector") olarak isimlendirilir.
Ağ mimarisine bağlı olarak gizli yüz, gerçek bir yüze dahi benzemeyebilir. Yüz, çözümleyiciye aktarıldığında yeniden yapılandırılır ve fakat daha önce söz edildiği üzere, otokodlayıcılarda veri sıkıştırma esasına göre kayıpların kaçınılmazlığından ötürü yüz görüntüsünün orijinal halindeki tüm detaylar yakalanamaz.
Yine, önceki anlatımlarımızdan hatırlanacağı üzere, bir sinir ağının esas öğrenmesi ve bilgisi düğümler arası bağlantılardadır ki bu bağlantıların gücüne göre ağırlıklarının en uygun hale getirilmesi uygulaması otokodlayıcılar için de geçerlidir ve bu sinir ağını eğitme işlemi ne kadar başarılabilirse otokodlayıcının gizli yüzdeki temsili resimden orijinal resimdeki görüntüyü çıktı katmanında verebilmesi de o kadar mümkün hale gelir.
Yüz değiştirme için otokodlayıcıların kullanılması sürecinde, iki ayrı yüz için iki ayrı otokodlayıcının birbirinden bağımsız olarak iki farklı gizli yüz özelinde eğitilmesi, her ikisi de farklı yüz özelliklerini öğrenecekleri için bir değişime imkan veremez. Ancak her iki otokodlayıcıdaki gizli yüzlerin aynı özelliklerle kodlanmasına imkan verecek şekilde, her iki otokodlayıcının da aynı kodlayıcıyı kullanması durumunda, DeepFake farklı iki çözümleyici olsa da Face Swap için otokodlayıcıların eğitilmesini mümkün kılar.
Eğitim aşamasında bu iki farklı otokodlayıcı ağı ayrı ayrı eğitilir. Kişi A için çözümleyici sadece Kişi A yüzü ile eğitilir. Kişi B için çözümleyici sadece Kişi B yüzü ile eğitilir. Ancak tüm gizli yüzler her iki ağda da aynı kodlayıcı ile üretilir. Eğitim tamamlandığında Kişi A'dan üretilen gizli yüz, Kişi B çözümleyicisine transfer edilebilir. Bu noktada Kişi B çözümleyicisi, Kişi A'ya ilişkin bilgi ile Kişi B'yi yeniden yapılandırmaya çalışacaktır. Aynı durum Kişi B'den üretilen gizli yüzün Kişi A çözümleyicisine transfer edilerek, Kişi A çözümleyicisi ile Kişi B'ye ilişkin bilgi kullanılarak Kişi A'nın yeniden yapılandırılmasına çalışılır.
Eğer otokodlayıcı sinir ağı bir yüz görüntüsünün veri genellemesini ve ortak kalıplarını yeterince iyi öğrenebilmişse, gizli yüz aynı zamanda yüz ifadelerini ve yüz yönlendirmelerini de yakalayabilir. Bu da Kişi B için Kişi A'nın aynı yüz ifadesi ve yönlendirmesi ile yeni bir yüz yapılandırılmasını mümkün kılar.
İnsan yüzü örneğinden hareketle verdiğimiz bu temel yüz değiştirme uygulamasını düşündüğümüzde, değiştirmenin mutlak suretle “insan yüzü” şeklinde olmasına gerek yoktur. Burada önemli olan görüntü transferi yapılmak istenen nesneler arası ortak özelliklerin/ kalıpların mümkün olduğunca fazla olmasıdır.
İçeriklerimizin bilimsel gerçekleri doğru bir şekilde yansıtması için en üst düzey çabayı gösteriyoruz. Gözünüze doğru gelmeyen bir şey varsa, mümkünse güvenilir kaynaklarınızla birlikte bize ulaşın!
Bu içeriğimizle ilgili bir sorunuz mu var? Buraya tıklayarak sorabilirsiniz.
Soru & Cevap Platformuna Git- 7
- 5
- 5
- 4
- 2
- 1
- 1
- 1
- 1
- 0
- 0
- 0
Evrim Ağacı'na her ay sadece 1 kahve ısmarlayarak destek olmak ister misiniz?
Şu iki siteden birini kullanarak şimdi destek olabilirsiniz:
kreosus.com/evrimagaci | patreon.com/evrimagaci
Çıktı Bilgisi: Bu sayfa, Evrim Ağacı yazdırma aracı kullanılarak 21/11/2024 17:31:51 tarihinde oluşturulmuştur. Evrim Ağacı'ndaki içeriklerin tamamı, birden fazla editör tarafından, durmaksızın elden geçirilmekte, güncellenmekte ve geliştirilmektedir. Dolayısıyla bu çıktının alındığı tarihten sonra yapılan güncellemeleri görmek ve bu içeriğin en güncel halini okumak için lütfen şu adrese gidiniz: https://evrimagaci.org/s/8088
İçerik Kullanım İzinleri: Evrim Ağacı'ndaki yazılı içerikler orijinallerine hiçbir şekilde dokunulmadığı müddetçe izin alınmaksızın paylaşılabilir, kopyalanabilir, yapıştırılabilir, çoğaltılabilir, basılabilir, dağıtılabilir, yayılabilir, alıntılanabilir. Ancak bu içeriklerin hiçbiri izin alınmaksızın değiştirilemez ve değiştirilmiş halleri Evrim Ağacı'na aitmiş gibi sunulamaz. Benzer şekilde, içeriklerin hiçbiri, söz konusu içeriğin açıkça belirtilmiş yazarlarından ve Evrim Ağacı'ndan başkasına aitmiş gibi sunulamaz. Bu sayfa izin alınmaksızın düzenlenemez, Evrim Ağacı logosu, yazar/editör bilgileri ve içeriğin diğer kısımları izin alınmaksızın değiştirilemez veya kaldırılamaz.