Teorilerin Sonu: Veri Tufanı, Bilimsel Yöntemlere Yepyeni Bir Bakış Açısı Sunuyor!
Teorilerin Sonu: Veri Tufanı, Bilimsel Yöntemlere Yepyeni Bir Bakış Açısı Sunuyor!

Bu yazının içerik özgünlüğü henüz kategorize edilmemiştir. Eğer merak ediyorsanız ve/veya belirtilmesini istiyorsanız, gözden geçirmemiz ve içerik özgünlüğünü belirlememiz için [email protected] üzerinden bize ulaşabilirsiniz.

“Bütün modeller yanlıştır, ama bazıları yararlıdır.” 

30 yıl önce istatistikçi George Box aynen böyle demişti, haklıydı da. Fakat o zamanlar başka seçeneğimiz mi vardı? Sadece modeller ile, kozmolojik denklemlerden tutun da insan davranışlarını açıklayan teorilerle, tam anlamıyla olmasa da belli bir dereceye kadar etrafımızda olup biteni açıklayabiliyorduk. Tabii şimdiye kadar. Günümüzde Google gibi gittikçe büyüyen bir veri okyanusu içinde kurulup gelişen şirketler, tabi ki yanlış modelleri kabul edecek değiller, hatta modelleri kabul etmelerine bile gerek yok artık.

60 sene önce, dijital bilgisayarlar bilginin okunabilmesini sağladı. 20 sene önce, internet o bilgilere ulaşmamızı, 10 sene önce de ilk arama motoru robotları (web crawler, web robot) tek bir veri tabanı oluşturabilmemizi sağladı. Şimdi ise, Petabayt Çağı’nın çocukları olarak adlandırabileceğimiz Google ve benzer düşüncedeki şirketler tarihimizin en çok ölçülen çağını ince eleyip sık dokuyarak bu bilgi okyanusunu insanlığın laboratuvarına dönüştürüyorlar.

Petabayt Çağı diğer dönemlerden farklıdır çünkü fazla demek farklılık demektir. Kilobaytlar disketlerde, megabaytlar disklerde, terabaytlar disk dizilerinde depolanıyordu. Petabaytlar ise “bulutlarda” depolanıyor. Bu gelişim süreci boyunca, klasör analojilerinden dolap analojilerine, oradan kütüphane analojilerine geçtik. Peki petabaytlara gelince ne oldu? Açıkça söylemek gerekirse, analojilerimiz tükendi.

Petabayt ölçeğinde bilgi deyince, bildiğimiz üç veya dört boyutlu sınıflandırmadan (taksonomiden) değil; boyutsal olarak bilinemez istatistiksel bir yapıdan bahsediyoruz. Tamamen farklı bir yöntem bu. Bunun için verinin sınırlarını kaldırmamız gerekiyor, böylece veriyi bütünüyle zihnimizde canlandırabileceğiz. Bu yöntem için ilk önce veriyi matematiksel olarak inceleyebilmemiz, daha sonra da bir bağlam içerisine yerleştirmemiz gerekiyor. Örneğin Google, reklam dünyasını sadece uygulamalı matematik kullanarak fethetti. Reklam kültürü ya da kurallarını bilmeye gerek olmadığını, sadece uygun analitik araçlarla değerlendirilen işe yarar verinin başarıya ulaşacağını düşünmüştü. Haksız da sayılmazdı.

Google’ın kuruluş felsefesini şöyle açıklayabiliriz: Bir internet sayfasının neden diğerinden daha iyi olduğunu bilemeyiz, tıklanma istatistikleri öyle diyorsa, öyledir. Bu kadarı da yeterlidir. Herhangi bir anlamsal analiz ya da neden-sonuç analizi gerekmez. Google’ın, dilleri “bilmeden” çevirebilmesinin altında da bu yatıyor (Eşit veri miktarları kullanıldığında, Klingon dili Farsça diline Fransızcanın Almancaya çevrilebildiği kadar kolay çevrilebiliyor.). Aynı şekilde reklamlar ya da içerikler hakkında bilgi sahibi olmaksızın, bunları birbirleriyle ilişkilendirebilmesinin altında da bu yatıyor.

Google Araştırma Direktörü Peter Norvig, Mart 2008 tarihinde O’Reilly Gelişen Teknoloji Konferansı’nda yaptığı konuşmada, George Box’ın ünlü sözüne şöyle bir eklemede bulundu: “Tüm modeller yanlıştır ve giderek onlarsız da başarabileceğinizi göreceksiniz.”

Uygulamalı matematiğin ve veri okyanusunun kullanılabilecek diğer her aracın yerini aldığı bir dünya bu. Dilbilimden sosyolojiye insan davranışlarını inceleyen bütün bilim dallarının devri geçti. Taksonomiyi, ontolojiyi, psikolojiyi unutun. İnsanların neyi neden yaptığını kim bilebilir? İnsanlar bir şeyler yapar, biz de şimdiye kadar görülmemiş bir doğruluk payı ile yaptıkları şeyleri izleyip ölçebiliriz; bütün mesele budur. Yeterli miktarda veri varsa rakamlar başka söze yer bırakmaz.

Ama şunu bilmeliyiz ki buradaki temel hedef reklamcılık değil, bilimdir. Bilimsel yöntemler, test edilebilir hipotezler üzerine geliştirilir. Bu modeller çoğu zaman bilim insanlarının zihinlerinde canlandırdıkları sistemlerdir. Sonra bu modeller test edilir ve yapılan deneyler dünyanın nasıl işlediği hakkındaki bu teorik modelleri doğrular ya da yanlışlar. Bilim yüzlerce yıldır bu şekilde çalışır.

Bilim insanları, karşılıklı ilişkinin nedensel olmadığını (Correlation is not causation.), sadece X ile Y arasındaki ilişkiye dayanarak hiçbir sonuç çıkarılmaması gerektiğini bilecek şekilde eğitilirler (Aralarındaki ilişki sadece bir tesadüf de olabilir.). Bunun yerine, ikisi arasındaki ilişkinin altında yatan mekanizmaları anlamanız gerekir. Bir modeliniz olduğunda, artık veri kümelerini rahatça birbirleriyle ilişkilendirebilirsiniz. Modeli olmayan veri, tekerleksiz araç gibidir.

Fakat büyük miktarlarda veriyle karşı karşıya kalındığında, bu bilimsel yaklaşım (hipotez çıkarma, modelleme, test etme) geçerliliğini yitiriyor. Fiziğe bakalım mesela: Newton modelleri, hakikate kabataslak yaklaşımlardı (Atomik seviyede yanlıştı, ama yine de işe yarıyorlardı.). Yüz yıl önce istatistik temelli kuantum mekaniği daha iyi bir resim sundu, fakat benzer şekilde o da bir model olduğu için kusursuz değildi, hiç şüphesiz ki gerçeğin altında yatan daha karmaşık bir yapının karikatürü gibiydi. Fiziğin son yıllarda n boyutlu büyük birleşik modeller ile ilgili kuramsal yorumlamalara kayması, hipotezleri yanlışlayacak deneyleri nasıl yapacağımızı bilmediğimizdendir; enerji boyutları çok yüksek, hızlandırıcılar çok pahalı ve daha nice nedenler… Bu yılları veri sıkıntısı yaşayan bir disiplinin “tatlı hikâyeler” anlatan safhası olarak betimleyebiliriz.

Günümüzde, biyoloji de aynı yoldan gitmektedir. Okulda bize tam bir Mendelci süreç dahilinde öğretilen “baskın” ve “çekinik” genler ile ilgili modellerin, gerçeğin Newton yasalarından çok daha büyük ölçüde basitleştirilmiş bir hali olduğu anlaşılmıştır. Gen-protein etkileşimlerinin ve epigenetiğin diğer çalışma alanlarının keşfi, DNA’nın bir yazgı olduğu düşüncesine meydan okudu ve hatta çevre faktörünün kalıtsal özellikleri etkilediğine dair kanıtlar sundu, ki bir zamanlar bunun genetik olarak imkânsız olduğu düşünülüyordu.

Kısacası, biyoloji alanında bilgimiz arttıkça, kendimizi bu alandaki modellerden o kadar uzakta buluyoruz.

Günümüzde daha iyi bir yol var; petabaytlar, “Karşılıklı ilişki yeterlidir.” (ya da "Korelasyon yeterlidir.") dememize olanak sağlıyor. Artık model aramaktan vazgeçebiliriz. Veriyi hipotezler olmadan analiz edebiliriz. Rakamları, dünyanın şimdiye kadar gördüğü en büyük bilgisayar kümelerine göndererek, bilimin bulamayacağı şeyleri istatistiksel algoritmaların bulmasını yattığımız yerden seyredebiliriz.

Buna en iyi uygulamalı örnek, J.Craig Venter’in uzun DNA zincirlerinin dizilemesinde kullanılan dağınık dizileme (shotgun gene sequencing) yöntemidir. Daha sonralarda Venter, yüksek hızlı dizileyiciler ve kendi ürettikleri veriyi istatistiksel olarak analiz edebilen süper bilgisayarlar sayesinde bireysel organizmaların diziliminden tüm ekosistemin dizilimine yöneldi. 2003 yılında, Kaptan James Cook’un izinden giderek okyanusun büyük bölümünün dizilimini çıkarmaya başladı. 2005’te havanın dizilimini çıkarmaya başladı. Bu süreç boyunca Venter, binlerce bilinmeyen bakteri türü ve başka yaşam formları keşfetti.

Eğer “yeni türler keşfetmek” deyince aklınıza Darwin ve ispinozları geliyorsa, eski yöntemlerde kalmış bir bilim insanısınız diyebiliriz. Venter, keşfettiği türler hakkında neredeyse hiçbir şey söyleyemeyebilir. Nasıl göründüklerini, nasıl yaşadıklarını ya da yapıları ile ilgili diğer şeylerin çoğunu bilmez. Hatta bu canlıların genomlarının tümünü de çıkaramamıştır. Bildiği tek şey istatistiksel bir iniş çıkış, kendine özgü bir dizilimdir. Öyle bir dizilim ki bu, veri tabanındaki diğer hiçbir dizilime benzemez; yani yeni bir türü simgeler.

Bu dizilim, hakkında daha fazla şey bildiğimiz türlerin dizilimlerine benzeyebilir, dolayısıyla onları diğer dizilimlerle ilişkilendirebiliriz. Böyle durumlarda Venter bu hayvanlar hakkında bazı tahminlerde bulunabilir, mesela güneş ışınlarını belli bir şekilde enerjiye dönüştürebildiklerini ya da ortak bir atadan gelmiş olabileceklerini. Fakat bunun dışında, Venter’in bu türlerle ilgili modeli, Google’ın sizin MySpace sayfanızla ilgili modelinden daha iyi/farklı değildir. Bütün bunlar sadece veridir. Yine de Venter, Google kalitesindeki hesaplama araçları ile bu verileri analiz ederek, biyoloji bilimini yaşadığı dönemde kimsenin yapamadığı kadar ileri seviyelere taşımıştır.

Bu düşünce biçimi insanlar arasında yaygınlaşıp yerleşik hale gelmek için hazır durumda. 2008’in Şubat ayında Ulusal Bilim Vakfı (National Science Foundation), Küme Keşfi (Cluster Exploratory - CluE) adlı bir proje başlattı. Bu proje, Google ve IBM ile 6 pilot üniversitenin işbirliğiyle geliştirilen büyük ölçekli bir dağıtımlı bilgi işlem platformunda çalışmak üzere tasarımlanan araştırmaya kaynak sağladı. Söz konusu kümede 1600 işlemci, birkaç terabaytlık hafıza (RAM), yüzlerce terabaytlık depolama alanı ve ayrıca IBM’in Tivoli adlı yazılımı, Google Dosya Sistemleri ve MapReduce’un açık kaynak versiyonları gibi yazılımlar da bulunuyor. İlk CluE projelerinde beyin ve sinir sistemi simülasyonları ve ayrıca biyoyazılımla (wetware) yazılımı ilişkilendiren diğer biyolojik araştırmalar bulunuyordu.

Bu ölçekteki bir bilgisayarı kullanmayı öğrenmek biraz zor olabilir, fakat çok büyük bir kapı aralanıyor bize: Çok büyük miktarlarda veriye ulaşabilmemiz ve bu büyüklükteki verilerle istatistiksel araçları kullanarak sayısız hesaplamalar yapabilmemiz, dünyayı tanımamız için yepyeni bir yöntem sunuyor. Karşılıklı ilişkiler yöntemi neden-sonuç ilişkisini tahtından kaldırıyor. Tutarlı modeller ya da birbirini destekleyen teoriler olmadan da bilim yoluna devam edebiliyor. Hatta temelindeki mekanizmaya dair hiçbir açıklama olmadan bile.

Eski yöntemlere sımsıkı sarılmaya ne gerek var! Artık kendimize şunu sormalıyız: Bilim Google’dan neler öğrenebilir?


Evrim Ağacı Yorumu: Her ne kadar bu yazı gereğinden fazla heyecanlı olsa da, insanlığın bilimsel ve teknolojik gelişimine dair çok önemli bir perspektiften yaklaştığı ve alanında çok tartışılan yazılardan biri olduğu için Türkçeye kazandırmakta fayda gördük. Şunu belirtmekte fayda var ki, insanların bilişsel süzgecinden geçirmeksizin, sadece büyük veri ve veri analizi ile sonuçlara varmak çok büyük hatalara neden olabilecektir. Bu yazının yayına alındığı zamanki farkındalıklardan birisi, bunun güzel bir örneğidir: Bütün analistler 8 Kasım 2016 ABD seçimlerinde eldeki verilerin Hillary Clinton'ın kazanacağını gösterdiğini ileri sürmesine rağmen, Clinton'ın rakibi Donald Trump herkesi şaşırtarak seçimlerden zaferle ayrıldı. Dolayısıyla teori olmaksızın veri anlamsız, veri olmaksızın teori boştur diyebiliriz. Muhtemelen Genel Yapay Zeka gibi ileri düzey akıllı sistemlere ulaşana kadar insanlar sürecin vazgeçilmez bir parçası olacaktır ve bilimsel yöntem aynı şekilde işlemeyi sürdürecektir. Ancak büyük verinin bizlere kattıklarını da asla göz ardı etmemek, veri biliminden öğrendiklerimizi modern bilime genelleyerek yöntemlerimizi geliştirmek elzemdir.


Kaynak: Bu yazı Wired sitesinden çevrilmiştir.

Google Translate, Makina Öğrenmesi Sayesinde Artık Başarıyla Türkçe Çevirileri Yapabiliyor!

Bütün Arkadaş Listenizi Evrim Ağacı'na Nasıl Davet Edebilirsiniz?

Yazar

Katkı Sağlayanlar

Konuyla Alakalı İçerikler
  • Anasayfa
  • Gece Modu

Göster

Şifremi unuttum Üyelik Aktivasyonu

Göster

Göster

Şifrenizi mi unuttunuz? Lütfen e-posta adresinizi giriniz. E-posta adresinize şifrenizi sıfırlamak için bir bağlantı gönderilecektir.

Geri dön

Eğer aktivasyon kodunu almadıysanız lütfen e-posta adresinizi giriniz. Üyeliğinizi aktive etmek için e-posta adresinize bir bağlantı gönderilecektir.

Geri dön

Close
Geri Bildirim