Teorilerin Sonu: Veri Tufanı, Bilimsel Yöntemlere Yepyeni Bir Bakış Açısı Sunuyor!
Bütün modeller yanlıştır, ama bazıları yararlıdır.
30 yıl önce istatistikçi George Box aynen böyle demişti, haklıydı da. Fakat o zamanlar başka seçeneğimiz mi vardı? Sadece modeller ile, kozmolojik denklemlerden tutun da insan davranışlarını açıklayan teorilerle, tam anlamıyla olmasa da belli bir dereceye kadar etrafımızda olup biteni açıklayabiliyorduk. Tabii şimdiye kadar. Günümüzde Google gibi gittikçe büyüyen bir veri okyanusu içinde kurulup gelişen şirketler, tabi ki yanlış modelleri kabul edecek değiller, hatta modelleri kabul etmelerine bile gerek yok artık.
60 sene önce, dijital bilgisayarlar bilginin okunabilmesini sağladı. 20 sene önce, internet o bilgilere ulaşmamızı, 10 sene önce de ilk arama motoru robotları (web crawler, web robot) tek bir veri tabanı oluşturabilmemizi sağladı. Şimdi ise, Petabayt Çağı’nın çocukları olarak adlandırabileceğimiz Google ve benzer düşüncedeki şirketler tarihimizin en çok ölçülen çağını ince eleyip sık dokuyarak bu bilgi okyanusunu insanlığın laboratuvarına dönüştürüyorlar.
Petabayt Çağı diğer dönemlerden farklıdır çünkü fazla demek farklılık demektir. Kilobaytlar disketlerde, megabaytlar disklerde, terabaytlar disk dizilerinde depolanıyordu. Petabaytlar ise “bulutlarda” depolanıyor. Bu gelişim süreci boyunca, klasör analojilerinden dolap analojilerine, oradan kütüphane analojilerine geçtik. Peki petabaytlara gelince ne oldu? Açıkça söylemek gerekirse, analojilerimiz tükendi.
Petabayt ölçeğinde bilgi deyince, bildiğimiz üç veya dört boyutlu sınıflandırmadan (taksonomiden) değil; boyutsal olarak bilinemez istatistiksel bir yapıdan bahsediyoruz. Tamamen farklı bir yöntem bu. Bunun için verinin sınırlarını kaldırmamız gerekiyor, böylece veriyi bütünüyle zihnimizde canlandırabileceğiz. Bu yöntem için ilk önce veriyi matematiksel olarak inceleyebilmemiz, daha sonra da bir bağlam içerisine yerleştirmemiz gerekiyor. Örneğin Google, reklam dünyasını sadece uygulamalı matematik kullanarak fethetti. Reklam kültürü ya da kurallarını bilmeye gerek olmadığını, sadece uygun analitik araçlarla değerlendirilen işe yarar verinin başarıya ulaşacağını düşünmüştü. Haksız da sayılmazdı.
Google’ın kuruluş felsefesini şöyle açıklayabiliriz: Bir internet sayfasının neden diğerinden daha iyi olduğunu bilemeyiz, tıklanma istatistikleri öyle diyorsa, öyledir. Bu kadarı da yeterlidir. Herhangi bir anlamsal analiz ya da neden-sonuç analizi gerekmez. Google’ın, dilleri “bilmeden” çevirebilmesinin altında da bu yatıyor (Eşit veri miktarları kullanıldığında, Klingon dili Farsça diline Fransızcanın Almancaya çevrilebildiği kadar kolay çevrilebiliyor.). Aynı şekilde reklamlar ya da içerikler hakkında bilgi sahibi olmaksızın, bunları birbirleriyle ilişkilendirebilmesinin altında da bu yatıyor.
Google Araştırma Direktörü Peter Norvig, Mart 2008 tarihinde O’Reilly Gelişen Teknoloji Konferansında yaptığı konuşmada, George Box’ın ünlü sözüne şöyle bir eklemede bulundu: “Tüm modeller yanlıştır ve giderek onlarsız da başarabileceğinizi göreceksiniz.”
Uygulamalı matematiğin ve veri okyanusunun kullanılabilecek diğer her aracın yerini aldığı bir dünya bu. Dil bilimden sosyolojiye insan davranışlarını inceleyen bütün bilim dallarının devri geçti. Taksonomiyi, ontolojiyi, psikolojiyi unutun. İnsanların neyi neden yaptığını kim bilebilir? İnsanlar bir şeyler yapar, biz de şimdiye kadar görülmemiş bir doğruluk payı ile yaptıkları şeyleri izleyip ölçebiliriz; bütün mesele budur. Yeterli miktarda veri varsa rakamlar başka söze yer bırakmaz.
Ama şunu bilmeliyiz ki buradaki temel hedef reklamcılık değil, bilimdir. Bilimsel yöntemler, test edilebilir hipotezler üzerine geliştirilir. Bu modeller çoğu zaman bilim insanlarının zihinlerinde canlandırdıkları sistemlerdir. Sonra bu modeller test edilir ve yapılan deneyler dünyanın nasıl işlediği hakkındaki bu teorik modelleri doğrular ya da yanlışlar. Bilim yüzlerce yıldır bu şekilde çalışır.
Bilim insanları, karşılıklı ilişkinin nedensel olmadığını (Correlation is not causation.), sadece X ile Y arasındaki ilişkiye dayanarak hiçbir sonuç çıkarılmaması gerektiğini bilecek şekilde eğitilirler (Aralarındaki ilişki sadece bir tesadüf de olabilir.). Bunun yerine, ikisi arasındaki ilişkinin altında yatan mekanizmaları anlamanız gerekir. Bir modeliniz olduğunda, artık veri kümelerini rahatça birbirleriyle ilişkilendirebilirsiniz. Modeli olmayan veri, tekerleksiz araç gibidir.
Fakat büyük miktarlarda veriyle karşı karşıya kalındığında, bu bilimsel yaklaşım (hipotez çıkarma, modelleme, test etme) geçerliliğini yitiriyor. Fiziğe bakalım mesela: Newton modelleri, hakikate kabataslak yaklaşımlardı (Atomik seviyede yanlıştı, ama yine de işe yarıyorlardı.). Yüz yıl önce istatistik temelli kuantum mekaniği daha iyi bir resim sundu, fakat benzer şekilde o da bir model olduğu için kusursuz değildi, hiç şüphesiz ki gerçeğin altında yatan daha karmaşık bir yapının karikatürü gibiydi. Fiziğin son yıllarda n boyutlu büyük birleşik modeller ile ilgili kuramsal yorumlamalara kayması, hipotezleri yanlışlayacak deneyleri nasıl yapacağımızı bilmediğimizdendir; enerji boyutları çok yüksek, hızlandırıcılar çok pahalı ve daha nice nedenler… Bu yılları veri sıkıntısı yaşayan bir disiplinin “tatlı hikâyeler” anlatan safhası olarak betimleyebiliriz.
Günümüzde, biyoloji de aynı yoldan gitmektedir. Okulda bize tam bir Mendelci süreç dahilinde öğretilen “baskın” ve “çekinik” genler ile ilgili modellerin, gerçeğin Newton yasalarından çok daha büyük ölçüde basitleştirilmiş bir hali olduğu anlaşılmıştır. Gen-protein etkileşimlerinin ve epigenetiğin diğer çalışma alanlarının keşfi, DNA’nın bir yazgı olduğu düşüncesine meydan okudu ve hatta çevre faktörünün kalıtsal özellikleri etkilediğine dair kanıtlar sundu, ki bir zamanlar bunun genetik olarak imkânsız olduğu düşünülüyordu.
Aslında maddi destek istememizin nedeni çok basit: Çünkü Evrim Ağacı, bizim tek mesleğimiz, tek gelir kaynağımız. Birçoklarının aksine bizler, sosyal medyada gördüğünüz makale ve videolarımızı hobi olarak, mesleğimizden arta kalan zamanlarda yapmıyoruz. Dolayısıyla bu işi sürdürebilmek için gelir elde etmemiz gerekiyor.
Bunda elbette ki hiçbir sakınca yok; kimin, ne şartlar altında yayın yapmayı seçtiği büyük oranda bir tercih meselesi. Ne var ki biz, eğer ana mesleklerimizi icra edecek olursak (yani kendi mesleğimiz doğrultusunda bir iş sahibi olursak) Evrim Ağacı'na zaman ayıramayacağımızı, ayakta tutamayacağımızı biliyoruz. Çünkü az sonra detaylarını vereceğimiz üzere, Evrim Ağacı sosyal medyada denk geldiğiniz makale ve videolardan çok daha büyük, kapsamlı ve aşırı zaman alan bir bilim platformu projesi. Bu nedenle bizler, meslek olarak Evrim Ağacı'nı seçtik.
Eğer hem Evrim Ağacı'ndan hayatımızı idame ettirecek, mesleklerimizi bırakmayı en azından kısmen meşrulaştıracak ve mantıklı kılacak kadar bir gelir kaynağı elde edemezsek, mecburen Evrim Ağacı'nı bırakıp, kendi mesleklerimize döneceğiz. Ama bunu istemiyoruz ve bu nedenle didiniyoruz.
Kısacası, biyoloji alanında bilgimiz arttıkça, kendimizi bu alandaki modellerden o kadar uzakta buluyoruz.
Günümüzde daha iyi bir yol var; petabaytlar, “Karşılıklı ilişki yeterlidir.” (ya da "Korelasyon yeterlidir.") dememize olanak sağlıyor. Artık model aramaktan vazgeçebiliriz. Veriyi hipotezler olmadan analiz edebiliriz. Rakamları, dünyanın şimdiye kadar gördüğü en büyük bilgisayar kümelerine göndererek, bilimin bulamayacağı şeyleri istatistiksel algoritmaların bulmasını yattığımız yerden seyredebiliriz.
Buna en iyi uygulamalı örnek, J.Craig Venter’in uzun DNA zincirlerinin dizilemesinde kullanılan dağınık dizileme (shotgun gene sequencing) yöntemidir. Daha sonralarda Venter, yüksek hızlı dizileyiciler ve kendi ürettikleri veriyi istatistiksel olarak analiz edebilen süper bilgisayarlar sayesinde bireysel organizmaların diziliminden tüm ekosistemin dizilimine yöneldi. 2003 yılında, Kaptan James Cook’un izinden giderek okyanusun büyük bölümünün dizilimini çıkarmaya başladı. 2005’te havanın dizilimini çıkarmaya başladı. Bu süreç boyunca Venter, binlerce bilinmeyen bakteri türü ve başka yaşam formları keşfetti.
Eğer “yeni türler keşfetmek” deyince aklınıza Darwin ve ispinozları geliyorsa, eski yöntemlerde kalmış bir bilim insanısınız diyebiliriz. Venter, keşfettiği türler hakkında neredeyse hiçbir şey söyleyemeyebilir. Nasıl göründüklerini, nasıl yaşadıklarını ya da yapıları ile ilgili diğer şeylerin çoğunu bilmez. Hatta bu canlıların genomlarının tümünü de çıkaramamıştır. Bildiği tek şey istatistiksel bir iniş çıkış, kendine özgü bir dizilimdir. Öyle bir dizilim ki bu, veri tabanındaki diğer hiçbir dizilime benzemez; yani yeni bir türü simgeler.
Bu dizilim, hakkında daha fazla şey bildiğimiz türlerin dizilimlerine benzeyebilir, dolayısıyla onları diğer dizilimlerle ilişkilendirebiliriz. Böyle durumlarda Venter bu hayvanlar hakkında bazı tahminlerde bulunabilir, mesela güneş ışınlarını belli bir şekilde enerjiye dönüştürebildiklerini ya da ortak bir atadan gelmiş olabileceklerini. Fakat bunun dışında, Venter’in bu türlerle ilgili modeli, Google’ın sizin MySpace sayfanızla ilgili modelinden daha iyi/farklı değildir. Bütün bunlar sadece veridir. Yine de Venter, Google kalitesindeki hesaplama araçları ile bu verileri analiz ederek, biyoloji bilimini yaşadığı dönemde kimsenin yapamadığı kadar ileri seviyelere taşımıştır.
Bu düşünce biçimi insanlar arasında yaygınlaşıp yerleşik hale gelmek için hazır durumda. 2008’in Şubat ayında Ulusal Bilim Vakfı (National Science Foundation), Küme Keşfi (Cluster Exploratory - CluE) adlı bir proje başlattı. Bu proje, Google ve IBM ile 6 pilot üniversitenin işbirliğiyle geliştirilen büyük ölçekli bir dağıtımlı bilgi işlem platformunda çalışmak üzere tasarımlanan araştırmaya kaynak sağladı. Söz konusu kümede 1600 işlemci, birkaç terabaytlık hafıza (RAM), yüzlerce terabaytlık depolama alanı ve ayrıca IBM’in Tivoli adlı yazılımı, Google Dosya Sistemleri ve MapReduce’un açık kaynak versiyonları gibi yazılımlar da bulunuyor. İlk CluE projelerinde beyin ve sinir sistemi simülasyonları ve ayrıca biyoyazılımla (wetware) yazılımı ilişkilendiren diğer biyolojik araştırmalar bulunuyordu.
Bu ölçekteki bir bilgisayarı kullanmayı öğrenmek biraz zor olabilir, fakat çok büyük bir kapı aralanıyor bize: Çok büyük miktarlarda veriye ulaşabilmemiz ve bu büyüklükteki verilerle istatistiksel araçları kullanarak sayısız hesaplamalar yapabilmemiz, dünyayı tanımamız için yepyeni bir yöntem sunuyor. Karşılıklı ilişkiler yöntemi neden-sonuç ilişkisini tahtından kaldırıyor. Tutarlı modeller ya da birbirini destekleyen teoriler olmadan da bilim yoluna devam edebiliyor. Hatta temelindeki mekanizmaya dair hiçbir açıklama olmadan bile.
Eski yöntemlere sımsıkı sarılmaya ne gerek var! Artık kendimize şunu sormalıyız: Bilim Google’dan neler öğrenebilir?
Evrim Ağacı Yorumu: Her ne kadar bu yazı gereğinden fazla heyecanlı olsa da, insanlığın bilimsel ve teknolojik gelişimine dair çok önemli bir perspektiften yaklaştığı ve alanında çok tartışılan yazılardan biri olduğu için Türkçeye kazandırmakta fayda gördük. Şunu belirtmekte fayda var ki, insanların bilişsel süzgecinden geçirmeksizin, sadece büyük veri ve veri analizi ile sonuçlara varmak çok büyük hatalara neden olabilecektir. Bu yazının yayına alındığı zamanki farkındalıklardan birisi, bunun güzel bir örneğidir: Bütün analistler 8 Kasım 2016 ABD seçimlerinde eldeki verilerin Hillary Clinton'ın kazanacağını gösterdiğini ileri sürmesine rağmen, Clinton'ın rakibi Donald Trump herkesi şaşırtarak seçimlerden zaferle ayrıldı. Dolayısıyla teori olmaksızın veri anlamsız, veri olmaksızın teori boştur diyebiliriz. Muhtemelen Genel Yapay Zeka gibi ileri düzey akıllı sistemlere ulaşana kadar insanlar sürecin vazgeçilmez bir parçası olacaktır ve bilimsel yöntem aynı şekilde işlemeyi sürdürecektir. Ancak büyük verinin bizlere kattıklarını da asla göz ardı etmemek, veri biliminden öğrendiklerimizi modern bilime genelleyerek yöntemlerimizi geliştirmek elzemdir.
İçeriklerimizin bilimsel gerçekleri doğru bir şekilde yansıtması için en üst düzey çabayı gösteriyoruz. Gözünüze doğru gelmeyen bir şey varsa, mümkünse güvenilir kaynaklarınızla birlikte bize ulaşın!
Bu içeriğimizle ilgili bir sorunuz mu var? Buraya tıklayarak sorabilirsiniz.
Soru & Cevap Platformuna Git- 3
- 1
- 0
- 0
- 0
- 0
- 0
- 0
- 0
- 0
- 0
- 0
- Çeviri Kaynağı: Wired | Arşiv Bağlantısı
Evrim Ağacı'na her ay sadece 1 kahve ısmarlayarak destek olmak ister misiniz?
Şu iki siteden birini kullanarak şimdi destek olabilirsiniz:
kreosus.com/evrimagaci | patreon.com/evrimagaci
Çıktı Bilgisi: Bu sayfa, Evrim Ağacı yazdırma aracı kullanılarak 31/01/2025 10:46:09 tarihinde oluşturulmuştur. Evrim Ağacı'ndaki içeriklerin tamamı, birden fazla editör tarafından, durmaksızın elden geçirilmekte, güncellenmekte ve geliştirilmektedir. Dolayısıyla bu çıktının alındığı tarihten sonra yapılan güncellemeleri görmek ve bu içeriğin en güncel halini okumak için lütfen şu adrese gidiniz: https://evrimagaci.org/s/4695
İçerik Kullanım İzinleri: Evrim Ağacı'ndaki yazılı içerikler orijinallerine hiçbir şekilde dokunulmadığı müddetçe izin alınmaksızın paylaşılabilir, kopyalanabilir, yapıştırılabilir, çoğaltılabilir, basılabilir, dağıtılabilir, yayılabilir, alıntılanabilir. Ancak bu içeriklerin hiçbiri izin alınmaksızın değiştirilemez ve değiştirilmiş halleri Evrim Ağacı'na aitmiş gibi sunulamaz. Benzer şekilde, içeriklerin hiçbiri, söz konusu içeriğin açıkça belirtilmiş yazarlarından ve Evrim Ağacı'ndan başkasına aitmiş gibi sunulamaz. Bu sayfa izin alınmaksızın düzenlenemez, Evrim Ağacı logosu, yazar/editör bilgileri ve içeriğin diğer kısımları izin alınmaksızın değiştirilemez veya kaldırılamaz.
This work is an exact translation of the article originally published in Wired. Evrim Ağacı is a popular science organization which seeks to increase scientific awareness and knowledge in Turkey, and this translation is a part of those efforts. If you are the author/owner of this article and if you choose it to be taken down, please contact us and we will immediately remove your content. Thank you for your cooperation and understanding.