Teorilerin Sonu: Veri Tufanı, Bilimsel Yöntemlere Yepyeni Bir Bakış Açısı Sunuyor!
Bütün modeller yanlıştır, ama bazıları yararlıdır.
30 yıl önce istatistikçi George Box aynen böyle demişti, haklıydı da. Fakat o zamanlar başka seçeneğimiz mi vardı? Sadece modeller ile, kozmolojik denklemlerden tutun da insan davranışlarını açıklayan teorilerle, tam anlamıyla olmasa da belli bir dereceye kadar etrafımızda olup biteni açıklayabiliyorduk. Tabii şimdiye kadar. Günümüzde Google gibi gittikçe büyüyen bir veri okyanusu içinde kurulup gelişen şirketler, tabi ki yanlış modelleri kabul edecek değiller, hatta modelleri kabul etmelerine bile gerek yok artık.
60 sene önce, dijital bilgisayarlar bilginin okunabilmesini sağladı. 20 sene önce, internet o bilgilere ulaşmamızı, 10 sene önce de ilk arama motoru robotları (web crawler, web robot) tek bir veri tabanı oluşturabilmemizi sağladı. Şimdi ise, Petabayt Çağı’nın çocukları olarak adlandırabileceğimiz Google ve benzer düşüncedeki şirketler tarihimizin en çok ölçülen çağını ince eleyip sık dokuyarak bu bilgi okyanusunu insanlığın laboratuvarına dönüştürüyorlar.
Petabayt Çağı diğer dönemlerden farklıdır çünkü fazla demek farklılık demektir. Kilobaytlar disketlerde, megabaytlar disklerde, terabaytlar disk dizilerinde depolanıyordu. Petabaytlar ise “bulutlarda” depolanıyor. Bu gelişim süreci boyunca, klasör analojilerinden dolap analojilerine, oradan kütüphane analojilerine geçtik. Peki petabaytlara gelince ne oldu? Açıkça söylemek gerekirse, analojilerimiz tükendi.
Petabayt ölçeğinde bilgi deyince, bildiğimiz üç veya dört boyutlu sınıflandırmadan (taksonomiden) değil; boyutsal olarak bilinemez istatistiksel bir yapıdan bahsediyoruz. Tamamen farklı bir yöntem bu. Bunun için verinin sınırlarını kaldırmamız gerekiyor, böylece veriyi bütünüyle zihnimizde canlandırabileceğiz. Bu yöntem için ilk önce veriyi matematiksel olarak inceleyebilmemiz, daha sonra da bir bağlam içerisine yerleştirmemiz gerekiyor. Örneğin Google, reklam dünyasını sadece uygulamalı matematik kullanarak fethetti. Reklam kültürü ya da kurallarını bilmeye gerek olmadığını, sadece uygun analitik araçlarla değerlendirilen işe yarar verinin başarıya ulaşacağını düşünmüştü. Haksız da sayılmazdı.
Google’ın kuruluş felsefesini şöyle açıklayabiliriz: Bir internet sayfasının neden diğerinden daha iyi olduğunu bilemeyiz, tıklanma istatistikleri öyle diyorsa, öyledir. Bu kadarı da yeterlidir. Herhangi bir anlamsal analiz ya da neden-sonuç analizi gerekmez. Google’ın, dilleri “bilmeden” çevirebilmesinin altında da bu yatıyor (Eşit veri miktarları kullanıldığında, Klingon dili Farsça diline Fransızcanın Almancaya çevrilebildiği kadar kolay çevrilebiliyor.). Aynı şekilde reklamlar ya da içerikler hakkında bilgi sahibi olmaksızın, bunları birbirleriyle ilişkilendirebilmesinin altında da bu yatıyor.
Google Araştırma Direktörü Peter Norvig, Mart 2008 tarihinde O’Reilly Gelişen Teknoloji Konferansında yaptığı konuşmada, George Box’ın ünlü sözüne şöyle bir eklemede bulundu: “Tüm modeller yanlıştır ve giderek onlarsız da başarabileceğinizi göreceksiniz.”
Uygulamalı matematiğin ve veri okyanusunun kullanılabilecek diğer her aracın yerini aldığı bir dünya bu. Dil bilimden sosyolojiye insan davranışlarını inceleyen bütün bilim dallarının devri geçti. Taksonomiyi, ontolojiyi, psikolojiyi unutun. İnsanların neyi neden yaptığını kim bilebilir? İnsanlar bir şeyler yapar, biz de şimdiye kadar görülmemiş bir doğruluk payı ile yaptıkları şeyleri izleyip ölçebiliriz; bütün mesele budur. Yeterli miktarda veri varsa rakamlar başka söze yer bırakmaz.
Ama şunu bilmeliyiz ki buradaki temel hedef reklamcılık değil, bilimdir. Bilimsel yöntemler, test edilebilir hipotezler üzerine geliştirilir. Bu modeller çoğu zaman bilim insanlarının zihinlerinde canlandırdıkları sistemlerdir. Sonra bu modeller test edilir ve yapılan deneyler dünyanın nasıl işlediği hakkındaki bu teorik modelleri doğrular ya da yanlışlar. Bilim yüzlerce yıldır bu şekilde çalışır.
Bilim insanları, karşılıklı ilişkinin nedensel olmadığını (Correlation is not causation.), sadece X ile Y arasındaki ilişkiye dayanarak hiçbir sonuç çıkarılmaması gerektiğini bilecek şekilde eğitilirler (Aralarındaki ilişki sadece bir tesadüf de olabilir.). Bunun yerine, ikisi arasındaki ilişkinin altında yatan mekanizmaları anlamanız gerekir. Bir modeliniz olduğunda, artık veri kümelerini rahatça birbirleriyle ilişkilendirebilirsiniz. Modeli olmayan veri, tekerleksiz araç gibidir.
Fakat büyük miktarlarda veriyle karşı karşıya kalındığında, bu bilimsel yaklaşım (hipotez çıkarma, modelleme, test etme) geçerliliğini yitiriyor. Fiziğe bakalım mesela: Newton modelleri, hakikate kabataslak yaklaşımlardı (Atomik seviyede yanlıştı, ama yine de işe yarıyorlardı.). Yüz yıl önce istatistik temelli kuantum mekaniği daha iyi bir resim sundu, fakat benzer şekilde o da bir model olduğu için kusursuz değildi, hiç şüphesiz ki gerçeğin altında yatan daha karmaşık bir yapının karikatürü gibiydi. Fiziğin son yıllarda n boyutlu büyük birleşik modeller ile ilgili kuramsal yorumlamalara kayması, hipotezleri yanlışlayacak deneyleri nasıl yapacağımızı bilmediğimizdendir; enerji boyutları çok yüksek, hızlandırıcılar çok pahalı ve daha nice nedenler… Bu yılları veri sıkıntısı yaşayan bir disiplinin “tatlı hikâyeler” anlatan safhası olarak betimleyebiliriz.
Günümüzde, biyoloji de aynı yoldan gitmektedir. Okulda bize tam bir Mendelci süreç dahilinde öğretilen “baskın” ve “çekinik” genler ile ilgili modellerin, gerçeğin Newton yasalarından çok daha büyük ölçüde basitleştirilmiş bir hali olduğu anlaşılmıştır. Gen-protein etkileşimlerinin ve epigenetiğin diğer çalışma alanlarının keşfi, DNA’nın bir yazgı olduğu düşüncesine meydan okudu ve hatta çevre faktörünün kalıtsal özellikleri etkilediğine dair kanıtlar sundu, ki bir zamanlar bunun genetik olarak imkânsız olduğu düşünülüyordu.
Evrim Ağacı'nın çalışmalarına Kreosus, Patreon veya YouTube üzerinden maddi destekte bulunarak hem Türkiye'de bilim anlatıcılığının gelişmesine katkı sağlayabilirsiniz, hem de site ve uygulamamızı reklamsız olarak deneyimleyebilirsiniz. Reklamsız deneyim, sitemizin/uygulamamızın çeşitli kısımlarda gösterilen Google reklamlarını ve destek çağrılarını görmediğiniz, %100 reklamsız ve çok daha temiz bir site deneyimi sunmaktadır.
KreosusKreosus'ta her 10₺'lik destek, 1 aylık reklamsız deneyime karşılık geliyor. Bu sayede, tek seferlik destekçilerimiz de, aylık destekçilerimiz de toplam destekleriyle doğru orantılı bir süre boyunca reklamsız deneyim elde edebiliyorlar.
Kreosus destekçilerimizin reklamsız deneyimi, destek olmaya başladıkları anda devreye girmektedir ve ek bir işleme gerek yoktur.
PatreonPatreon destekçilerimiz, destek miktarından bağımsız olarak, Evrim Ağacı'na destek oldukları süre boyunca reklamsız deneyime erişmeyi sürdürebiliyorlar.
Patreon destekçilerimizin Patreon ile ilişkili e-posta hesapları, Evrim Ağacı'ndaki üyelik e-postaları ile birebir aynı olmalıdır. Patreon destekçilerimizin reklamsız deneyiminin devreye girmesi 24 saat alabilmektedir.
YouTubeYouTube destekçilerimizin hepsi otomatik olarak reklamsız deneyime şimdilik erişemiyorlar ve şu anda, YouTube üzerinden her destek seviyesine reklamsız deneyim ayrıcalığını sunamamaktayız. YouTube Destek Sistemi üzerinde sunulan farklı seviyelerin açıklamalarını okuyarak, hangi ayrıcalıklara erişebileceğinizi öğrenebilirsiniz.
Eğer seçtiğiniz seviye reklamsız deneyim ayrıcalığı sunuyorsa, destek olduktan sonra YouTube tarafından gösterilecek olan bağlantıdaki formu doldurarak reklamsız deneyime erişebilirsiniz. YouTube destekçilerimizin reklamsız deneyiminin devreye girmesi, formu doldurduktan sonra 24-72 saat alabilmektedir.
Diğer PlatformlarBu 3 platform haricinde destek olan destekçilerimize ne yazık ki reklamsız deneyim ayrıcalığını sunamamaktayız. Destekleriniz sayesinde sistemlerimizi geliştirmeyi sürdürüyoruz ve umuyoruz bu ayrıcalıkları zamanla genişletebileceğiz.
Giriş yapmayı unutmayın!Reklamsız deneyim için, maddi desteğiniz ile ilişkilendirilmiş olan Evrim Ağacı hesabınıza üye girişi yapmanız gerekmektedir. Giriş yapmadığınız takdirde reklamları görmeye devam edeceksinizdir.
Kısacası, biyoloji alanında bilgimiz arttıkça, kendimizi bu alandaki modellerden o kadar uzakta buluyoruz.
Günümüzde daha iyi bir yol var; petabaytlar, “Karşılıklı ilişki yeterlidir.” (ya da "Korelasyon yeterlidir.") dememize olanak sağlıyor. Artık model aramaktan vazgeçebiliriz. Veriyi hipotezler olmadan analiz edebiliriz. Rakamları, dünyanın şimdiye kadar gördüğü en büyük bilgisayar kümelerine göndererek, bilimin bulamayacağı şeyleri istatistiksel algoritmaların bulmasını yattığımız yerden seyredebiliriz.
Buna en iyi uygulamalı örnek, J.Craig Venter’in uzun DNA zincirlerinin dizilemesinde kullanılan dağınık dizileme (shotgun gene sequencing) yöntemidir. Daha sonralarda Venter, yüksek hızlı dizileyiciler ve kendi ürettikleri veriyi istatistiksel olarak analiz edebilen süper bilgisayarlar sayesinde bireysel organizmaların diziliminden tüm ekosistemin dizilimine yöneldi. 2003 yılında, Kaptan James Cook’un izinden giderek okyanusun büyük bölümünün dizilimini çıkarmaya başladı. 2005’te havanın dizilimini çıkarmaya başladı. Bu süreç boyunca Venter, binlerce bilinmeyen bakteri türü ve başka yaşam formları keşfetti.
Eğer “yeni türler keşfetmek” deyince aklınıza Darwin ve ispinozları geliyorsa, eski yöntemlerde kalmış bir bilim insanısınız diyebiliriz. Venter, keşfettiği türler hakkında neredeyse hiçbir şey söyleyemeyebilir. Nasıl göründüklerini, nasıl yaşadıklarını ya da yapıları ile ilgili diğer şeylerin çoğunu bilmez. Hatta bu canlıların genomlarının tümünü de çıkaramamıştır. Bildiği tek şey istatistiksel bir iniş çıkış, kendine özgü bir dizilimdir. Öyle bir dizilim ki bu, veri tabanındaki diğer hiçbir dizilime benzemez; yani yeni bir türü simgeler.
Bu dizilim, hakkında daha fazla şey bildiğimiz türlerin dizilimlerine benzeyebilir, dolayısıyla onları diğer dizilimlerle ilişkilendirebiliriz. Böyle durumlarda Venter bu hayvanlar hakkında bazı tahminlerde bulunabilir, mesela güneş ışınlarını belli bir şekilde enerjiye dönüştürebildiklerini ya da ortak bir atadan gelmiş olabileceklerini. Fakat bunun dışında, Venter’in bu türlerle ilgili modeli, Google’ın sizin MySpace sayfanızla ilgili modelinden daha iyi/farklı değildir. Bütün bunlar sadece veridir. Yine de Venter, Google kalitesindeki hesaplama araçları ile bu verileri analiz ederek, biyoloji bilimini yaşadığı dönemde kimsenin yapamadığı kadar ileri seviyelere taşımıştır.
Bu düşünce biçimi insanlar arasında yaygınlaşıp yerleşik hale gelmek için hazır durumda. 2008’in Şubat ayında Ulusal Bilim Vakfı (National Science Foundation), Küme Keşfi (Cluster Exploratory - CluE) adlı bir proje başlattı. Bu proje, Google ve IBM ile 6 pilot üniversitenin işbirliğiyle geliştirilen büyük ölçekli bir dağıtımlı bilgi işlem platformunda çalışmak üzere tasarımlanan araştırmaya kaynak sağladı. Söz konusu kümede 1600 işlemci, birkaç terabaytlık hafıza (RAM), yüzlerce terabaytlık depolama alanı ve ayrıca IBM’in Tivoli adlı yazılımı, Google Dosya Sistemleri ve MapReduce’un açık kaynak versiyonları gibi yazılımlar da bulunuyor. İlk CluE projelerinde beyin ve sinir sistemi simülasyonları ve ayrıca biyoyazılımla (wetware) yazılımı ilişkilendiren diğer biyolojik araştırmalar bulunuyordu.
Bu ölçekteki bir bilgisayarı kullanmayı öğrenmek biraz zor olabilir, fakat çok büyük bir kapı aralanıyor bize: Çok büyük miktarlarda veriye ulaşabilmemiz ve bu büyüklükteki verilerle istatistiksel araçları kullanarak sayısız hesaplamalar yapabilmemiz, dünyayı tanımamız için yepyeni bir yöntem sunuyor. Karşılıklı ilişkiler yöntemi neden-sonuç ilişkisini tahtından kaldırıyor. Tutarlı modeller ya da birbirini destekleyen teoriler olmadan da bilim yoluna devam edebiliyor. Hatta temelindeki mekanizmaya dair hiçbir açıklama olmadan bile.
Eski yöntemlere sımsıkı sarılmaya ne gerek var! Artık kendimize şunu sormalıyız: Bilim Google’dan neler öğrenebilir?
Evrim Ağacı Yorumu: Her ne kadar bu yazı gereğinden fazla heyecanlı olsa da, insanlığın bilimsel ve teknolojik gelişimine dair çok önemli bir perspektiften yaklaştığı ve alanında çok tartışılan yazılardan biri olduğu için Türkçeye kazandırmakta fayda gördük. Şunu belirtmekte fayda var ki, insanların bilişsel süzgecinden geçirmeksizin, sadece büyük veri ve veri analizi ile sonuçlara varmak çok büyük hatalara neden olabilecektir. Bu yazının yayına alındığı zamanki farkındalıklardan birisi, bunun güzel bir örneğidir: Bütün analistler 8 Kasım 2016 ABD seçimlerinde eldeki verilerin Hillary Clinton'ın kazanacağını gösterdiğini ileri sürmesine rağmen, Clinton'ın rakibi Donald Trump herkesi şaşırtarak seçimlerden zaferle ayrıldı. Dolayısıyla teori olmaksızın veri anlamsız, veri olmaksızın teori boştur diyebiliriz. Muhtemelen Genel Yapay Zeka gibi ileri düzey akıllı sistemlere ulaşana kadar insanlar sürecin vazgeçilmez bir parçası olacaktır ve bilimsel yöntem aynı şekilde işlemeyi sürdürecektir. Ancak büyük verinin bizlere kattıklarını da asla göz ardı etmemek, veri biliminden öğrendiklerimizi modern bilime genelleyerek yöntemlerimizi geliştirmek elzemdir.
İçeriklerimizin bilimsel gerçekleri doğru bir şekilde yansıtması için en üst düzey çabayı gösteriyoruz. Gözünüze doğru gelmeyen bir şey varsa, mümkünse güvenilir kaynaklarınızla birlikte bize ulaşın!
Bu içeriğimizle ilgili bir sorunuz mu var? Buraya tıklayarak sorabilirsiniz.
Soru & Cevap Platformuna Git- 3
- 1
- 0
- 0
- 0
- 0
- 0
- 0
- 0
- 0
- 0
- 0
- Çeviri Kaynağı: Wired | Arşiv Bağlantısı
Evrim Ağacı'na her ay sadece 1 kahve ısmarlayarak destek olmak ister misiniz?
Şu iki siteden birini kullanarak şimdi destek olabilirsiniz:
kreosus.com/evrimagaci | patreon.com/evrimagaci
Çıktı Bilgisi: Bu sayfa, Evrim Ağacı yazdırma aracı kullanılarak 21/11/2024 18:42:25 tarihinde oluşturulmuştur. Evrim Ağacı'ndaki içeriklerin tamamı, birden fazla editör tarafından, durmaksızın elden geçirilmekte, güncellenmekte ve geliştirilmektedir. Dolayısıyla bu çıktının alındığı tarihten sonra yapılan güncellemeleri görmek ve bu içeriğin en güncel halini okumak için lütfen şu adrese gidiniz: https://evrimagaci.org/s/4695
İçerik Kullanım İzinleri: Evrim Ağacı'ndaki yazılı içerikler orijinallerine hiçbir şekilde dokunulmadığı müddetçe izin alınmaksızın paylaşılabilir, kopyalanabilir, yapıştırılabilir, çoğaltılabilir, basılabilir, dağıtılabilir, yayılabilir, alıntılanabilir. Ancak bu içeriklerin hiçbiri izin alınmaksızın değiştirilemez ve değiştirilmiş halleri Evrim Ağacı'na aitmiş gibi sunulamaz. Benzer şekilde, içeriklerin hiçbiri, söz konusu içeriğin açıkça belirtilmiş yazarlarından ve Evrim Ağacı'ndan başkasına aitmiş gibi sunulamaz. Bu sayfa izin alınmaksızın düzenlenemez, Evrim Ağacı logosu, yazar/editör bilgileri ve içeriğin diğer kısımları izin alınmaksızın değiştirilemez veya kaldırılamaz.
This work is an exact translation of the article originally published in Wired. Evrim Ağacı is a popular science organization which seeks to increase scientific awareness and knowledge in Turkey, and this translation is a part of those efforts. If you are the author/owner of this article and if you choose it to be taken down, please contact us and we will immediately remove your content. Thank you for your cooperation and understanding.