İstatistikleri Dikkatli Okumak: İstatistik Konusunda Nelere Dikkat Edilmeli?

Bu yazı, Evrim Ağacı'na ait, özgün bir içeriktir. Konu akışı, anlatım ve detaylar, Evrim Ağacı yazarı/yazarları tarafından hazırlanmış ve/veya derlenmiştir. Bu içerik için kullanılan kaynaklar, yazının sonunda gösterilmiştir. Bu içerik, diğer tüm içeriklerimiz gibi, İçerik Kullanım İzinleri'ne tabidir.

Akademik temeli ekonomi sahasında olan Meksikalı politikacı Josefina Eugenia Vázquez Mota, istatistiklerle ilgili şöyle söylüyor:

Yalan söylemenin 2 yolu vardır: Birincisi, gerçeği söylememek... İkincisi ise istatistik uydurmak.

Gerçekten de istatistikler son derece tehlikeli oyuncaklardır. Birçok bilim insanı ve filozof buna dikkat çeken sözler söylemişlerdir. Örneğin Mark Twain, "Gerçekler inatçı olsa da, istatistikler daha fazla eğilip bükülebilir yapıdadır." diyerek tehlikeye işaret etmiştir. Kimi zaman Twain'e, kimi zamansa İngiliz başbakanı Benjamin Disraeli'ye atfedilen bir diğer meşhur söz ise şöyledir:

Hayatta üç çeşit yalan vardır: yalanlar, lanet olası yalanlar ve istatistik.

Dolayısıyla istatistiki bilgileri değerlendirirken son derece dikkatli analiz etmek ve konu hakkında yeterli donanım ve arka plana sahip olduğumuzdan emin olmamız gerekir. Yoksa aşağıdaki görseldeki kadar apaçık olmasa da, en az onun kadar saçma olan istatistiklere kolayca kanmamız kaçınılmaz olacaktır.

Doktorlar ve Rus Ruleti...
Doktorlar ve Rus Ruleti...
Cyanide and Happiness

Nelere Dikkat Etmeliyiz?

Çeşitli kaynakların istatistikleri çarpıtmak için kullandıkları bazı temel yöntemler bulunmaktadır. Gelin bunların en yaygın olanlarına bakış atalım:

Budanmış Eksen

Bir grafiği okurken, grafiğin ne anlattığına bakmadan önce eksenlere bakmanız büyük önem arz etmektedir. Çünkü iki boyutlu bir grafikte, hem yatay hem de düşey eksende tam olarak hangi değişkenlerin yer aldığını ve bunların hangi aralıklarda grafiğe döküldüğüne bakacak olursanız, olası bir aldatmacayı kolaylıkla tespit edebilirsiniz.

Budanmış Eksen
Budanmış Eksen
Flowing Data

Yukarıdaki örnekte sol taraftaki grafikte düşey eksen 10-15 arasında verilmiş; ancak sağ tarafta 0-15 arasında bir dağılım görüyoruz. Bu iki grafiği birbiriyle kıyaslarken veya kendi içinde incelerken bu aralıklardan haberdar olmamız gerekiyor. Aksi takdirde aslında çok da dikkate değer olmayan değişimleri, sanki çok önemli değişimlermiş gibi göstermeye çalışan bir kaynağın oyununa gelebiliriz. Gerçek hayattan bir örnek aşağıda:

USA Today, devlet yardımı alanların sayısının katlanarak arttığı izlenimini yaratmak için grafiğin düşey eksenini 0'dan değil, 94 milyondan başlatmıştır.
USA Today, devlet yardımı alanların sayısının katlanarak arttığı izlenimini yaratmak için grafiğin düşey eksenini 0'dan değil, 94 milyondan başlatmıştır.
Statistics How To


Tek Boyutta Alan Yanılsaması

Az önce iki boyutlu grafiklerden bahsettik. "Boyut" kavramı, grafiklerde büyük öneme sahiptir. Çünkü eğer ki tek boyutlu bir değişkeni (örneğin "büyüklük"), çok boyutlu bir grafikte göstermeye kalktığımızda, eğer ki fazladan boyuta karşılık gelen makul bir değişken yoksa, istatistiği ileri süren kaynak uydurma bir boyut ile bu boşluğu doldurabilir. Bu da algı yanılgısına ve saptırmalara neden olabilir. Bir örneğe bakalım:

Tek Boyutta Alan Yanılsaması
Tek Boyutta Alan Yanılsaması
Flowing Data

Yukarıdaki örnekte sadece üç "sayı" birbiriyle kıyaslanmaktadır: 10 şey, 20 şey, 30 şey... Bu, skalar bir büyüklüktür; yani sadece büyüklüğü vardır, bir yönü yoktur. Örneğin 20 elma, 10 elmanın sadece iki katıdır; herhangi bir yönelimi bulunmamaktadır. Ancak bunu ifade etmek için çizilen kare, 2 boyutlu bir cisimdir. 2 boyutlu cisimlerin alanları, o cisimleri tanımlamak için kullanılan temel uzunlukların (örneğin "kenar"ların) karesi ile büyür. Örneğin bir karenin bir kenarı 2 kat büyüyecek olursa, alanı 4 kat büyüyecektir. Dolayısıyla yukarıdaki görselde "30 şey" olarak ifade edilen unsur, "10 şey" olarak ifade edilenin aslen sadece üç katı olmasına rağmen, karenin alanının bir kenarının karesiyle doğru orantılı bir şekilde büyümesinden ötürü 9 kat büyük gözükmektedir. Bu da, bu istatistiğin sunulduğu kişiyi kandırmak için yeterli olacaktır. Bunun bir örneğini bir haber kanalının yaptığı grafikte görmek mümkündür:

Fox News, Barack Obama tarafından yasalaştırılan Obamacare sağlık sigortasına kayıt olanların sayısını az göstermek için sütun grafiğinin boyutlarını yanıltıcı şekilde çizmiştir.
Fox News, Barack Obama tarafından yasalaştırılan Obamacare sağlık sigortasına kayıt olanların sayısını az göstermek için sütun grafiğinin boyutlarını yanıltıcı şekilde çizmiştir.
Flowing Data

Tutmayan Toplamlar

Bir grafiğin parçalarını okurken, parçaların toplamının bütüne eşit olduğundan emin olmak çok önemlidir. Çünkü "Nasılsa kimse fark etmez." diyerek saptırmacaları yüzdeler içine sığdırmak çok kolaydır! Biraz abartılı olsa da, bir örnek görelim:

Tutmayan Toplamlar
Tutmayan Toplamlar
Flowing Data

Grafikten de göreceğiniz üzere, bir dairenin dört parçasının toplamı %100'ü asla geçemez; ancak yukarıdaki grafikte yüzdelerin toplamı %320 etmektedir! Bir örneği aşağıdaki haber kaynağında görmek mümkündür:

2012 ABD Başkanlığı Yarışı ile ilgili bir grafik...
2012 ABD Başkanlığı Yarışı ile ilgili bir grafik...
Peltier Tech Blog

Burada ufak bir uyarı yapmakta fayda var: Kimi zaman yüzdelerde ufak tefek yuvarlamalar yapıldığı için toplam %99 ila %101 arasında bir değer olabilir. Bu kadarlık sapmalar normaldir ve bunlardan korkmaya gerek yoktur. Önemli olan, yuvarlama hatalarından değil, düpedüz saptırmalardan ötürü bu toplamın hatalı olmasıdır. Bunun bir örneğini Pew Araştırma Merkezi'nin şu grafiğinde görmek mümkündür:

Yuvarlamadan ötürü %100'e denk gelmeyen grafikler olabilir.
Yuvarlamadan ötürü %100'e denk gelmeyen grafikler olabilir.
Washington Post

Sınırlandırılmış Veriler

Eğer istatistikte hinlik arıyorsanız, sınırlandırılmış veriler tam size göre!

Diyelim ki son 5 yılda bir değişkenin değeri hep artış göstermiş; bu nedenle de birileri bu artış üzerinden prim yapıyor. Her zaman aklınıza şu gelmeli: "Son 5 senede artmış ama... Peki ya son 10 senede? Son 25 senede? Son 100 senede?" Daha uzun zaman aralıklarında aynı yönelimi göremiyorsanız, geçici (ve potansiyel olarak önemsiz) bir değişime dikkatiniz çekilmeye çalışılıyor olabilir. Aşağıdaki grafik bunu güzel gösteriyor:

Sınırlandırılmış Veriler
Sınırlandırılmış Veriler
Flowing Data

Bu hatadan arınmak için her zaman daha geniş zaman aralığında, daha fazla veri sorgulamak gerekmektedir. Veriye karşı şüphe elbette paranoya sınırlarına kaçmamalıdır; ancak sağlıklı düzeyde şüphecilik ve inattan uzak bir şekilde kaynaktan ek veriler talep etmek her zaman faydalıdır. Bir örneğini aşağıda görebiliriz:

Yale Üniversitesi, yılın sadece yarısına ait sıcaklık istatistiklerini vererek sıcaklık artışını küresel ısınma ile ilişkilendirmiştir; halbuki Ocak-Temmuz arasında sıcaklıkların zaten artmasını bekleriz.
Yale Üniversitesi, yılın sadece yarısına ait sıcaklık istatistiklerini vererek sıcaklık artışını küresel ısınma ile ilişkilendirmiştir; halbuki Ocak-Temmuz arasında sıcaklıkların zaten artmasını bekleriz.
Statistics How To

Alanlarla Oynamak

Az önce sözünü ettiğimiz "tek boyutta alan yanılsaması"nın bir diğer biçimi, aynı alanı farklı şekillerde göstererek algı manipülasyonu yapmaktır. Örneğin aşağıdaki iki şekle bir bakalım:

Alanlarla Oynamak
Alanlarla Oynamak
Flowing Data

Aslında her iki dikdörtgenin de alanı birbirine eşittir; ancak eğer ki bir grafik, daha uzun gösterimin daha büyük olduğu algısını yaratmaya çalışıyorsa, aynı büyüklükteki bir değişkene karşılık gelen çubuğu daha ince ama uzun çizerek algılarınızı yanıltabilir. Dolayısıyla grafiklerin doğru ve tutarlı olduğundan emin olmalısınız.

Tuhaf Gruplama Tercihi

İstatistiği iki büyük kategoriye ayırmak mümkündür: Veri toplama ve veri görselleştirmesi/analizi. Toplanan verileri "ham veri" olarak sunmak bir şeydir; ancak onları görselleştirmek bir başka iştir. Bu görselleştirme işlemi sırasında kişiler çok kurnaz bir şekilde algı manipülasyonu yapabilirler. Aşağıdaki görsele bir bakalım:

Tuhaf Gruplama Tercihi
Tuhaf Gruplama Tercihi
Flowing Data

Eldeki veriler 0-10 arasında değişiyor olsun. Bu değerleri 0-1 aralığı ve 1+ aralığı olarak göstermek mümkündür. Ancak bu, isabetli bir gösterim midir? Duruma göre değişir! Ve o "uygun durumu" bilmek, deneyim ve konu hakkında bilgi gerektirir. Ama şunu unutmayın: Eğer ki veriler 0-10 arasında değişiyorsa, onları birbiriyle eşit 10 kategoride sunmak çok daha dürüst olacaktır. Bunun yapılmadığı durumlarda nedenini sorgulamak sağlıklı olacaktır.

Çifte Eksenler

İstatistikte yalan söylemenin en kolay yollarından birisi, iki boyutlu bir grafikte üç eksen kullanmaktır: Her zamanki gibi yatay eksende "zaman" gibi bir değişken vardır; ancak düşey bir eksen kullanmak yerine, iki eksen kullanabilirsiniz! Bunlardan birinin aralığı, diğerinin aralığından tamamen farklı olabilir. Bunu akıllıca manipüle ederek, değişimle ilgili hatalı bir algı yaratmanız mümkündür! Şu grafiğe bir bakalım:

Çifte Eksenler
Çifte Eksenler
Flowing Data

Sol taraftaki eksen 0-10 arasında değişirken, sağ taraftaki eksen 10.0 ile 10.7 arasında değişiyor. Bu, kendi başına bir aldatmaca olmak zorunda değil! Kimi zaman gerçekten de bu şekilde farklı eksenler kullanarak iki ayrı deney sonucunu tek bir grafikte göstermemiz mümkündür. Ancak kaynağın, bu iki eksenin aralıklarını zorlama bir şekilde seçilerek algı yanılgısı yaratma çabasında olmadığından emin olunmalıdır. Bir örneği burada:

The Wonk Room tarafından paylaşılan bu görselde, işsizlik oranları ile sigortasız Amerikalılar arasında bir ilişki var gibi gözükmektedir. Halbuki bu, iki düşey eksen kullanıp, bunları manipüle etmek yoluyla elde edilmiştir. Gerçekte işsizlik oranı verilen aralıkta %15'ten sadece %16'ya yükselmiştir (bu oldukça ufak bir artıştır); işsizlik oranları ise %4.5'ten %7.5'e yükselmiştir.
The Wonk Room tarafından paylaşılan bu görselde, işsizlik oranları ile sigortasız Amerikalılar arasında bir ilişki var gibi gözükmektedir. Halbuki bu, iki düşey eksen kullanıp, bunları manipüle etmek yoluyla elde edilmiştir. Gerçekte işsizlik oranı verilen aralıkta %15'ten sadece %16'ya yükselmiştir (bu oldukça ufak bir artıştır); işsizlik oranları ise %4.5'ten %7.5'e yükselmiştir.
Statistics How To

Öylesine, Fazladan Boyut

Görebileceğiniz gibi, istatistikte yalan söylemenin en kolay yollarından birisi verinin "boyutu" ile oynamaktır. Kimi zaman daha havalı gözükmesi için yapılan tercihler bile aslında algı manipülasyonunun bir parçası olabilir. Bir veri, mümkün olan en sade görselleştirme yöntemini kullanmalıdır. Eğer kullanmıyorsa, bunun nedenini sorgulamak gerekir.

Öylesine, Fazladan Boyut
Öylesine, Fazladan Boyut
Flowing Data

Örneğin yukarıdaki grafikte çizelgenin yüksekliğinin olmasına hiç gerek yoktur! İki boyutlu bir dairesel çizelge fazlasıyla yeterli olacaktır. Hele ki dilimlerin büyüklüklerinin sayısal olarak da belirtilmemiş olması, bir algı yanılgısı fikri doğurmaktadır; özellikle de perspektife bağlı olarak bazı dilimlerin olduğundan daha büyük veya daha küçük gözükebileceği düşünülecek olursa...

Mutlak Olanı Görmek

Son olarak, özellikle de politik ve sosyal veri görselleştirmelerinde çok sık yapılan bir hata, harita üzerinde renklendirme yaparak sosyopolitik görüşleri görselleştirmektir. Aslında bu yöntemde kendi başına bir hata yoktur; ancak hata, bu harita üzerindeki yaşam alanlarının popülasyonu bilinmeden herhangi bir anlamlı sonuç çıkarmanın mümkün olmamasındadır!

Mutlak Olanı Görmek
Mutlak Olanı Görmek
Flowing Data

Örneğin yukarıdaki ABD haritasında farklı noktalar boyanmıştır ve muhtemelen belirli görüşlerin dağılımını göstermek için kullanılacaktır. Ancak bu alanlardan kimisinde nüfus birkaç bin kişiyken, bazılarında birkaç milyondur! Dolayısıyla genelin fikrini bu işaretlendirmelerden çıkarsamak isabetli olmayacaktır.

Benzer şekilde, bu grafiklerde olaylar ile ilgili de hatalı yargılar oluşturmak mümkündür. Örneğin bir şehirde 20, diğerinde 10 cinayet işlenmiş olsun. 20 cinayetin işlendiği şehir, 10 cinayetin işlendiğinden 2 kat daha mı tehlikelidir? Bu kadar bilgi ile bu kanaate varamayız. Ya 20 kişinin öldürüldüğü şehir 5 milyon nüfusa, 10 kişinin öldürüldüğü şehir 10.000 kişilik nüfusa sahipse? Dolayısıyla bu grafikleri dikkatli okumak gerekiyor!

Sonuç

İstatistik, doğru bir şekilde kullanılıp, doğru eğitimi almış kişilerce tüketildiğinde muhteşem bir güce ve öğreticiliğe sahip bir araçtır. Öyle ki, sadece istatistiki verilerden yola çıkarak toplumları kökünden değiştirmek, doğru adımları atmak ve akıllıca hareket etmek mümkün olabilir. Ancak yanlış ellerde ve bilinçsiz zihinlere sunulduğunda istatistik aynı güçte bir algı yönetim aracına dönüşmektedir. Bu nedenle istatistiği nasıl okumamız gerektiğini öğrenmeli ve çeşitli kaynakların kullandığı algı yönetim yöntemlerinden haberdar olmalıyız.

Kaynaklar ve İleri Okuma:

  • Ana Görsel Kaynağı: FreePik
  • N. Yau. How to Spot Visualization Lies. (2017, Şubat 09). Alındığı Tarih: 30 Aralık 2018. Alındığı Yer: Flowing Data

Karma Duygular: Hem Sevip Hem Nefret Etmek!

Plasebo Etkisi: Nedir, Ne Değildir?

Yazar

Çağrı Mert Bakırcı

Çağrı Mert Bakırcı

Yazar

Evrim Mühendisi. Evrim Ağacı'nın kurucusu ve idari sorumlusudur. Bilim anlatıcılığı ve popüler bilim yazarlığı ile uğraşıyor. ODTÜ mezunu. Doktorasını Texas Tech Üniversitesi'nden evrimsel robotik alanında aldı.

Katkı Sağlayanlar

Deniz Kaya
Deniz Kaya
Görsel Çevirmeni
Konuyla Alakalı İçerikler

Göster

Şifremi unuttum Üyelik Aktivasyonu

Göster

Göster

Şifrenizi mi unuttunuz? Lütfen e-posta adresinizi giriniz. E-posta adresinize şifrenizi sıfırlamak için bir bağlantı gönderilecektir.

Geri dön

Eğer aktivasyon kodunu almadıysanız lütfen e-posta adresinizi giriniz. Üyeliğinizi aktive etmek için e-posta adresinize bir bağlantı gönderilecektir.

Geri dön

Close
Geri Bildirim Gönder