Bilimsel Araştırmaların Güvenilirlik Kıstası Olan P Değeri Ateş Altında!

Bu yazı, Nature isimli kaynaktan birebir çevrilmiştir. Çevirmen tarafından, metin içerisinde (varsa) açıkça belirtilen kısımlar haricinde, herhangi bir ekleme, çıkarma veya değişiklik yapılmamıştır. Bu içerik, diğer tüm içeriklerimiz gibi, İçerik Kullanım İzinleri'ne tabidir.

Araştırmacılar bir bulgunun ne zaman ‘anlamlı’ olarak nitelendirilmesi gerektiği konusunda anlaşmazlığa düştüler. Temmuz 2017’de 72 araştırmacı, popüler ancak bir o kadar da eleştirilen ve istatistiksel bir değer olan p-değerini hedef alarak daha düşük bir anlamlılık eşiği (seviyesi) talep ettiler. 88 araştırmacıdan oluşan bir grubun 18 Eylül 2017 tarihinde yayınladığı cevapta, akademisyenlerin belirli p-değerlerini kullanmalarını gerekçelendirmelerinin gelişigüzel bir eşik değerini esas almaktan daha iyi bir çözüm olacağı belirtildi.

P-değeri onlarca yıldır istatistiksel anlamlılık ölçütü olarak kullanılmakta ancak akademisyenlerin bu ölçütün eksiklikleri ve olası suistimaline karşı farkındalıkları gitgide artıyor. Hatta öyle ki 2015’te bir psikoloji bülteni p-değerini tamamen yasakladı.

Bu istatistiksel değer, ölçülen olgunun varsayılan durum ile bağlantısı olmadığını gösteren ‘boş hipotezi’ test etmek için kullanılır. P-değeri küçüldükçe sıfır hipotezinin doğru olma olasılığı, yani sonucun rastlantısal olarak farklı çıkma olasılığı azalır. P-değeri 0,05’in altındaysa sonuçlar genellikle istatistiksel olarak anlamlı ve sıfır hipotezi de geçersiz kabul edilir.

Daha sonra Nature Human Behaviour’da yayınlanan Temmuz 2017 ön baskısında, aralarında daha fazla tekrarlanabilirlik talep eden liderlerin de olduğu araştırmacılar bu eşik değerinin 0,005’e düşürülmesini, böylece yalancı pozitif sonuçların sosyal bilimlere ve biyomedikal kaynaklara sızmasının önüne geçilebileceğini belirttiler.

Ancak Hollanda, Eindhoven Teknoloji Üniversitesi’nde deneysel psikolog olarak görev yapan ve PsyArXiv ön baskı sunucusunda yayınlanan eleştirinin baş yazarı olan Daniel Lakens, tüm bilim dallarına aynı eşik değerini uygulamanın aşırıya kaçtığını ve insanlardan yaptıklarına gerekçe sunmalarını istediğiniz anda bilimin ilerleyeceğini söylüyor.

Görsel 1. Temmuz 2017’de oluşturulan, bir bulguyu istatistiksel olarak anlamlı kabul etme eşiğinin 0,05’ten 0,005’e düşürülmesi ile ilgili anket Nature okuyucularından yoğun ilgi gördü. 6.938 okuyucunun %69’u bu eşiğinin düşmesi gerektiğini savunurken %31’i ise bu fikre karşı çıktı.

 

İstenmeyen Sonuçlar

Negatif sonuçlar barındıran çalışmaların yayınlanmadığı göz önüne alınırsa, bazı araştırmacılar P-değerinin anlamlılık eşiğini düşürmenin yayın yanlılığı sorununu vahimleştireceği konusunda endişe duyuyorlar (EA notu: Hipotezi desteklemeyen sonuçlar sadece araştırmacının dosyalarında kalacağından yayınlanmış araştırmalar arasında yer alamayacak, böylece yayınlanmış araştırmalar belli bir yönde yanlılık göstermiş olacaktır.). Öte yandan daha sıkı bir P-değeri eşiği, etki aslında varolduğu halde aksini iddia ederek daha çok yalancı negatif sonuçlara ulaşılmasına sebep olabilir. Lakens, konu ile ilişkin fikrini şöyle belirtiyor:

Herhangi bir yöntemi uygulamaya koymadan önce istenmeyen negatif sonuçların doğmayacağından emin olmalıyız.

Lakens ve iş arkadaşları, bunun yerine araştırmacıların deneyleri için seçecekleri p-değerini ve bu seçimin gerekçelerini herhangi bir veri toplamadan önce belirlemeleri gerektiğini söylüyor. Bu eşik seviyeleri bir bulgunun olası etkisi ya da ne kadar şaşırtıcı olabileceği temel alınarak seçilebilir. Seçilen bu eşik değerleri bilimsel bir makale türü olan ve metotlar ile önerilen analizlerin hiçbir deney uygulanmadan önce meslektaş incelemesinden geçtiği kayıtlı raporlarda değerlendirilebilir.

Texas A&M Üniversitesi’nde istatistik uzmanı olan ve Temmuz 2017 taslağında eş yazarlık yapmış Valen Johnson şöyle karşılık veriyor:

Araştırmacıların hiçbir zaman daha sıkı bir p-değeri için istekli olacaklarını sanmıyorum.

Los Angeles, Southern California Üniversitesi’nde davranışsal ekonomist ve bir başka eş yazar olan Daniel Benjamin ise şöyle ifade ediyor:

Bilim insanlarının çoğu kendi çalışmaları söz konusu olduğunda kolay yolu seçme eğilimindedir.

Ancak Lakens, p-değerini manipüle etme girişimlerinin araştırmacıların seçtiği gerekçelerden belli olacağını düşünüyor ve şöyle söylüyor:

En azından herkes 0,05 eşiğinin düşünmeden kullanılmaması gerektiği konusunda hemfikir.

2016 yılında beklenmeyen bir adım atarak 177 yıllık tarihinde ilk defa p-değerinin kullanımı ile ilgili detaylı tavsiyelerde bulunan Amerikan İstatistik Derneği’nin baş yönetmeni Ronald Wasserstein ise kanıt standartları için belirli eşik değerleri oluşturmanın bilim için iyi olmadığını düşünüyor. 2017 Ekim ayında istatistiksel çıkarım üzerine aynı dernek tarafından düzenlenen bir sempozyumda yine bu tavsiyeler üzerinde duruldu.

Wasserstein, gündemdeki p-değeri tartışmasında henüz bir taraf seçmediğini söylüyor ve ekliyor:

Tek bir sihirli sayı olmaması bizi şaşırtmamalı.

Kaynaklar ve İleri Okuma:

Ergenler İçin Bir Doz Entelektüel Alçak Gönüllülük

Kuantum Levitasyon, Nesnelerin Uçmasını veya Havada Asılı Kalmasını Nasıl Sağlar?

Yazar

Katkı Sağlayanlar

Şule Ölez

Şule Ölez

Editör

ODTÜ EEE '88 mezunudur. Evrim Ağacı'nda genel editörlük ve çevirmenlik yapmaktadır. Ayrıca Kırsal Çevre Derneği'nin aktif üyesidir. İlgi alanları Türkçe ve İngilizce dilleriyle başta bitkiler olmak üzere tüm canlılardır.

Konuyla Alakalı İçerikler

Göster

Şifremi unuttum Üyelik Aktivasyonu

Göster

Göster

Şifrenizi mi unuttunuz? Lütfen e-posta adresinizi giriniz. E-posta adresinize şifrenizi sıfırlamak için bir bağlantı gönderilecektir.

Geri dön

Eğer aktivasyon kodunu almadıysanız lütfen e-posta adresinizi giriniz. Üyeliğinizi aktive etmek için e-posta adresinize bir bağlantı gönderilecektir.

Geri dön

Close
Geri Bildirim