P-değeri olayını biraz açayım, çünkü genelde yanlış anlaşılıyor ve bunun bazı ciddi sonuçları olabiliyor. P-değeri aslında elde ettiğimiz sonuçların tesadüfen ortaya çıkma olasılığını gösterir. Genellikle 0.05’in altındaki p-değerleri istatistiksel olarak anlamlı kabul edilir, ama bu, bulduğumuz şeyin kesinlikle doğru olduğu anlamına gelmez. P-değeri sadece "Eğer null hipotez doğruysa bu sonuçları tesadüfen elde etme ihtimalimiz düşük" demektir. Başka bir deyişle düşük p-değeri, hipotezimizin kesinlikle doğru olduğunun bir garantisi değildir. Bu ayrımı yapmak önemli. Null hipoteze de parantez açmak gerekirse test etmek istediğimiz olayın "hiçbir şeyin değişmediğini" veya "etki olmadığını" varsayan hali. Yani araştırmamızın başında genellikle "Bu etki yoktur" veya "Bu iki şey arasında fark yoktur" diye düşündüğümüz durumu ifade eder. Örneğin bir ilacın etkili olup olmadığını test ediyorsak null hipotez şunu der: "Bu ilacın hastalık üzerinde hiçbir etkisi yoktur." Yani null hipotez, test ettiğimiz etkinin aslında mevcut olmadığını varsayar. Araştırmamızın amacı elimizdeki verilerle bu hipotezi çürütmek ya da yeterli kanıt bulamadığımız durumda kabul etmek.
Eğer elde edilen p-değeri düşükse (genellikle 0.05'in altında), bu null hipotezin doğru olma olasılığının düşük olduğunu gösterir ve bizi alternatif hipotezin doğru olabileceğine yönlendirir. Ama bu, null hipotezin kesinlikle yanlış olduğu anlamına gelmez sadece elimizdeki verilerle desteklenmediği anlamına gelir. Yani özetle null hipotez test ettiğimiz etkinin veya ilişkinin aslında var olmadığını kabul eden başlangıç noktasıdır.
P-hacking ise biraz daha sinsi bir durum. Temel olarak araştırmacılar verilerle oynayıp sonuçları istatistiksel olarak anlamlı hale getirmeye çalıştıklarında ortaya çıkıyor. Mesela hipotezi değiştirmek, analiz yöntemini uydurmak veya sadece anlamlı sonuçları raporlamak gibi hilelerle yapılıyor. Bu da tesadüfen ortaya çıkan sonuçların aslında önemliymiş gibi görünmesine neden olabiliyor.
Böyle hataların önüne geçmek için birkaç önlem almak şart. Önceden hipotezi ve analiz planını belirleyip kayıt etmek (ön kayıt yapmak), p-hacking’i büyük ölçüde önler. Ayrıca yeterli sayıda denek kullanarak çalışmak tesadüfi hataları azaltır ve sonuçları daha güvenilir kılar. P-değerine ek olarak etki büyüklüğü ve güven aralıklarını da değerlendirmek de önemli. Sonuçların farklı çalışmalarda tekrarlanabilir olması da işin doğruluğunu artırır.
Özetle, p-değeri tek başına çok şey ifade etmez ve doğru yorumlanmadığında veya p-hacking gibi şeyler işin içine girdiğinde, yanıltıcı olabilir. Ama doğru önlemlerle, daha sağlam sonuçlara ulaşmak mümkün. [1][2][3][4][5][6]
Kaynaklar
- Springer. İstatistiksel Testler, P Değerleri, Güven Aralıkları Ve Güç: Yanlış Yorumlamalara Yönelik Bir Rehber. Alındığı Tarih: 18 Ekim 2024. Alındığı Yer: linkspringer | Arşiv Bağlantısı
- gale. Önemli Noktalar: P Değerlerinin Yorumlanması. Alındığı Tarih: 18 Ekim 2024. Alındığı Yer: Gale Akademik OneFile | Arşiv Bağlantısı
- Daniel B. Mark, Kerry L. Lee, Frank E. Harrell Jr, et al. Klinik Araştırmalarda P Değerlerinin Ve Hipotez Testlerinin Rolünün Anlaşılması. Alındığı Tarih: 18 Ekim 2024. Alındığı Yer: jamanetwork | Arşiv Bağlantısı
- theanalysisfactor. Understanding P-Values. Alındığı Tarih: 18 Ekim 2024. Alındığı Yer: theanalysisfactor | Arşiv Bağlantısı
- G. E. P. Box. Statistics For Experimenters: An Introduction To Design, Data Analysis, And Model Building. ISBN: 9780471093152.
- D. S. Moore. (1993). Introduction To The Practice Of Statistics. ISBN: 9780716722502. Yayınevi: W.H. Freeman.