Akademik araştırmalardaki en yaygın ve önemli terimlerden biri olan istatistiksel anlamlılıkı yanlış anlamak ve kötüye kullanmak kolaydır. Bu yazıyı gazetecilerin, eğitimli araştırmacıların bile bazen yaptığı en yaygın hataların bazılarından kaçınmalarına yardımcı olmak için hazırladık.
Bilim insanları verileri analiz ederken, üzerinde çalıştıkları değişkenler arasındaki ilişkileri ararlar. Örneğin, belirli özelliklere sahip çocukların ciddi yaralanmalara maruz kalma olasılığının diğerlerinden daha yüksek olup olmadığını anlamak için oyun alanı kazalarına ilişkin verilere bakabilirler. Yüksek kaliteli bir istatistiksel analiz, araştırmacıların istatistiksel anlamlılığı belirlemek için kullandıkları ayrı hesaplamaları, verilerin bir araştırma hipoteziyle ne kadar tutarlı olduğunu gösteren bir kanıt biçimini içerecektir.
İstatistiksel anlamlılık oldukça teknik ve incelikli bir kavramdır ancak araştırmayı ele alan gazeteciler, araştırmanın neyi temsil ettiğine dair temel bir anlayışa sahip olmalıdır. Sağlık araştırmacıları Steven Tenny ve Ibrahim Abdelgawad istatistiksel anlamlılığı şu şekilde çerçevelediler : “Bilimde, sonucun neden meydana gelmiş olabileceğine dair sonsuz alternatifler olduğu için araştırmacılar hiçbir ifadeyi kanıtlayamazlar. Yalnızca belirli bir hipotezi çürütmeye çalışabilirler.”
Tenny ve Abdelgawad, araştırmacıların “tipik olarak hipotezin ters ifadesi” olan sıfır hipotezi denen şeyi çürütmeye çalışıyorlar. İstatistiksel anlamlılık, incelenen verilerin sıfır hipotezi ile ne kadar tutarsız olduğunu gösterir.
Oyun alanı kazalarını inceleyen araştırmacılar, beş yaşın altındaki çocukların daha büyük çocuklara göre daha ciddi yaralanmalara maruz kaldıklarını varsayarsa, sıfır hipotezi, çocuğun yaşı ile oyun alanı yaralanmaları arasında bir ilişki olmadığı olabilir. İstatistiksel bir analiz, iki değişken arasındaki bir ilişkiyi ortaya çıkarırsa ve araştırmacılar bu ilişkinin istatistiksel olarak anlamlı olduğunu belirlerse, veriler boş hipotezle tutarlı değildir.
Açık olmak gerekirse istatistiksel anlamlılık sıfır hipotezini reddetmeye veya reddetmemeye karar vermek için kullanılan kanıttır. İstatistiksel olarak anlamlı bir sonuç almak hiçbir şeyi kanıtlamaz.
Akademik araştırmalar hakkında haber yapmadan önce gazetecilerin istatistiksel anlamlılık hakkında bilmeleri gereken diğer bazı şeyler:
1. Akademik Araştırmada Önemlilik ≠ Önemli
Bazen gazeteciler yanlışlıkla “önemlilik” olarak tanımlanan araştırma bulgularının önemli veya dikkate değer olduğunu yani haber değeri taşıdığını varsayarlar. Bu genellikle doğru değil. Yinelemek gerekirse, araştırmacılar bir sonucu “istatistiksel olarak anlamlı” veya basitçe “önemli” olarak adlandırdıklarında, verilerin araştırma hipotezleriyle ne kadar tutarlı olduğunu belirtiyorlar.
Bir bulgunun istatistiksel olarak anlamlı olabileceğini ancak klinik veya pratik önemi çok az veya hiç olmadığını belirtmekte fayda var. Diyelim ki araştırmacılar yeni bir ilacın diş ağrısını büyük ölçüde azalttığı ancak bunun yalnızca birkaç dakika için olduğu sonucuna varıyor. Veya pahalı bir özel ders programını tamamlayan öğrencilerin üniversiteye giriş sınavında daha yüksek puanlar aldığını ancak ortalama olarak yalnızca iki puan daha kazandığını. Bu bulgular matematiksel anlamda önemli olsa da, gerçek dünyada çok anlamlı değiller.
2. Araştırmacılar İstatistiksel Önemliliği Ölçme Sürecini Manipüle Edebilir
Araştırmacılar verileri analiz etmek için gelişmiş yazılımlar kullanır. Verilerde algılanan her bir model veya ilişki için (örneğin, bir değişken artarken diğeri azalırken) yazılım, olasılık değeri veya p değeri olarak bilinen şeyi hesaplar.
P değerleri 0 ile 1 arasındadır. Bir p değeri belirli bir eşiğin altına düşerse araştırmacılar örüntüyü veya ilişkiyi istatistiksel olarak anlamlı kabul eder. Eğer p değeri sınır değerden büyükse, bu model veya ilişki istatistiksel olarak anlamlı değildir. Bu nedenle araştırmacılar düşük p değerleri umarlar.
Genel olarak konuşursak 0,05’ten küçük p değerleri istatistiksel olarak anlamlı kabul edilir.
Washington DC’deki Gallaudet Üniversitesi’nde istatistik profesörü olan bilim yazarı Regina Nuzzo , Tips for Communicating Statistical Significance başlıklı bilgi notunda “P-değerleri, istatistiksel anlamlılığın bekçileridir” diye yazdı.
“Akılda tutulması gereken en önemli şey nedir? Herhangi bir konuda nihai bir cevap vermek için değil, şaşırtıcı veri sonuçları konusunda bizi uyarmak için p-değerlerini kullandığımızı belirtiyor.”
Gazeteciler, p değerlerinin hipotezin doğru olma olasılığı olmadığını anlamalı. P-değerleri ayrıca incelenen verilerdeki ilişkilerin şans eseri olma olasılığını yansıtmaz. Amerikan İstatistik Kurumu , İstatistiksel Önem ve P-Değerleri Üzerine Bildirisinde bu ve diğer hataların tekrarlanmasına karşı uyardı.
Ve p değerleri manipüle edilebilir. Hindistan Ulusal Ruh Sağlığı ve Sinirbilimleri Enstitüsü’nde kıdemli bir profesör olan psikiyatrist Chittaranjan Andrade , bir araştırmacının “istatistiksel olarak anlamlı bir sonuç elde edilene kadar verileri farklı şekillerde ısrarla analiz ettiği bir manipülasyon şekli p- hack’tir. The Journal of Clinical Psychiatry’deki 2021 makalesinde .
Önemli bir sonuç elde edildiğinde veya araştırmacının seçenekleri tükendiğinde analizin durduğunu ekledi.
P-hacking şunları içerir:
- Verileri incelemek için bir çalışmayı veya deneyi durdurmak ve daha sonra daha fazlasını toplamaya karar vermek.
- Bir çalışma veya deney tamamlandıktan sonra sonucu değiştirmek amacıyla veri toplamak.
- Aykırı değerleri dahil edip etmeme gibi hesaplamaları etkileyebilecek kararları, veriler analiz edildikten sonraya ertelemek.
Gerçek dünyadan bir örnek olarak, Amerikan İlaç Derneği’nin amiral gemisi dergisi JAMA’dan kısa bir süre sonra emekli olduğunu açıklayan Cornell Üniversitesi’nden araştırmacı Brian Wansink’in çalışmalarında bulunan sorunları birçok haber kaynağı bildirdi ve iki bağlı dergi , makalelerinden altısını geri çekti ( 2018)
BuzzFeed News’de bir bilim muhabiri olan Stephanie Lee , Wansink ve Cornell Food and Brand Lab’deki iş birlikçileri arasındaki e-postaları anlattı ve “etkileyici görünen sonuçlar için kapsamlı bir şekilde veri setleri hakkında tartıştıklarını ve hatta şaka yaptıklarını” gösterdi.
3. Araştırmacılar, İstatistiksel Olarak Anlamlı Sonuçlar Üretmek İçin Yoğun Baskıyla Karşı Karşıya
Araştırmacılar kariyerlerini büyük ölçüde çalışmalarının ne sıklıkta yayınlandığına ve onu yayınlayan akademik dergilerin prestijine göre kurarlar. Washington Üniversitesi’nde psikoloji profesörü olan Ione Fine ve orada doktora öğrencisi olan Alicia Shen , Mart 2018’de The Conversation’daki bir makalesinde, “’Yayınla ya da yok ol’ her akademisyenin zihnine kazınmıştır” diye yazdı. “Beğen ya da nefret edin, yüksek profilli dergilerde yayın yapmak, ünlü meslektaşları ve cömert kaynakları, ünlü ödülleri ve bol hibe fonu ile prestijli üniversitelerdeki pozisyonlara hızlı bir yoldur.”
Akademik dergiler genellikle istatistiksel olarak anlamlı sonuçlara sahip araştırmalara öncelik verdiğinden, araştırmacılar çabalarını genellikle bu yönde odaklarlar. Birden fazla çalışma, dergilerin istatistiksel olarak anlamlı bulgular içeren makaleler yayınlama olasılığının daha yüksek olduğunu göstermektedir.
Örneğin 2014’te Science’da yayınlanan bir makale , “Bir çalışmanın sonuçları ile yayınlanıp yayınlanmadığı arasında güçlü bir ilişki” buldu. İncelenen 221 makalenin yaklaşık yarısı yayınlandı. İstatistiksel olarak anlamlı sonuçları olmayan çalışmaların sadece %20’si yayınlandı.
Yazarlar, istatistiksel olarak anlamlı bulguları olmayan çoğu çalışmanın yazıya geçirilmediğini bile öğrendiler çünkü bazen araştırmacılar sonuçlarının yayınlanmayacağını tahmin ederek çalışmalarını bıraktılar.
Bilim yazarı Jon Brock , Nature Index için 2019 tarihli bir makalesinde , “Araştırmacılar istatistiksel olarak anlamlı bir sonuç bulamadığında genellikle tam olarak bu bir başarısızlık olarak kabul edilir” diye yazdı. “Önemli olmayan sonuçların bilimsel dergilerde yayınlanması zordur ve sonuç olarak araştırmacılar genellikle bunları yayınlanmak üzere göndermemeyi tercih eder.”
4. Pek Çok Kişi Araştırmacılar Bile Bilim İnsanı Olmayanlara İstatistiksel Anlamlılığı Açıklarken Hatalar Yapıyor
Kanada’daki Guelph Üniversitesi’nde psikoloji doçenti olan Jeffrey Spence ve David Stanley , Frontiers in Psychology dergisinde , “Birçok teknik özelliğiyle önem testi doğal olarak kamu tüketimine hazır değildir,” diye yazdı . “İstatistiksel anlamlılığın, ona güvenen araştırmacılar tarafından sıklıkla yanlış anlaşıldığı ve yanlış yorumlandığı iyi bir şekilde belgelendiğinden, teknik olarak doğru tanımları uygun şekilde anlamak, eğitimli araştırmacılar için bile zordur.”
Spence ve Stanley, gazetecilerin dikkat etmesi ve kaçınması gereken üç yaygın yanlış yoruma dikkat çekti. İstatistiksel anlamlılık şu anlama gelmez:
- “Sonucun şans eseri olma olasılığı düşük.”
- “Boş hipotezin doğru olma ihtimali %5’ten az.”
- “Bir çoğaltmada aynı sonucu bulma şansı %95.”
Spence ve Stanley, istatistiksel anlamlılığı tanımlamak için iki öneri sunar. Her ikisi de kısa olmasına rağmen, birçok gazeteci (veya editörler) bunları haberlerde kullanmak için fazla belirsiz olarak görebilir.
Tüm çalışma sonuçları anlamlıysa Spence ve Stanley şunları yazmayı öneriyor:
- “Sonuçların tümü istatistiksel olarak anlamlıydı (gerçek etkilerin sıfır olmayabileceğini gösteren).
- “Sonuçların tümü istatistiksel olarak anlamlıydı (bu, gerçek etkilerin sıfır olduğundan şüphelenmek için bir neden olduğunu gösteriyor).”
5. Akademisyenler Uzun Süredir İstatistiksel Anlamlılık Etkisini Nasıl Yeniden Düşüneceklerini Tartışıyorlar
Bilim insanları on yıllardır istatistiksel anlamlılık belirleme ve raporlama ile ilgili sorunlar hakkında yazılar yazdılar. 2019 yılında akademik dergi Nature istatistiksel modellemeye dayanan alanlardan 800’den fazla araştırmacı ve diğer profesyoneller tarafından imzalanan ve “tüm istatistiksel anlamlılık kavramının terk edilmesi” çağrısında bulunan bir mektup yayınladı .
Aynı yıl, American Statistical Association’ın bir dergisi olan The American Statistician, Statistical Inference in the 21st Century: A World Beyond p < 0.05’i yayınladı. Bu konuya ayrılmış 43 makaleyi içeren özel bir baskı. Birçoğu, istatistiksel anlamlılığı test etmek için p değerleri ve belirlenmiş eşiklerin kullanılmasına alternatifler önerir.
Üç araştırmacı konunun ön sayfasında yer alan bir başyazıda, “Bu yolda ilerlerken, daha az yanlış alarm, daha az gözden kaçan keşif ve daha özelleştirilmiş istatistiksel stratejilerin geliştirilmesini görmeye başlayacağız” diye yazdı. “Araştırmacılar, çalışmalarının p-değerleri ile değil, bilimlerinin kalitesi ve etkili iletişimi ile yargılanacağını bilerek tüm muhteşem belirsizlikleri içinde tüm bulgularını iletmekte özgür olacaklar.
Stanford Tıp profesörü ve Amerikan Doktorlar Derneği başkan yardımcısı John Ioannidis sürecin sona erdirilmesine karşı çıktı. JAMA’da yayınlanan 2019 tarihli bir mektupta , P değerleri ve istatistiksel anlamlılık, doğru kullanıldığında ve yorumlandığında değerli bilgiler sağlayabilir. İyileştirmelerin gerekli olduğunu kabul ediyor örneğin anlamlılığı ölçmek için daha iyi ve “daha az oynanabilir filtreler”. Ayrıca, “bilimsel işgücünün istatistiksel sayısallığının iyileştirilmesi gerektiğini” belirtiyor.
Virginia Tech’den Profesör Deborah Mayo ve Imperial College London’dan David Hand , “istatistiksel anlamlılığı değiştirmek, bırakmak veya emekliye ayırmak için son önerilerin bilimde istatistiğin merkezi bir işlevini baltaladığını” öne sürdüler. Araştırmacılar, bunun yerine, Mayıs 2022’deki makalelerinde, İstatistiksel Anlamlılık ve Eleştirileri: Zarar Veren Bilimi Uygulamak mı, yoksa Bilimsel Uygulamaya Zarar Vermek mi?
“Bir aletin yanlış anlaşılabilmesi ve kötüye kullanılabilmesi, o aleti elden çıkarmak için yeterli bir gerekçe değil” diye yazdılar.
Bu gönderi ilk olarak The Journalist’s Resource tarafından yayınlandı ve burada Creative Commons lisansı ile yeniden basıldı .
Ek kaynaklar
Verileri Yorumlama: Rakamları Nasıl Okuyacağınızı Bildiğinizden Emin Olmak İçin İpuçları
GIJN’nin 2021’in En İyi 10 Veri Gazeteciliği Projesi
GIJN’nin Veri Gazeteciliği Kaynakları Kılavuzu
Denise-Marie Ordway , ABD ve Orta Amerika’da gazete ve radyo istasyonlarında muhabir olarak çalıştıktan sonra 2015 yılında katıldığı The Journalist’s Resource’un yönetici editörüdür. Çalışmaları USA TODAY, The New York Times ve The Washington Post’ta yayınlandı. 2013 yılında Pulitzer Ödülü finalisti ve 2014-15 Harvard Nieman Üyesi oldu.