Araştırmacı gazetecilik için verileri kullanırken bilgilerin nasıl elde edileceğini ve temizleneceğini öğrenmek önemlidir. Ancak bulgularınızı doğru yorumlamanız ve sayılardan doğru sonuçları çıkarmanız da çok önemlidir. Matematiği doğru yapıp, cevabı hatalı okursanız hedef kitlenizi yanıltabilirsiniz.
Peki, bu neden oluyor? Bazen üzerinde çalıştığımız veriler sorduğumuz sorulara gerçekten cevap vermiyor. Diğer durumlarda, araştırmanın veri toplama ve analiz aşamalarında geleneksel gazetecilik etiğini uygulamayı unutabiliriz: Bakış açımızı destekleyen, bağlamı gözden kaçıran veya araştırmamıza çok fazla odaklanmayan istatistikleri rastgele seçmemeye dikkat etmeliyiz. Verilerin ne dediğini dinlemeliyiz. Unutmayın, veri gazeteciliğinde veri bizim kaynağımız ve ona saygı duymamız gerekir .
Yaygın hatalar
Birinci ders, ülkelere veya diğer dağılımlara göre toplanan verilere dayanarak bireyler hakkında sonuçlar çıkarmadığınızdan emin olmaktır. Bahsettiğiniz ülke veya yerdeki insanlar için gerçek, bu tür geniş kapsamlı verilerin sağladığı izlenimlerden çok farklı olabilir.
Kanadalı şirket Datassist’in kurucusu, We All Count adlı projeyi yürüten veri bilimci Heather Krause, ekolojik yanılgı olarak bilinen bu sorunu sigarayla ilgili bir örnekle açıklıyor. Bazı ülkelerde yaşam beklentisi ve içilen sigaralar incelendiğinde, pozitif bir korelasyon olduğu görülüyor.
Yani sigara tüketiminin yüksek olduğu ülkelerde insanların yaşam beklentisi de daha uzun. Ancak o zaman sayısız bilimsel çalışma aksini söylediği için değil, aynı zamanda bu örnekte incelenen veriler sigaranın bireylere ne yaptığını değerlendirmediği için, sigara içmenin sizi daha uzun süre yaşattığı sonucuna varmak yanlış olur.
Bu yanılgı, yanlış yorumlamaya yol açabilecek başka bir sorunu da ortaya çıkarmaktadır: Karşılaştırılan veriler neden-sonuç ilişkisi içinde değildir. Bunu söylemenin başka bir yolu: korelasyon nedensellik değildir. Veriler başlangıçta daha fazla sigara içmenin yaşam beklentisi üzerinde bir etkisi olup olmadığını görmek amacıyla toplanmadığından, istatistiksel analiz nedensel bir sonuç yerine bir tahmin gösteriyor.
Bu iki veri setine bakan muhabirler daha sonra zengin ülkelerdeki insanların sigara satın almasına ve aynı zamanda daha iyi sağlık hizmetlerine erişmesine izin veren satın alma gücü gibi korelasyon için olası bir açıklama bulmak için diğer değişkenleri de hesaba katmalıdır .
Hesaplarımızın doğru olduğundan emin olmanın yanı sıra, gazeteciler olarak rakamların aktarmaya çalıştığımız gerçeği ortaya çıkarıp çıkarmadığını da değerlendirmemiz gerekiyor. Arjantinli bir haber sitesi olan Infobae’deki Veri İstihbarat Birimi müdürü Sandra Crucianelli, “Ortalamalar konusunda çok dikkatli olun, veriler arasında çok büyük değer aralıkları varsa yanıltıcı olabilirler ” diye uyarıyor.
Bu, maaşlar veya eşitsizlikle ilgili diğer konular hakkında haber haperken oldukça sık olur. Eşitsizliğin yüksek olduğu ülkelerde, ortalama maaş rakamları, bu veriler zengin ve fakir arasındaki farkı yansıtmadığı için gerçeği yansıtmamaktadır.
Eski bir Nieman Vakfı Üyesi ve dijital abonelik ajansı Reveniu’nun kurucusu olan Miguel Paz, gazetecilere medyanı kullanmalarını tavsiye ediyor, organize bir veri listesinin merkezi konumunda bulunan değer çünkü bu. Bireylerin çoğunluğunun üzerinde yaşadığı şeye yaklaşıyor . “Ortalamalarda yazmayı bırakmalıyız!” çeşitli veri gazeteciliği projeleri geliştiren ve veri gazetecilerinin matematiği doğru yaparken bile nasıl hata yapabileceğine dair atölye çalışmaları yürüten Paz’ı teşvik ediyor.
Yüzdeler ve oranlar da sosyo-demografik koşulları tanımlarken iyi birer müttefiktir. Her yıl, polis ülkemdeki yani Kolombiya suç rakamlarını açıklar açıklamaz, “Medellín En Tehlikeli Şehir” veya “Bogota, Cep Telefonuna Sahip Olmak İçin En Kötü Yer” gibi düzinelerce medya raporu görüyorum. Ancak bu raporlar yalnızca mutlak değerleri kullanır ve bu nedenle gerçek güvenlik durumunu yansıtmaz . Bu hikayeler üzerinde çalışan gazeteciler, verileri nüfusa veya cep telefonu kullanımına göre bağlamsallaştırarak göreceli bir analiz yapsalardı, 8 milyonluk bir metropol olan Bogota’da veya 2,5 milyonluk bir şehir olan Medellin’de rakamların böyle olmadığını göreceklerdi.
Bu manşetler aynı zamanda genellemenin nasıl sorunlara yol açabileceğini de gösteriyor . Hangi şehrin en tehlikeli olduğunu doğru bir şekilde araştırmak için daha incelikli bir tablo çizmek için daha fazla sayıda gösterge gereklidir.
COVID-19 ve Büyük Veri Öğrenme Eğrisi
Gazeteciler, artan vaka sayılarını anlamak için bir gecede veri muhabiri olmak zorunda kaldılar, ancak uluslararası karşılaştırmalar zor olabilir. Resim: Shutterstock
COVID-19 kapsamında benzer bir şey oldu. Farklı ülkelerde enfekte olmuş kişilerin veya ölümlerin sayısını karşılaştıran birkaç rapor yayınlandı ancak bu karşılaştırmalar genellikle doğru değildi çünkü esas olarak bu durumda kullanılacak doğru ölçüm enfeksiyon oranıydı, nüfusa göre enfekte kişilerin sayısı ama aynı zamanda bir dizi başka faktörün uluslararası karşılaştırmaları zorlaştırmasından dolayı da bu sorun yaşandı.
Örneğin, salgının ilk aylarında bazı ülkeler bakım evlerinde meydana gelen ölümleri dahil etmedi ancak daha sonra dahil etti. Ve yalnızca virüsün ana ölüm nedeni olması veya ölüm anında virüsün varlığını doğrulayan bir test varsa, ulusal koronavirüs kayıtlarına yeni bir vaka ekleyen ülkelerle ilgili varyasyonlar vardı. Diğerleri daha az zorlu sayma kriterleri kullandı. Virüsün her ülkede bulunduğu süreyi de dikkate almak önemlidir çünkü bu faktör ve güçlü veya zayıf sağlık sistemleri gibi diğerlerini de her hükümetin pandemiye nasıl yanıt vereceğini öğrenmesinde de bir fark yaratır. Farklı ülkelerde enfekte olmuş insan sayısını veya ölümleri karşılaştıran birkaç rapor yayınlandı ancak bu karşılaştırmalar genellikle doğru değildi.
Pandeminin kapsamıyla ilgili olarak akılda tutulması gereken başka bir önemli gösterge daha var: Enfeksiyon ölüm oranı veya COVID-19 ölümlerinin tüm enfekte olanlara bölünmesi. Bu rakamla ilgili sorun, her ulusun kendi teşhis rejimini oluşturması, bazılarının diğerlerinden daha fazla test yapması, bazılarının pandemi geliştikçe test sıklığını değiştirmesi ve bu da karşılaştırmaları imkansız hale getiriyor. Ve elbette, birçok ülkede, uluslararası karşılaştırmalar yaparak, kayıtlı vakalar (test ekipmanı eksikliği nedeniyle) ve ölümler (tüm ölümlerin kayıtlı olmaması veya COVID-19 ile bağlantılı olmaması nedeniyle) açısından büyük bir eksik olduğuna inanılıyor. Britanya veya ABD ve Hindistan gibi ülkeler için zor bu durum. Örneğin Birleşik Krallık’ta, pandeminin başlangıcında, yalnızca hastanelere kabul edilen kişilere test yapıldı, bu da ölüm oranını gerçekte olduğundan daha yüksek gösteriyordu çünkü test rejimi sadece en ciddi vakaları yakalamıştı.
Pandemi, her alandaki gazetecilerin toplu verilerle doğru bir şekilde başa çıkabilmeleri için veri okuryazarlığının önemli olduğunu ve karşılaştırılamayan değişkenleri kötüye kullanmamaya dikkat etmemiz gerektiğini kanıtladı . Birçok kamu görevlisi bu tür bir hata yapar ve gazeteciler olarak bu hataları tespit etmeyi ve onlardan kaçınmayı öğrenmeliyiz.
Başka bir örnek ama pandemi öncesi dünyadan: Bir Kongre Üyesinin Colombiacheck tarafından iddiası incelendiğinde Kolombiya medyası ülkede kırsal arazi Siyah ve Yerli toplulukların elinde demişti. Bu topluluklar, ülkede uzun süredir devam eden çatışmaların bir sonucu olarak sık sık toprak gaspının kurbanı olduklarından, büyük bir tartışmaya neden olmuşlardı. Muhabirler onun ifadesini kontrol ederken, resmi rakamlar bu iki grubun toplamda diğer etnik gruplara mensup Kolombiyalılardan daha fazla araziye sahip olduğunu gösterse de , bu toplulukların kolektif mülkiyet eylemlerinin, bu topluluklardaki bireylerin icra ettikleri anlamına geldiğini ileri sürmenin bir hata olduğunu öğrendiler.
Veri Yorumlamanızın Kurşun Geçirmezliği İçin İpuçları
Yayınlamadan önce verileri doğru yorumladığınızdan emin olmak için bir kontrol listesi:
- Daima kendinize, verilerin gerçekten araştırma sorunuzla ilgili olup olmadığını sorun. Yeterli bilgi var mı? Sor: Ona doğru açıdan mı bakıyorum? Verilere yeterince soru soruyor muyum? Tüm önemli nüanslarını görecek kadar parçalara ayırıyor muyum? Değişkenler karşılaştırılabilir mi?
- Hikayeyi sahip olduğunuz veri düzeyine göre anlatın. Yalnızca ülke düzeyinde bilgiye sahipseniz, bulgularınız yalnızca ulusal eğilimleri veya tahminleri ele almalıdır. Bireysel düzeyde verileriniz varsa, insanların davranışları veya eğilimleri hakkında sonuçlar çıkarabilirsiniz.
- Analiz ettiğiniz değişkenler arasında doğrudan bir nedensellik ilişkisi olup olmadığını (biri diğerine neden oluyor) veya dikkate alınması gereken ara unsurlar olup olmadığını doğrulayın. Bunu, verilerin toplanma ve işlenme şekline bakarak yapabilirsiniz.
- Korelasyon nedensel değil de tahmine dayalıysa, hikayeyi bu şekilde, ” x artarsa, y’nin düşmesi daha olasıdır ” gibi cümlelerle anlattığınızdan emin olun . Korelasyon tesadüfi ise, onu atmayı düşünün.
- Her kaydın neyi temsil ettiğinin (bir kişi, bir olgu, bir vaka, bir yer) farkında olun ve bulgularınızı buna göre tanımlayın.
- Aykırı değerler bulduğunuzda, bunları hemen yayınlamak için acele etmeyin. İlk olarak, aşırı yüksek veya düşük değerlerin açıklamasının onları gerçekten haber değeri taşıyıp taşımadığına, veriler hatalıysa veya aykırı değerleri açıklayan fazladan bir öğe olup olmadığına bakın.
- Verilerinizi analiz etmek için hangi istatistiksel işlemi kullanacağınızı düşünün: yüzdelerle, ortalama kullanarak, oran. Kararınız, verilerin özelliklerine ve konuya bağlı olacaktır.
- Uzmanlarla konuşun. Bir istatistikçi, uğraştığınız veri türünü belirlemenize yardımcı olabilir: tahmine dayalı, nedensel, karşılaştırılabilir veya karşılaştırılamaz, vb. Ayrıca, hikayenizin belirli alanındaki bir uzman, boşlukları, yanlış yorumları, eksik öğeleri ve yeni bağıntıları görmenize yardımcı olmalıdır.
Son olarak, verilere yapılan bu derin dalışların bir sonucu olarak yayınlanan hikayelerin, insanların ve hükümetlerin karar verme şeklini şekillendirdiğini hiç unutmayın. Veri işleme ve veri okuryazarlığı önemlidir. Gerekli tüm faktörleri hesaba katmaz ve gerekli bağlamsal analiz olmadan sonuçlara varmazsak, yanlış odak noktasına dikkat çekebilir, istemeden insanları kendilerine zarar verebilecek alışkanlıklar edinmeye ikna edebilir veya bir parçayı hariç eksik kalan bir hikaye üretebiliriz..
Ek kaynaklar
Araştırmalar için Veritabanı Oluşturmaya Yönelik İpuçları
İlişkilerden Sıralamaya: Bir Sonraki Veri Hikayeniz İçin Açılar
COVID-19 Pandemisi Veri Gazeteciliğini Nasıl Şekillendirdi?
Miriam Forero Ariza , çalışmaları VICE, Colombiacheck ve El Espectador tarafından yayınlanan Kolombiyalı serbest çalışan bir araştırmacı gazeteci ve veri gazetecisidir. Ortak araştırma, veri analizi ve görselleştirme konularında on yıldan fazla deneyime sahiptir. Iberoamerican Veri Gazeteciliği El Kitabı’nın ortak yazarıdır.