खोजी पत्रकारिता में डेटा का उपयोग बहुत महत्वपूर्ण होता है। एक रिपोर्टर के लिए डेटा का उपयोग करते समय, यह महत्वपूर्ण है कि डेटा कैसे प्राप्त करें और उसे कैसे सफाई के साथ पेश करें। साथ ही यह भी महत्वपूर्ण है कि आप अपने निष्कर्षों की सही व्याख्या करें और संख्याओं, फ़िल्टरों और स्प्रेडशीट से सही निष्कर्ष तक पहुंचें। यह इसलिए भी ज़रूरी है कि अगर आप ने डेटा को सही ढंग से समझ लिया, लेकिन डेटा से जुड़ी जानकारी समझाने में असफल हुए, तो आप अपने दर्शकों को गुमराह कर सकते हैं।
ऐसा क्यों होता है? दरअसल, कभी-कभी, जिस डेटा पर हम काम करते हैं, वह वास्तव में हमारे द्वारा पूछे जाने वाले प्रश्नों का सही संदर्भों में उत्तर नहीं होता है। ऐसा इसलिए होता है क्योंकि हम खोजी रिपोर्टिंग से जुड़े डेटा संग्रह और विश्लेषण चरणों के दौरान पारंपरिक पत्रकारिता की नैतिकता को लागू नहीं कर पाते हैं। ऐसे में हमें सावधान रहना चाहिए कि हम उन आँकड़ों का ही चयन न करें जो हमारे दृष्टिकोण का समर्थन करते हों। कई बार हम संदर्भ को छोड़ देते हैं या अपने प्रश्न को इतना महत्वपूर्ण मान लेते हैं कि यह समझ ही नहीं पाते कि डेटा वास्तव में क्या कहना चाह रहा है। याद रखें, डेटा पत्रकारिता में डेटा हमारा स्रोत है और हमें इसका सम्मान करना चाहिए।
सामान्य तौर पर होने वाली गलतियां
सबसे पहले इस बात का ध्यान रखें कि आप अलग-अलग देशों या अन्य विश्लेषणों द्वारा एकत्रित डेटा के आधार पर व्यक्तियों के बारे में अपना दृष्टिकोण प्रस्तुत न करें। क्योंकि आप जिस देश या स्थान के बारे में बात कर रहे हैं, वहां के लोगों की वास्तविकता ऐसे व्यापक डेटा द्वारा प्रदान किए गए विचारों (इम्प्रेशन) से बहुत भिन्न भी हो सकती है।
डेटा वैज्ञानिक हीथर क्रॉस, कनाडा की कंपनी डेटासिस्ट के संस्थापक है। इसके अलावा उन्होंने डेटा विज्ञान We All Count में निष्पक्षता के लिए परियोजना पर काम किया है, उन्होंने इस समस्या की व्याख्या करते हुए सिगरेट के एक उदाहरण के साथ इस बात को समझाने की कोशिश की है, जिसे पारिस्थितिक भ्रांति के रूप में जाना जाता है।
उदाहरण कुछ इस तरह हैं: कई देशों में सिगरेट पी जाती है, ऐसे में जब वहां के लोगों की आयु संभाविता (जन्म के समय आयु की संभावना) के बारे में जांच की गई तो सामने आया कि धूम्रपान और आयु के बीच एक सकारात्मक पारस्परिक संबंध है। कुछ देशों में जहां सिगरेट की खपत अधिक थी वहां लोगों की सामान्य आयु भी अधिक पाई गई। यानी जिन देशों में सिगरेट की खपत अधिक होती है, वहां लोगों की आयु भी लंबी होती है। हालांकि, ऐसी स्थिति में यह निष्कर्ष निकालना गलत होगा कि धूम्रपान आपको लंबे समय तक जीवित रखता है, न केवल इसलिए कि तर्क और कई वैज्ञानिक अध्ययन इसके विपरीत हैं, बल्कि इसलिए भी कि इस उदाहरण में जांचे गए डेटा ने यह मूल्यांकन नहीं किया कि सिगरेट व्यक्तियों के लिए क्या करती है, यह केवल दो एकत्रित डेटा के राष्ट्रीय संकेतकों की तुलना करता है।
यह भ्रम एक और समस्या खड़ा करता है, जिससे गलत व्याख्या (अनुमान) हो सकती है, जिस डेटा की तुलना की जा रही है वह कारण व प्रभाव से संबंधित नहीं है। दूसरे शब्दों में दोनों निष्कर्षों का सहसम्बन्ध नहीं है। क्योंकि डेटा मूल रूप से यह देखने के उद्देश्य से एकत्र नहीं किया गया था कि क्या अधिक सिगरेट पीने से आयु पर प्रभाव पड़ता है, ऐसे में सांख्यिकीय (डेटा) विश्लेषण परिणाम के बजाय भविष्यवाणी करता हुआ प्रतीत होता है।
डेटा के इन दो सेटों को देखने वाले रिपोर्टर को पारस्परिक संबंध के लिए एक संभावित स्पष्टीकरण खोजने के लिए अन्य प्रभावी कारकों को भी ध्यान में रखना चाहिए, जैसे उस देश के लोगों की किसी भी वस्तु को क्रय करने की शक्ति कैसी है? जैसे अमीर देशों में लोगों को सिगरेट खरीदने की क्षमता अधिक होती है, वहीं, दूसरी तरफ ऐसे देश में बेहतर स्वास्थ्य सेवा भी मौजूद होती है।
अर्जेंटीना की एक समाचार साइट इन्फोबे (Infobae) में डेटा इंटेलिजेंस यूनिट की निदेशक सैंड्रा क्रूसियानेली ने चेतावनी देते हुए कहा कि, यह सुनिश्चित करने से पहले कि हमारी गणना सटीक है, पत्रकारों के रूप में हमें यह आकलन करने की आवश्यकता है कि क्या आंकड़े उस वास्तविकता को प्रकट करते हैं, जिसे हम रिपोर्ट करने का प्रयास कर रहे हैं। औसत किस्म के डाटा के साथ बहुत सावधान रहें: डेटा के बीच मूल्यों के बहुत बड़े अंतराल होने पर वे भ्रामक हो सकते हैं।
वेतन या असमानता से संबंधित अन्य मुद्दों के बारे में रिपोर्ट करते समय अक्सर ऐसा होता है। जिन देशों में अमीर-गरीब के बीच गहरी खाई होती है, ऐसे देशों में औसत वेतन के आंकड़े वास्तविकता का प्रतिनिधित्व नहीं करते हैं, क्योंकि यह डेटा अमीर और गरीब के बीच की खाई को प्रकट करने में विफल रहता है।
मिगुएल पाज़, नीमन फ़ाउंडेशन के पूर्व फैलो और डिजिटल सब्सक्रिप्शन एजेंसी रेवेन्यू के संस्थापक हैं, उन्होंने पत्रकारों को बीच का रास्ता उपयोग करने की सलाह दी, वह मूल्य जो डेटा की एक संगठित सूची की केंद्रीय स्थिति में निहित होता है। क्योंकि यह उस चीज के करीब पहुंच जाता है जिस पर अधिकांश व्यक्ति निर्भर होते हैं। “हमें औसत दर्जें की पत्रकारिता बंद कर देना चाहिए!” उन लोगों का शुक्रगुजार हूं, जिन्होंने विभिन्न प्रकार की डेटा पत्रकारिता परियोजनाओं को विकसित किया है और इस पर कार्यशालाओं का आयोजन किया है कि कैसे डेटा पत्रकार गणित को सही तरीका इस्तेमाल करते हुए भी गलतियां कर सकते हैं।
सामाजिक-जनसांख्यिकी स्थितियों का वर्णन करते समय प्रतिशत और दरों का उपयोग भी सहायक है। जैसे, हर साल पुलिस मेरे देश – कोलंबिया में अपराध के आंकड़े जारी करती है। इसके बाद मैं दर्जनों ऐसी मीडिया रिपोर्ट्स को देखता हूं, जिनकी हैडिंग बहुत ही हैरान करने वाली होती हैं, जैसे “मेडेलिन सबसे खतरनाक शहर है” या “बोगोटा (Bogotá) में सेलफोन रखना भी सुरक्षित नहीं है”। लेकिन ये रिपोर्ट केवल निरपेक्ष मूल्यों का उपयोग करती हैं और इसलिए, वास्तविक सुरक्षा स्थिति को प्रस्तुत करने में विफल रहती हैं। जबकि, हकीकत यह है कि अगर इन खबरों पर काम कर रहे पत्रकारों ने इन शहरों की जनसंख्या और कितने लोग सेलफोन का उपयोग कर रहे हैं जैसे डेटा पर ध्यान दिया होता तो वह पाएंगे कि महानगर बोगाटा शहर की जनसंख्या 8 मिलियन और मेडेलिन शहर की जनसंख्या मात्र 2.5 मिलियन है, ऐसे में अपराध के आंकड़े इतने बुरे नहीं है जितना कि उन्हें पेश किया जा रहा है और वास्तव में, प्रति व्यक्ति अपराध दर उच्च स्तर पर होने वाले अन्य शहरों में असुरक्षा पर अधिक ध्यान देने की आवश्यकता है ।
ऐसी हैडिंग यह भी दिखाती हैं कि सनसनी कैसे समस्याएं पैदा कर सकती है। ठीक से पता लगाने के लिए कि कौन सा शहर सबसे खतरनाक है, अधिक सूक्ष्म चित्र को चित्रित करने के लिए व्यापक संख्या में संकेतकों की आवश्यकता होती है।
कोविड-19 और डेटा सीखने की अवस्था
कोविड-19 के कवरेज के दौरान भी डेटा को लेकर ऐसा ही कुछ हुआ। विभिन्न देशों में संक्रमित लोगों की संख्या या मौतों की तुलना करते हुए कई रिपोर्टें प्रकाशित की गई, लेकिन ये तुलना आमतौर पर सटीक नहीं दिखी। क्योंकि मुख्य रूप से इस तरह की महामारी के मामले में सही माप का तरीका संक्रमण दर है। जनसंख्या के हिसाब से संक्रमित लोगों की संख्या और कई अन्य कारकों ने अंतर्राष्ट्रीय तुलनाओं को कठिन बना दिया है।
उदाहरण के लिए, कोविड-19 महामारी की पहली लहर के दौरान, कुछ देशों ने घरों में इलाज करा रहे संक्रमित लोगों की हुई मौतों को शामिल नहीं किया, लेकिन बाद में ऐसा किया गया। कई देशों में ऐसे करने पर कई तरह की भिन्नताएं भी सामने आई आईं। उन देशों ने कोरोनावायरस से हुई मौत को तभी दर्ज किया जब वायरस मृत्यु का मुख्य कारण था या मृत्यु के समय शरीर में वायरस की उपस्थिति की पुष्टि डॉक्टरों द्वारा की गई। कुछ ने इन बातों को नजरअंदाज करते हुए भी मौतों को कोविड मानकर रिकॉर्ड में दर्ज कर लिया। प्रत्येक देश में वायरस कितने समय से मौजूद है, इस पर विचार करना भी महत्वपूर्ण है, क्योंकि ऐसी महामारी मजबूत या कमजोर स्वास्थ्य प्रणाली पर असर डालते हैं, ऐसे में ये जानना बहुत महत्वपूर्ण है कि प्रत्येक सरकार महामारी पर सवालों का जवाब किस तरह दे रही है।
महामारी की खबरों से जुड़ी ध्यान में रखने के लिए एक और महत्वपूर्ण बात हैः संक्रमण मृत्यु दर या सभी कोरोना संक्रमितों पर मौतों की संख्या। इस आंकड़े के साथ समस्या यह है कि प्रत्येक राष्ट्र ने अपनी निदानकारी व्यवस्था स्थापित की है, कुछ ने दूसरों की तुलना में अधिक परीक्षण किया है, कुछ ने परीक्षण का तरीका ही बदल दिया है क्योंकि महामारी लगातार बढ़ती गई, जिससे तुलना भी असंभव हो जाती है। निश्चित रूप से, कई देशों ने माना है कि पंजीकृत मामलों की संख्या में भारी कमी है, जबकि मौतों की संख्या बहुत अधिक है, ऐसा जांच उपकरणों की कमी के कारण भी हुआ है और इसका एक कारण यह भी है कि सभी मौतों को पंजीकृत या कोविड-19 से लिंक नहीं किया। ऐसी स्थिति में ब्रिटेन, अमेरिका और भारत जैसे देशों की अंतरराष्ट्रीय स्तर पर तुलना करना मुश्किल है। उदाहरण के लिए, यूके में, महामारी की शुरुआत में, केवल उन लोगों का परीक्षण किया गया, जिन्हें अस्पतालों में भर्ती कराया गया था। जिसने मृत्यु दर को वास्तव में उससे अधिक बना दिया, क्योंकि परीक्षण व्यवस्था ने केवल सबसे गंभीर मरीजों के मामलों को गंभीरता से लिया था।
महामारी ने साबित कर दिया है कि हर क्षेत्र में पत्रकारों के लिए डेटा से जुड़ी शिक्षा महत्वपूर्ण है ताकि एकत्रित डेटा के साथ सही ढंग से निपटा जा सके और हमें अनावश्यक तुलनाओं से बचकर रहना चाहिए, डेटा का दुरुपयोग न करें। कई सरकारी अधिकारी इस तरह की गलती करते हैं और पत्रकारों के रूप में हमें इन गलतियों को पहचानना और उनसे बचना सीखना चाहिए।
एक और उदाहरण है, लेकिन इस बार हम महामारी से पहले की दुनिया के बारें में बात करेंगेः कोलंबिया में तथ्य की जांच (fact-check) करने वाला पहला मीडिया संगठन, कोलम्बियाचेक ( colombiacheck.com) है। कोलम्बियाचेक ने एक कांग्रेसी महिला के उस दावे की जांच की, जिसमें उसने आरोप लगाया कि देश में ग्रामीण भूमि, अश्वेत और स्वदेशी समुदायों के हाथों में केंद्रित थी। जिसने एक बड़ा विवाद खड़ा कर दिया, क्योंकि यह समुदाय देश में लंबे समय से चल रहे संघर्ष के परिणामस्वरूप भूमि अधिग्रहण के लगातार शिकार हैं। उनके बयान की जांच करते हुए पत्रकारों ने पाया कि, भले ही आधिकारिक संख्या से पता चलता है कि उन दो समूहों के पास अन्य जातीय समूहों के कोलम्बियाई लोगों की तुलना में अधिक भूमि है, लेकिन उन समुदायों के सामूहिक स्वामित्व कार्यों का सुझाव देना एक गलती थी, जिसका अर्थ था कि उन समुदायों के भीतर के व्यक्तियों ने अधिक जमींदार शक्ति का प्रयोग किया।
डेटा से जुड़ी जानकारी की विवेचना के लिए टिप्स
प्रकाशन से पहले डेटा की सही व्याख्या या पड़ताल लिए जांच सूची:
- हमेशा अपने आप से पूछें कि क्या डेटा वास्तव में आपके खोजी प्रश्न से संबंधित है। क्या पर्याप्त जानकारी है? क्या मैं इसे सही नजरिये से देख रहा हूं? क्या मैं डेटा के लिए पर्याप्त प्रश्न पूछ रहा हूं? क्या मैं इसकी सभी महत्वपूर्ण बारीकियों को देखने के लिए इसे पर्याप्त रूप से ब्रेक कर रहा हूं? क्या डेटा के प्रकार तुलनीय हैं?
- आपके पास मौजूद डेटा के स्तर के अनुसार खबर को प्रस्तुत या प्रकाशित करें। यदि आपके पास केवल राष्ट्रीय-स्तर की जानकारी है, तो आपके निष्कर्षों को केवल राष्ट्रीय प्रवृत्तियों या पूर्वानुमानों को संबोधित करना चाहिए। यदि आपके पास व्यक्तिगत स्तर पर डेटा है, तो आप लोगों के व्यवहार या प्रवृत्तियों के बारे में निष्कर्ष निकाल सकते हैं।
- सत्यापित करें कि आप जिन डेटा के प्रकारों का विश्लेषण कर रहे हैं उनका सीधा संबंध है (एक कारण दूसरे का भी कारण है)। यदि मध्यस्थ तत्व हैं, तो इन्हें ध्यान में रखा जाना चाहिए। आप डेटा एकत्र करने और संसाधित करने के तरीके को देखकर ऐसा कर सकते हैं।
- यदि पारस्परिक संबंध कारण नहीं है, लेकिन भविष्य कहने वाला है, तो कहानी को इस तरह से बताना सुनिश्चित करें, जैसे वाक्यों के साथ: “यदि x बढ़ता है, तो यह अधिक संभावना होगी कि y गिर जाएगा।” यदि पारस्परिक संबंध केवल संयोग है, तो इसे त्यागने पर विचार करें।
- इस बात से अवगत रहें कि प्रत्येक पंजीकरण क्या दर्शाती है (एक व्यक्ति, एक तथ्य, एक मामला, एक स्थान) और तदनुसार अपने निष्कर्षों का वर्णन करें।
- जब आपको बाहरी कारकों (अन्य लोगों ) के कारण डेटा मिलते हैं, तो उन्हें प्रकाशित करने में जल्दबाजी न करें। सबसे पहले देखें कि, क्या किसी अत्यंत उच्च या निम्न मूल्यों के लिए स्पष्टीकरण वास्तव में उन्हें समाचार योग्य बनाता है, यदि डेटा त्रुटिपूर्ण है या यदि कोई पराया आदमी है जो इसकी व्याख्या कर रहा है।
- विचार करें कि आप अपने डेटा विश्लेषण के लिए किस सांख्यिकीय विधि का उपयोग करेंगे: प्रतिशत के साथ, औसत, दर या अनुपात का उपयोग करते हुए । आपका निर्णय डेटा की विशेषताओं और विषय पर निर्भर करेगा।
- विशेषज्ञों से बात करें। एक सांख्यिकी विशेषज्ञ आपको उस डेटा के प्रकार की पहचान करने में मदद कर सकता है जिसके साथ आप काम कर रहे हैं: भविष्य बताने वाला, कारण, तुलनीय है या नहीं, आदि। साथ ही, आपकी खबर के विशिष्ट क्षेत्र के विशेषज्ञ आपको अंतराल, गलत व्याख्या, लापता तत्वों और नए पारस्परिक संबंधों को देखने में मदद कर सकते हैं।
अंत में, हमेशा ध्यान रखें कि डेटा में इन बातों का उपयोग करने से परिणामस्वरूप प्रकाशित होने वाली कहानियां लोगों और सरकारों के निर्णय लेने के तरीके को आकार देती हैं। डेटा प्रोसेसिंग और डेटा साक्षरता बहुत जरूरी है। यदि हम सभी आवश्यक कारकों को ध्यान में नहीं रखते हैं और आवश्यक प्रासंगिक विश्लेषण के बिना निष्कर्ष निकालते हैं, तो हम लोगों का ध्यान गलत जगह ले जायेंगे। इससे हम अनजाने में लोगों को उन आदतों को अपनाने के लिए राजी कर सकते हैं जो उन्हें नुक़सान पहुंचा सकती हैं या एक ऐसी कहानी तैयार कर सकती हैं जिसमें जनसंख्या का एक हिस्सा शामिल नहीं है।
Tips for Building a Database for Investigations
From Relationships to Ranking: Angles for Your Next Data Story
How the COVID-19 Pandemic Has Shaped Data Journalism
यम फ़ोरो एरिज़ा एक कोलंबियाई स्वतंत्र खोजी और डेटा पत्रकार हैं, जिनका काम VICE, Colombiacheck और El Espectador द्वारा प्रकाशित किया गया है। उनके पास सहयोगात्मक जांच, डेटा विश्लेषण और विज़ुअलाइज़ेशन में एक दशक से अधिक का अनुभव है। वह इबेरोअमेरिकन डेटा जर्नलिज्म हैंडबुक की सह-लेखिका हैं।