डेटा जर्नलिज़्म: पत्रकारों के लिए ‘मानक विचलन’ से सबंधित 4 जरूरी बातें

PrintRepublish More

इमेज: शटरस्टॉक

डेटा पत्रकारों को ‘अकादमिक शोध’ से महत्वपूर्ण खबरें मिलती हैं। ऐसे शोध दस्तावेज में ‘मानक विचलन’ शब्द का अक्सर उपयोग होता है। पत्रकारों को इसका अर्थ अच्छी तरह समझना चाहिए। तभी आप अपने पाठकों को इसके बारे में बेहतर जानकारी दे पाएंगे। इस आलेख में  ‘मानक विचलन’ शब्द के बारे में विस्तार से बताया गया है। ‘मानक विचलन’ के संबंध में चार प्रमुख चीजें हैं, जिन्हें आपको जानना आवश्यक है।

1. ‘मानक विचलन’ (Standard Deviation) ऐसी संख्या है, जो बताती है कि डेटा में कितनी भिन्नता है।

संख्यात्मक या मात्रात्मक डेटा में इसका प्रयोग होता है। जैसे, जन्म-दर, तापमान की गणना, या छात्रों की परीक्षा के अंकों का विश्लेषण। ऐसे मामलों में शोधकर्ता आमतौर पर डेटा के ‘मानक विचलन’ की गणना करते हैं। इसमें बताते हैं कि डेटा कितना करीब या दूर है। अगर यह ‘उच्च मानक विचलन’ हो, तो इसका मतलब है कि डेटा अधिक फैला हुआ है। अगर ‘मानक विचलन’ निम्न हो, तो डेटा का औसत मूल्य उस डेटा क्लस्टर से ज्यादा करीब होगा।

‘ओहियो स्टेट यूनिवर्सिटी’ में सांख्यिकी विषय की प्रोफेसर डेबोरा जे. रुम्सी अपनी पुस्तक ‘स्टैटिस्टिक्स फॉर डमीज़’ में लिखती हैं – “मानक विचलन से हमें महत्वपूर्ण संदर्भ मिलता है। इसके बिना, हमें किसी डेटा का केवल एक हिस्सा मिल सकता है। सांख्यिकीविद किसी ऐसे व्यक्ति की कहानी सुनाना पसंद करते हैं, जिसका एक पैर बर्फ के पानी वाली बाल्टी में हो जबकि दूसरा पांव किसी उबलते पानी वाली बाल्टी में हो। वह व्यक्ति ऐसा कह सकता है कि औसतन उसे ठंडे और गर्म दोनों तरह के पानी के एहसास से बहुत अच्छा लगा! लेकिन उसके दोनों पैर के अलग-अलग दो तापमानों के बीच काफी फर्क होगा।”

प्रोफेसर डेबोरा जे. रुम्सी ने कुछ और दिलचस्प उदाहरण दिए। अपनी पुस्तक में वह लिखती हैं- “अगर आपको किसी क्षेत्र में मकानों की औसत कीमत बताई जाए, तब भी आपको उस खास मकान की कीमत का सही पता नहीं चल पाएगा, जो आपको पसंद है। यानी वह औसत मूल्य से कितना सस्ता या कितना महंगा है। इसी तरह, किसी कंपनी में औसत वेतन से कोई अंदाज लगाना मुश्किल होगा, यदि उसके न्यूनतम और अधिकतम वेतन के बीच का फासला बहुत अधिक हो।”

2. भविष्यवाणी करने, प्रवृत्तियों की जांच और शोध प्रश्न का उत्तर देने में ‘मानक विचलन‘ का उपयोग।

डेटासेट का ‘मानक विचलन‘ कई अकादमिक अध्ययनों में सीमित भूमिका निभाता है। वैज्ञानिक केवल उस ‘मानक विचलन’ के मान की तालिका या सूची बना सकते हैं, या अपने लेख के मुख्य भाग में उनका उल्लेख कर सकते हैं।

लेकिन कई बार शोधकर्ता अपने अध्ययन के लिए केंद्रीय प्रश्नों का उत्तर देने में मदद के लिए माप पर काफी भरोसा करते हैं। जैसे:

  • मौसम का अनुमान, मतदाता व्यवहार, टैक्स राजस्व, स्वास्थ्य देखभाल सामग्री का उपयोग इत्यादि मामलों में एकत्र किए गए डेटा के ‘मानक विचलन’ के आधार पर भविष्यवाणियां कर सकते हैं।
  • इक्विटी मार्केट के शोधकर्ता आमतौर पर शेयर बाजार की अस्थिरता को मापने के लिए स्टॉक की कीमतों के ‘मानक विचलन’ का उपयोग करते हैं। इसमें ‘उच्च मानक विचलन’ का मतलब है कि शेयर मार्केट में उच्च अस्थिरता का संकेत है।
  • छात्रों की परीक्षा के अंकों की जांच करने वाले शोधकर्ता ‘मानक विचलन’ का उपयोग करके बता सकते हैं कि अधिकांश छात्रों को औसत या उसके करीब अंक मिले या इसमें काफी भिन्नता है। इसके जरिए उन छात्रों के अनुपात का पता लगा सकते हैं जिन्हें अधिक सहायता की आवश्यकता है।

‘मानक विचलन’ की गणना कैसे करें? इसका संक्षिप्त विवरण यहां दिया गया है।

3. कुछ वैज्ञानिक ‘इंच’ या ‘पाउंड’ जैसी किसी माप इकाई के बजाय ‘मानक विचलन’ के रूप में अपने निष्कर्ष प्रस्तुत करते हैं.

जब डेटासेट में विभिन्न इकाइयों के साथ डेटा बिंदु होते हैं, तो वैज्ञानिकों को अक्सर तुलना करने और संबंधों की तलाश करने से पहले डेटा का मानकीकरण करने की आवश्यकता होती है। जैसे, संतरे के रस की खपत को ‘औंस’ या ‘ग्राम’ में मापा गया हो। इसके साथ ‘फ्लू टीकाकरण’ की दर के बीच संबंधों की जांच करना हो। प्रति एक लाख नागरिकों में हर महीने कितने टीके लगाए गए।

डेटा के मानकीकरण की प्रक्रिया में प्रत्येक संख्यात्मक डेटा बिंदु को डेटासेट के ‘मानक विचलन’ से विभाजित किया जाता है। ऐसा करने से माप की इकाइयों में परिवर्तन होता है। सामान्य इकाइयों जैसे औंस, इंच, पाउंड या किलोग्राम का उपयोग करके निष्कर्ष बताने के बजाय इन्हें ‘मानक विचलन’ के रूप में रिपोर्ट करना चाहिए।

हाइपोथेटिक या परिकल्पना के रूप में देखें। संतरे के रस की खपत और फ्लू टीकाकरण दरों पर शोध करने वाले वैज्ञानिक यह निष्कर्ष निकाल सकते हैं कि संतरे के रस की खपत में एक ‘मानक विचलन’ की वृद्धि होने पर टीकाकरण दरों में एक ‘मानक विचलन’ की कमी होगी।

डेटासेट का मानकीकरण करने से शोधकर्ताओं का काम आसान होता है। ‘हार्वर्ड मेडिकल स्कूल’ में न्यूरोलॉजी के एसोसिएट प्रोफेसर ब्रायन हीली के अनुसार सामान्य पाठकों को शोध के परिणाम समझने में कठिनाई हो सकती है। इसलिए पत्रकारों को ऐसे शोध पत्रों को बारीकी से पढ़ने के बाद आम पाठकों को समझाने लायक भाषा में लिखना चाहिए।

“जब तक आप वास्तव में कागज में बारीकी से नहीं देखते हैं, आपको पता नहीं चलेगा कि एक ‘मानक विचलन‘ का क्या अर्थ है।” ब्रायन हीली कहते हैं। वह ब्रिघम स्थित ‘पार्टनर्स मल्टीपल स्केलेरोसिस सेंटर’ और बोस्टन स्थित महिला अस्पताल में प्रमुख बायो स्टैटिस्टियन भी हैं।

वे कहते हैं- “किसी शोध के परिणाम जिन इकाइयों में दिखाए जा रहे हैं, उन इकाइयों को अच्छी तरह समझें। यदि रिपोर्ट में कोई संख्या दी गई है, तो आपको यह समझना होगा कि उस संख्या की व्याख्या कैसे करें। उन इकाइयों को जाने बिना आप यह नहीं समझ सकते कि संख्या की व्याख्या कैसे करें।”

4. ‘मानक विचलन’ के जरिए यह पुष्टि कर सकते हैं कि कोई डेटा बिंदु ‘बाहरी’ है अथवा नहीं।

बाहरी (आउटलाइअर) परिणाम ऐसे अत्यधिक उच्च या निम्न मान हैं जो सांख्यिकीय विश्लेषणों और विषम परिणामों को जटिल बना सकते हैं। कई शोधकर्ता किसी त्रुटि के कारण होने वाले आउटलाइअर्स को बदल या हटा देते हैं। जैसे, डेटा एकत्र करने या दर्ज करने में त्रुटि।

किसी डेटासेट में सभी डेटा के ग्राफ़ को देखने पर कुछ डेटा बिंदु बाहरी या आउटलाइअर प्रतीत होते हैं क्योंकि वे दूसरों से बहुत भिन्न होते हैं। डेटासेट का ‘मानक विचलन’ इस बात को ध्यान में रखता है कि व्यक्तिगत मान किसी औसत से कितनी दूर है। वैज्ञानिक अक्सर इसका उपयोग यह पता लगाने के लिए करते हैं कि क्या असामान्य डेटा बिंदु एक ‘बाहरी’ है। यह तरीका उन डेटासेट में अच्छी तरह काम करता है, जो एक घंटी के आकार के वक्र के पैटर्न का पालन करते हैं। इसमें अधिकांश डेटा का घंटी के केंद्र के पास अभिसरण होता है, जहां औसत मान स्थित होता है।

उस डेटासेट के लिए ‘मानक विचलन’ की गणना करने के बाद, आउटलाइअर्स को खोजना आसान है। घंटी के आकार के वक्र का अनुसरण करने वाले डेटा के लिए एक सामान्य नियम यह है कि लगभग 99.7 प्रतिशत डेटा औसत के तीन ‘मानक विचलन’ के भीतर होगा। इस सीमा से बाहर के डेटा को आमतौर पर आउटलाइअर माना जाता है।

किसी डेटासेट का ‘मानक विचलन’ आउटलाइअर्स द्वारा प्रभावित होता है। लेकिन पत्रकारों को यह नहीं समझना चाहिए कि कोई बड़ा ‘मानक विचलन’ किसी डेटा की गुणवत्ता की समस्याओं को इंगित करता है। ‘स्टैटिस्टिक्स फॉर डमीज़’ में प्रोफेसर डेबोरा जे. रुम्सी लिखती हैं- “एक बड़ा ‘मानक विचलन’ जरूरी नहीं कि एक बुरी चीज हो। यह सिर्फ अध्ययन किए जा रहे उस समूह में बड़ी मात्रा में भिन्नता को दर्शाता है।”

इस पोस्ट का मूल रूप से प्रकाशन  ‘द जर्नलिस्ट्स रिसोर्स’ द्वारा किया गया। इसे ‘क्रिएटिव कॉमन्स लाइसेंस’ के तहत यहां पुनर्मुद्रित किया गया है। ‘द जर्नलिस्ट्स रिसोर्स’ इस टिपशीट को बनाने में मदद के लिए यूनिवर्सिटी ऑफ साउथ फ्लोरिडा के कॉलेज ऑफ पब्लिक हेल्थ में स्वास्थ्य अर्थशास्त्र के प्रोफेसर ट्रॉय क्वास्ट और हार्वर्ड मेडिकल स्कूल में न्यूरोलॉजी के एसोसिएट प्रोफेसर ब्रायन हीली का आभारी है।

अतिरिक्त संसाधन

5 Things Journalists Need to Know About Statistical Significance

New Data Tools and Tips for Investigating Climate Change

GIJN Resource Center: Data Journalism


डेनिस-मैरी ऑर्डवे ‘द जर्नलिस्ट्स रिसोर्स’ की प्रबंध संपादक हैं। उन्होंने यूएसए और मध्य अमेरिका में समाचार पत्रों और रेडियो स्टेशनों के लिए भी काम किया है। उनका लेखन यूएसए टुडे, द न्यूयॉर्क टाइम्स और द वाशिंगटन पोस्ट में प्रकाशित हुआ है। वह 2014-15 में ‘हार्वर्ड नीमन फैलो भी रह चुकी हैं।

Leave a Reply

Your email address will not be published. Required fields are marked *