Interpretar datos: consejos para evitar errores y entender los números

Print More
Periodismo de datos

Si haces bien las matemáticas, pero no lees bien las respuestas, puedes terminar dándole información equivocada a tu audiencia. Imagen: Shutterstock

Cuando usas datos para hacer historias investigativas es importante aprender a obtener y limpiar la información. También es vital que interpretes correctamente tus hallazgos y extraigas conclusiones acertadas a partir de números, filtros y hojas de cálculo. Si haces las matemáticas bien, pero no lees correctamente las respuestas, puedes presentar información equivocada a tu audiencia.

¿Por qué ocurre esto? A veces los datos con los que trabajamos no responden a las preguntas que hacemos. En otros casos, podemos olvidar ajustarnos a la ética periodística durante las etapas de recolección y análisis de datos de la investigación. Debemos tener cuidado de no elegir solo las estadísticas que se ajustan a nuestro punto de vista, ignorar el contexto o enfocarnos tanto en nuestra pregunta que no escuchamos lo que dicen los datos. Recuerda, en el periodismo de datos, los datos son nuestra fuente y tenemos que respetarlos.

Errores comunes

La primera lección es no sacar conclusiones sobre individuos basándote en datos que están reunidos por país, u otro tipo de agrupaciones. La realidad para las personas del país o el lugar al que te refieres puede ser muy distinta de las impresiones que arrojan los datos generales.

La científica de datos Heather Krause, fundadora de la compañía canadiense Datassist, y del proyecto para la equidad en la ciencia de datos, We All Count, explica este problema, que se conoce como la Falacia Ecológica, con un ejemplo sobre cigarrillos. Cuando se examina la expectativa de vida y los cigarrillos que se fuman en varios países, parece haber una correlación positiva.

Es decir, en países con mayor consumo de cigarrillos, las personas tienen una mayor expectativa de vida. No obstante, sería incorrecto concluir que fumar aumenta la expectativa de vida, no solo porque la lógica y numerosos estudios científicos dicen lo contrario, sino porque en este ejemplo los datos examinados no evaluaron qué les hacían los cigarrillos a los individuos, y simplemente comparaba dos indicadores nacionales agregados.

Esta falacia también revela otro problema que puede llevar a una mala interpretación: los datos que están siendo comparados no tienen una relación causal. Otra forma de decirlo es: la correlación no implica causalidad. Dado que los datos no se reunieron originalmente con el propósito de averiguar si fumar cigarrillos tenía un efecto sobre la expectativa de vida, el análisis estadístico arroja una predicción en lugar de un resultado causal.

Los reporteros que observan estos dos grupos de datos deberían considerar otras variables, para encontrar una posible explicación para la correlación, como el poder de adquisición que les permite a las personas en países ricos comprar cigarrillos, pero también acceder a mejores cuidados de salud.

Además de asegurarnos de que nuestros cálculos sean acertados, los periodistas debemos evaluar si las figuras revelan la realidad que tratamos de reportar. “Ten mucho cuidado con los promedios: pueden ser engañosos si hay intervalos demasiado grandes entre los datos”, advierte Sandra Crucianelli, directora de la Unidad de Inteligencia de Datos de Infobae, un portal de noticias argentino.

Esto ocurre frecuentemente con los reportajes sobre los salarios u otros temas relacionados con desigualdad. En países con altos índices de desigualdad, las cifras del salario promedio no son representativas de la realidad, pues estos datos no toman en cuenta la brecha entre los ricos y los pobres.

Miguel Paz, un ex becario de la Fundación Nieman y fundador de la agencia de suscripción digital Reveniu, recomienda a los reporteros usar la media, el valor que está en la posición central de una lista organizada de datos, porque se acerca más a la realidad de la mayoría de los individuos. “¡Debemos dejar de escribir en promedios!”, urge Paz, que ha desarrollado proyectos de periodismo de datos y realizado talleres sobre cómo los periodistas de datos se pueden equivocar, incluso cuando hacen bien los cálculos matemáticos.

Los porcentajes y las tasas también son buenos aliados cuando se describen las condiciones socio-demográficas. Cada año, tan pronto como la policía publica cifras de crimen en mi país, Colombia, veo docenas de reportajes de medios haciendo afirmaciones como “Medellín es la ciudad más peligrosa” o “Bogotá es el peor lugar para tener un teléfono móvil”. Pero estos reportajes solo usan los valores absolutos, y por lo tanto no reflejan la situación real de seguridad. Si los periodistas que trabajan estas historias hicieran algo de análisis, al contextualizar los datos relativos a la población o el uso de teléfonos móviles, hallarían que, en Bogotá, una metrópolis de 8 millones de personas, o en Medellín, una ciudad de 2,5 millones, las cifras no son tan malas como sugieren los valores absolutos y, de hecho, la inseguridad requiere de más atención en otras ciudades con tasas más altas de crimen per cápita.

Los titulares también demuestran cómo la generalización puede causar problemas. Para explorar cuáles son las más peligrosas, se necesita un número amplio de indicadores, para trazar una imagen más matizada.

COVID-19 y la curva de aprendizaje de datos

Periodismo de datos

Los reporteros se han convertido en periodistas de datos de la noche a la mañana para darle sentido al aumento de casos de COVID-19, pero las comparaciones internacionales pueden ser difíciles. Imagen: Shutterstock

Algo similar ha sucedido con el COVID-19. Se han publicado varios reportajes comparando el número de personas infectadas o las muertes en distintos países, pero generalmente estas comparaciones no son acertadas, en especial porque la medida adecuada en este caso es la tasa de infección -el número de personas infectadas en comparación con la población-, y porque otros factores han dificultado las comparaciones internacionales.

Por ejemplo, durante los primeros meses del brote, algunos países no incluyeron las muertes que ocurrieron en casas de retiro. También hubo variaciones relacionadas con los países que sumaban un nuevo caso en los registros nacionales del COVID-19 solo cuando el virus era la principal causa de muerte o si había una prueba que confirmara la presencia del virus cuando la persona murió. Hay incluso otros criterios de conteo menos exigentes. Es importante considerar la cantidad de tiempo que el virus ha estado presente en cada país, porque ese factor junto con otros, como los sistemas de salud fuertes o débiles, hacen la diferencia con respecto a cómo cada gobierno responde a la pandemia.

En relación con el cubrimiento de la pandemia, hay otro indicador importante a tener en cuenta: la tasa de mortalidad de las infecciones, o la cantidad de muertes por COVID-19, dividida por todos los infectados. El problema con esta figura es que cada país ha establecido su propio régimen de diagnóstico. Algunos hacen más pruebas que otros y algunos cambian la frecuencia de las pruebas a medida que evoluciona la pandemia, lo que hace imposible las comparaciones. Por supuesto, se cree que en muchos países hay un enorme subregistro en términos de casos registrados (a causa de ausencia de equipos para realizar pruebas) y muertes (ya que no se registraron todas las muertes o no se ligaron a COVID-19). Esto hizo que las comparaciones con países como el Reino Unido, los Estados Unidos o India fuera muy difícil. En el Reino Unido, por ejemplo, al principio de la pandemia solo se le realizaba la prueba a las personas que resultaban admitidas al hospital, por lo que la tasa de mortandad parecía más alta de lo que realmente era: solo los casos más graves eran registrados.

La pandemia demostró que es importante que los periodistas de todas las áreas sean letrados en datos, para lidiar adecuadamente con los datos agregados, y deberíamos tener cuidado de cometer errores con variables que no son comparables. Muchos funcionarios públicos caen en este error, y como periodistas debemos aprender a identificar estas equivocaciones y evitarlas.

Otro ejemplo, pero esta vez del mundo pre-pandémico: Colombiacheck, la primera organización de verificación de datos en Colombia, examinó la afirmación de una congresista que dijo que la tierra rural en el país estaba concentrada en manos de comunidades negras e indígenas, y generó una enorme controversia, ya que estas comunidades han sido víctimas frecuentes del despojo de tierras, como resultado del largo conflicto armado en el país. Mientras verificamos su afirmación, los periodistas aprendieron que, así las cifras oficiales arrojaran que estos dos grupos tenían más tierra en total que los colombianos de otros grupos étnicos, era un error insinuar que los títulos colectivos de propiedad de estas comunidades les daban a los individuos de esas comunidades mayor poder terrateniente.

Consejos para blindar tu interpretación de datos

Aquí hay una lista de puntos a tener en cuenta, para asegurarte de estar interpretando los datos correctamente antes de publicar:

  • Pregúntate si los datos están relacionados con tu pregunta de investigación. ¿Hay suficiente información? ¿Estoy mirando esto desde el ángulo adecuado? ¿Estoy haciendo suficientes preguntas a los datos? ¿Estoy analizándolos para ver todos sus matices? ¿Son comparables las variables?  
  • Cuenta la historia según el nivel de datos que tienes. Si solo tienes información a nivel de país, tus hallazgos solo deberían tratar tendencias nacionales o predicciones. Si tienes datos hasta el nivel individual, entonces puedes llegar a conclusiones sobre el comportamiento de las personas o las tendencias.
  • Verifica si las variables que estás analizando tienen una relación causal directa (una causa la otra) o si hay elementos intermediarios que deberían tomarse en cuenta. Puedes hacer esto al mirar la forma en que se recogieron y procesaron los datos.
  • Si la correlación no es causal, sino predictiva, asegúrate de contar la historia de esa manera, con oraciones como: “Si x aumenta, será más probable que y caiga”. Si la correlación es coincidencia, considera descartarla.
  • Sé consciente de qué representa cada registro (una persona, un hecho, un caso, un lugar) y según esto describe tus hallazgos.
  • Cuando encuentras datos atípicos, no te apresures a publicarlos. Primero, observa si la explicación para valores extremadamente altos o bajos realmente los hace periodísticamente relevantes, si los datos son errados, o si hay un elemento extra que explique la atipicidad.
  • Considera qué operación estadística vas a usar para analizar tus datos: con porcentajes, con un promedio, con una tasa o con una proporción. Tu decisión dependerá de las características de los datos y el tema.
  • Habla con los expertos. Un estadístico puede ayudarte a identificar el tipo de datos con los que estás lidiando: predictivos, causales, comparables o no, etcétera. Un especialista en el ámbito específico de tu historia puede ayudarte a ver vacíos, malinterpretaciones, elementos ausentes, y nuevas correlaciones.

Por último, recuerda que las historias que se publican como resultado de un análisis profundo de datos dan forma a cómo la gente y los gobiernos toman decisiones. Ser letrado en datos, es importante. Si no tenemos en cuenta los factores necesarios y lanzamos conclusiones sin un análisis de contexto necesario, podemos dar protagonismo a un enfoque equivocado, y sin querer, persuadir a que la gente adopte hábitos que hacen daño o producir una historia que excluya a una porción de la población.

Recursos adicionales

Consejos para crear una base de datos efectiva para tus investigaciones

Centro de recursos de GIJN: cómo investigar cadenas de suministro

Cómo investigar las finanzas del crimen organizado

Lo último de GIJN en español


Miriam Forero Ariza es una periodista de datos e investigación colombiana cuyo trabajo ha sido publicado por Vice, ColombiaCheck y El Espectador. Tiene una década realizando investigaciones colaborativas, análisis de datos y visualizaciones. Coautora del Manual Iberoamericano de Periodismo de Datos.

Leave a Reply

Your email address will not be published. Required fields are marked *