Noticias
¿Son reales las 7.379 muertes anónimas?
Análisis para desmontar ideas preconcebidas
El día de hoy intenté replicar el análisis de datos realizado por @ArduinoTomasi, que le lleva a concluir que «existió una posible manipulación de las cifras de homicidios durante el gobierno de @MashiRafael . Aquí unas observaciones metodológicas que merecen atención:
Pero primero, qué es la replicabilidad en ciencia? La replicabilidad es fundamental, implica que otros investigadores, siguiendo los mismos pasos, puedan obtener resultados similares. Esto asegura que los hallazgos no son producto del azar y PROBABLEMENTE verdaderos.
Arduino señala esto en su post, y conociendo de la importancia de la replicabilidad, comparte su base de datos y código de R (un software estadístico), lo cual es una buena práctica en ciencia abierta. Sin embargo, surgen problemas al intentar replicar su análisis.
Primer problema: los datos compartidos han sido pre-procesados sin documentación del proceso de limpieza a partir de los datos originales del INEC. Este paso crucial debe estar incluido en el código compartido para garantizar la transparencia y replicabilidad, porque si no surge el
Segundo problema: discrepancias entre los datos del INEC y los de Arduino. Por ejemplo, para 2015, sus datos reportan 1084 Suicidios, 997 Homicidios y 621 Muertes violentas indeterminadas. Hice un análisis descriptivo en SPSS (otro software estadístico) y encontré discrepancias, pues los datos del INEC reportan 1093 Suicidios, 1019 Homicidios y 651 Muertes violentas indeterminadas. Ojo que usé SPSS por que es el formato en que vienen guardados los datos del INEC. Adjunto la imagen
Cuadro INEN
Estas inconsistencias se repiten para 2014 y 2013, lo que impide la replicación exacta del análisis. Sin conocer el tratamiento específico de los datos, es imposible reconciliar estas diferencias y por lo tanto ya no debí continuar con la réplica, pero quise explorar más.
Decidí obviar este hecho y usé los datos de Arduino y su código de R. Al replicar la gráfica del «primer acto», surgió un error indicando que la variable «TasaCausasExtranas» no existe en la base de datos compartida. Adjunto imagen del error en R.
Esto es problemático debido a que el código sugiere posibles discrepancias entre los datos utilizados al momento de hacer el análisis vs los datos compartidos al final. Para que esté en el código, en algún momento esa variable debió existir.
Un hallazgo crucial: en el análisis del código de la regresión encontré que se filtraron los datos de 2010 a 2018, extendiéndose más allá del gobierno de Correa (que terminó en mayo 2017). Este es un error metodológico significativo que afecta la validez de las conclusiones.
Si bien es cierto que este código se replicó bien y se obtuvo exactamente los mismos resultados de Arduino (adjunto imagen), me quedé con la duda de por qué se incluyó el año 2018? Por qué empezar desde el 2010 si el retiro de la base de Manta fue en 2009?
Decidí entonces ajustar, con los datos de Arduino, un modelo que filtre los años 2010 a 2017, solo por jugar. Resulta que cuando se hace eso los resultados ya no son estadísticamente significativos, pues el p-value es mayor a 0.05, máximo tolerado en Ciencias Sociales.
Al ajustar el análisis para incluir solo el período de Correa (2007-2017), el modelo es aún peor, con un p-value de 0.9. Que indica esto? que el modelo de regresión no tiene ningún sentido pues las variables Incautación de droga y muertes indeterminadas no se relacionan.
La selección del período 2010-2018 para el análisis plantea preguntas sobre la objetividad del estudio. Parece que se buscó ajustar los datos a una idea preconcebida. Debido a estas inconsistencias, no es posible replicar el análisis original ni aceptar sus conclusiones.
Pero ATENTOS, aquí solo he señalado las inconsistencias al momento de replicar el análisis. PERO, las conclusiones de un estudio no se pueden derivar únicamente del p-value, sino que se necesita un análisis mas profundo donde la teoría y los datos se unan para explicar algo.
Y es en lo teórico donde hay mas observaciones y cuestionamientos por hacer. Pero dejaré hasta aquí este primer hilo. Dependiendo de la acogida que tenga evaluaré la necesidad de hacer otro con los cuestionamientos teóricos y a las hipótesis que son aún mas importantes.
Como académicos, nuestra misión fundamental es la búsqueda incansable de la verdad. Debemos seguir la evidencia empírica dondequiera que nos lleve, resistiendo la tentación de moldear los datos para confirmar nuestras ideas preconcebidas.