Quinto Reporte de Análisis: Controlando el Tendencioso PREP por Jair Garza

Controlando el tendencioso PREP

Resumen (del Editor): Se estudian datos del PREP con técnicas de series en niveles que eliminan las tendencias impuestas por la acumulación y se buscan correlaciones entre votos de diferentes partidos; se obtienen –aún con la tendencia eliminada— correlaciones mayores de 99.9%.  En un segundo estudio se analiza la evolución de los porcentajes de votos de cada partido encontrado una falta de estabilización grave que se puede considerar una irregularidad aún mayor que las correlaciones encontradas en el análisis de las series en niveles. Finalmente se usa Mínimos Cuadrados para obtener un modelo de la forma PRI = b0 + b1×PAN + b2×PRD + b3×PANAL que predice con una confianza del 99.99% a nivel nacional cuantos votos –según el PREP- eran para el PRI, en función de los del PRD, PAN y PANAL.

Es bien sabido por los economistas que cuando las series de tiempo tienen tendencia a crecer, se puede llegar a detectar relaciones espurias si no se controla dicha tendencia. Tal es el caso de la acumulación de votos presentada en el PREP y, como lo demuestra el estudio pionero de López Gallardo ("¿Qué tan fácil es obtener un Pearson de r>0.999?"), los datos acumulados tienden a mostrar correlaciones altas por su naturaleza, aunque no perfectas. En este artículo avanzamos en el estudio de las correlaciones de los datos del PREP haciendo uso de herramientas de análisis de series de tiempo para luego proseguir con un estudio de las correlaciones remanentes.

Metodología

En general analizamos las series en niveles para ver si los números del PREP se vuelven estacionarias en diferencia o sin deriva o ambas. En particular, el procedimiento se hizo sobre los 74 puntos mostrados al final del artículo de López Gallardo usando el paquete estadístico STATA. El objetivo es trabajar con series estacionarias para analizar la relación que guardan los números de cada partido de acuerdo al PREP.

El primer paso del estudio es la eliminación de la tendencia, que es una variable que crece uniformemente en el tiempo. Esto se puede lograr sin perturbar toda aquella variación que no sea explicada por la tendencia. Las series resultantes se estudian luego con regresiones para después medir las correlaciones entre ellas.  

El paso siguiente, naturalmente, es probar si las series tienen raíz unitaria. Esto se logra por medio de pruebas de Dickey Fuller con las series individuales probando tendencia en forma de trend y en forma de drift, es decir agregando y quitando la constante y la variable de tiempo en la prueba.

Si las series tienen raíz unitaria, en la mayoría de los casos podemos alcanzar la estacionalidad mediante diferenciación aunque este proceso viene con el costo de pérdida de información. Johansen demuestra, sin embargo, que se puede probar cointegración en modelos de corrección de errores de acuerdo a distribuciones de muestras grandes; de existir uno o más vectores cointegrantes, las relaciones de largo plazo de las variables nos facilitan el análisis de las variables en niveles aunque las series no sean estacionarias

Resultados

Los resultados de las pruebas de Dickey Fuller sobre todo el conjunto de 74 actualizaciones indican que no existe raíz unitaria en las series una vez que se controla la tendencia, la cual no es más que una variable que crece uniformemente en el tiempo. Esto quiere decir que una vez que se elimina el efecto de la tendencia en las series, éstas son estacionarias y cualquier relación que se encuentre es válida.

Ahora bien, esta es la nueva matriz de correlaciones de las variables sin tendencia:

Como se muestra en la figura, al correr las regresiones se encuentra que las series siguen estando anormalmente correlacionadas con coeficientes mayores de 99.9% y pruebas-t con Prob=0. Aún con la tendencia eliminada las relaciones siguen siendo muy altas; todas superiores a 0.99.

Análisis

La pregunta entonces es ¿cuál es el comportamiento que esperaríamos de unas votaciones totalmente válidas? En opinión de los autores, se esperarían coeficientes de correlación altos pero no esperaríamos que fueran de .99.  

De hecho, se podría esperar que la correlación fuera más baja en las primeras horas del PREP comparado con las últimas horas, esto porque el PREP simula un experimento de aumento progresivo de tamaño de muestra y los teoremas de muestreo indican que la varianza de los estimadores tienden a cero conforme el tamaño de muestra tiende al tamaño de la población. Sin embargo, no se encontró evidencia de que las relaciones fueran más débiles en la primera mitad de la base de datos respecto de la última.

Esta última observación nos lleva a un análisis adicional.

Evolución de porcentajes

Esta idea puede analizarse al observar los porcentajes de preferencia relativos de cada candidato a través del tiempo del PREP. El porcentaje de preferencia estimado en muestras de tamaño bajo (primeras horas del PREP) tiene varianzas grandes y estima pobremente al porcentaje de preferencia real. El estimador se vuelve eficiente en las últimas horas del PREP pues la muestra crece en número y este estimador tiene poca varianza.

En el caso del PRD y del PAN el estimador se estabiliza con mucha claridad pero el caso del PRI y de Alianza no; la gráfica muestra la preferencia del PRI en el tiempo. La falta de estabilización que muestra la gráfica se puede considerar evidencia mayor de irregularidad que los resultados del análisis de las series en niveles; es contra-intuitivo que la preferencia nunca se estabilice. Las últimas actas que se capturaron favorecían al PRI en relación a los demás partidos.

El algoritmo del PREP

Ahondando en esto, si suponemos que existe una relación causal entre el número de votos que se asignaban al PRI respecto a los demás partidos, podemos estimar un modelo de la forma PRI = b0 + b1×PAN + b2×PRD + b3×PANAL; de encontrase un buen ajuste, implicaría que un voto a un partido tiene un efecto ceteris paribus en los votos del PRI. Las estimaciones por Mínimos Cuadrados ordinarios se muestran enseguida:

Las series están sin tendencia y los estimadores son todos diferentes de cero. Un voto más el PRD implicaba 1.31 votos más al PRI manteniendo constantes los votos del PAN y del PANAL. De la misma manera, un voto más para el PAN implicaba medio voto más para el PRI. De hecho, según el modelo, si nosotros sabíamos en un momento dado cuantos votos –según el PREP- eran para el PRD, PAN y PANAL podríamos calcular cuántos votos iban para el PRI con una confianza del 99.99% a nivel nacional.

Esto tampoco hace mucho sentido. Si dividimos la base de datos en 2 (primeras horas y últimas horas) los pesos de la relación cambian pero el porcentaje de precisión con la que se estimaría se mantiene, casi 100% de precisión.

Las conclusiones se dejan al juicio del lector.  

¿Ya checaron sus casillas en http://2012.openprep.org/?

Jair Garza
Lic. Economía (UANL)

Referencias

"¿Qué tan fácil es obtener un Pearson de r>0.999?", J.A. López Gallardo, en "Segundo Análisis…", http://www.colloqui.org/colloqui/2012/7/4/segundo-analisis-de-las-elecciones-con-contribuciones-de-dei.html
STATA, Data Analysis and Statistical Software, http://www.stata.com/.