Correlación de Pearson de las Diferencias de las Diferencias de las Diferencias de las Diferencias de las Diferencias de las Diferencias entre datos sucesivos del PREP

Algo que es fascinante de los datos electorales es la gran cantidad de sorpresas que guardan en sus entrañas. Ya en el pasado se han analizado los datos temporales (no los finales) del PREP (Refs. 1 y 2) y se han encontrado correlaciones perfectas entre las votaciones recibidas por diferentes partidos (definiendo perfección como r > 0.999). Asimismo Jair Garza y Alberto Altamirano (Refs. 3 y 4) eliminaron las acumulaciones con técnicas distintas y encontraron que –aún sin incrementos- las correlaciones se mantenían altísimas (lo cual -incidentalmente- eliminó la teoría de la alta correlación por la acumulación de los datos).

En este estudio – que más que estudio es un juego— se calculan las correlaciones que tienen las diferencias sucesivas de esos datos maravillosos, y las diferencias de las diferencias, y las diferencias de las diferencias de las diferencias, y así hasta llegar a muchas de diferencias de diferencias. El hecho de que en todos los casos estudiados obtengamos correlaciones muy altas es sorprendente dado que corresponden a unos datos que al haber sido muestreados con un alto grado de aleatoriedad (de todo el país, urbano y rural, etc.) no deberían estar tan fuertemente ligados entre ellos.

Procedimiento

Se usaron los datos acumulados por los partidos como fueron presentados por el IFE el día de la elección desde las 6:42 PM (tiempo de California) hasta la 1:13 AM (ver datos en Ref. 1), en total hubo 74 actualizaciones. Esos datos (serie de tiempo "0") fueron usados para construir series de tiempo con las diferencias sucesivas entre los datos (serie de tiempo "1"), y las diferencias de la serie "1" para obtener la serie "2", y así sucesivamente hasta llegar a la serie "6" que fue cuando el autor se cansó de obtener correlaciones altísimas.

Usando la función PEARSON de Excel y seleccionando columnas de PAN y PRI, PRI y PRD, y PAN y PRD se calculó la función de correlación PEARSON en todas las series dando en todos los casos resultados vergonzosamente altos.

Resultados

Las figuras siguientes muestran las series de tiempo "1", …, "6" junto con los valores de la correlación de Pearson obtenidos:




Análisis

Varias observaciones son necesarias. La primera es el comportamiento simétrico que tienen todos las diferencias en todos los seis niveles, estos es detectable por el hecho de que en todas las gráficas parecería que hubiera una sola línea uniendo los puntos cuando en realidad hay tres, ¿por qué todos los cambios se comportan de manera simétrica?

Otra observación es el hecho de que tal comportamiento se mantiene en todas las escalas, es decir la serie "1" varía entre 0 y 350,000 mientras que la "6" lo hace entre 2,500,000, ¿qué hace que se mantengan las correlaciones en todas las escalas?

Otra observación importante es el hecho de que a partir de la serie "2" (diferencias de diferencias) las series ya no son acumulativas, es decir los valores de la serie no se incrementan monotónicamente como la serie "0" y la "1". En esos casos es obvio que cualquier correlación que exista entre las series de tiempo no es debida a acumulación alguna.

Asimismo hay que subrayar las fluctuaciones pronunciadas que se dieron a todo nivel, i.e. en todas las series, alrededor de las 11 PM; estas son observables en las seis gráficas como oscilaciones de gran magnitud.

Finalmente, hay que hacer énfasis en el hecho de que la correlación de Pearson se mantiene a niveles constantes altísimos tanto en los datos originales como en todas sus diferencias. Esto se puede observar más claramente en las gráficas siguientes.
La gráfica superior muestra que la correlación no cesa de ser cercana a la perfecta a pesar de la diferenciación de las series. La inferior muestra que la distancia entre el Pearson obtenido y el perfecto (r=1.000) comienza a estabilizarse a partir de la serie "2".

Curiosamente, ambas gráficas (i.e. la de "r" y la de "1.000–r") muestran un comportamiento simétrico entre las tres curvas (lo cual también llama muchísimo la atención) y –ya que esto se trata de un juego— ¿por qué no ver si existe una correlación entre ellas? Y la respuesta es un sí rotundo, la correlación de Pearson entre, e.g. el PRI y el PRD, es un increíble r=0.999024, las otras dos son de tamaño similar.

Conclusión

Una conclusión inmediata es que los datos temporales del PREP están correlacionados hasta entre sus propias correlaciones. Explícitamente, las correlaciones de Pearson de las diferencias (de hasta 6 diferenciaciones) tienen una correlación de Pearson entre ellas de r > 0.999, es decir perfecta. ¿Cómo explicar esto?

Las demás consecuencias que puedan emanar de este milagro numérico se dejan al criterio del lector.

Referencias

  1. Correlación de Pearson, Jorge Alberto López Gallardo, Colloqui, Julio 2, 2012
  2. ¿Qué tan fácil es obtener un Pearson r > 0.999?, Jorge Alberto López Gallardo, Colloqui, Julio 4, 2012
  3. Controlando el tendencioso PREP, Jair Garza y Jorge Alberto López Gallardo, Colloqui, Julio 9, 2012
  4. Correlación entre incremento de votos, Alberto Altamirano y Jorge Alberto López Gallardo, Colloqui, Julio 25, 2012