Análisis de las Estimaciones de las Casas Encuestadoras vs los Cómputos Distritales en la Elección de 2012

Algunos principios que satisfacen las estimaciones de encuestas probabilísticas

Con el fin de ilustrar algunos principios estadísticos básicos que cumplen las estimaciones de preferencia electoral, obtenidas mediante encuestas probabilísticas, se realizó una simulación computacional de la estimación de la preferencia electoral de un candidato mediante una encuesta. Se asumió que la preferencia electoral es de 38.21%. La estimación de la preferencia electoral simulando una encuesta se repitió 3,000 ocasiones. Para efectos de ilustración, se hicieron corridas de 30 estimaciones, y estas corridas de 30 estimaciones se repitieron 100 veces, para dar el total de 3,000 estimaciones.

Como se verá, las estimaciones de una encuesta electoral tienen un comportamiento aleatorio, siguen ciertos principios estadísticos, éstas no tienen un comportamiento caótico, como nos quieren hacer creer los encuestadores “reconocidos”.


Figura 1

En el gráfico inferior derecho se tiene el histograma de las 3,000 estimaciones simuladas de la preferencia electoral del candidato. La línea verde corta en el eje x el valor de la preferencia electoral del candidato: 38.21%; la línea roja de la izquierda corta al eje x en Preferencia Electoral – Error = 38.21% - 3.1% = 35.11%; de la misma forma la línea roja de la derecha corta el eje x en Preferencia Electoral + Error = 38.21% + 3.1 = 41.31%. Las estimaciones obtenidas por simulación que caigan entre estas dos líneas rojas son estimaciones que caen dentro de precisión, y por el contrario, las que caigan fuera de estas líneas rojas estarán fuera de precisión.

Del histograma anterior se tiene que las estimaciones de preferencia electoral, obtenidas mediante encuestas probabilísticas, cumplen tres principios:

  1. Las desviaciones de las estimaciones respecto de la preferencia electoral tienen la misma probabilidad de ser tanto positivas como negativas, es decir, las estimaciones pueden ser mayores que la preferencia electoral, o menores que ésta con la misma probabilidad.
  2. Es más probable observar desviaciones pequeñas que desviaciones grandes.
  3. Las estimaciones tienen una distribución normal.

En la gráfica superior de la Figura 1, se tiene la última corrida de 30 estimaciones. Cada estimación está representada por un punto en el centro del intervalo de confianza. La línea central, de color verde, representa la estimación de la preferencia electoral del candidato, que es 38.21%. Las líneas rojas representan los límites de precisión (identificaremos a Error, Error Muestral y Precisión como el mismo concepto), la línea límite superior de precisión tiene el valor de: Preferencia Electoral + Error = 38.21% + 3.1% = 41.31%; mientras que la línea límite inferior de precisión tiene el valor de: Preferencia Electoral – Error = 38.21% - 3.1% = 35.11%.

En esta gráfica se puede observar como por la distribución normal de las estimaciones, es más probable observar estimaciones cerca de la preferencia electoral, que lejos de ésta. Las estimaciones que están fuera de precisión quedarán fuera de las líneas de color rojo, y cuando esto suceda, su intervalo de confianza correspondiente no contendrá al valor de la preferencia electoral, como se puede ver en esa gráfica. Esta gráfica superior tiene las estimaciones de la repetición 100, de las últimas 30 estimaciones, como se ve, hay cuatro estimaciones fuera de precisión y, por lo tanto, 26 estimaciones dentro de precisión, entonces la fracción de estimaciones dentro de precisión es 26/30 = 0.8666. Puesto en porcentaje, el 86.67% de las últimas 30 estimaciones están dentro de precisión, o bien, se puede decir que, el nivel de confianza observado de las últimas 30 estimaciones es de 86.67%.

En la gráfica de la parte inferior izquierda de la Figura 1, se muestran las confianzas observadas para cada una de las repeticiones de 30 estimaciones, la línea punteada negra representa el promedio del nivel de confianza observado en las 100 repeticiones de 30 estimaciones el cual es 95.43%, un valor bastante cercano al nivel de confianza teórico del 95%, representado por la línea azul en ese gráfico.

Con lo anterior se verifica lo antes comentado: las estimaciones de las preferencias electorales obtenidas mediante encuestas, tienen una variabilidad aleatoria que satisface principios estadísticos.

Una primera aproximación a las estimaciones de las casas encuestadoras

En este análisis se revisará el conjunto de las últimas estimaciones de las casas encuestadoras para los candidatos a la presidencia en las elecciones de 2012 en México. La información de las Tablas 1 y 2, fue obtenida de internet, de los sitios de las propias casas encuestadoras o de los sitios de internet de los patrocinadores de las encuestas.


 
De la Tabla 1 se tiene que, según los reportes de Ipsos-Bimsa y Consulta Mitofsky, estas casas encuestadoras son sus propios patrocinadores, algo difícil de creer dado el costo de una encuesta nacional. También se tiene falta de aleatoriedad en algunas estimaciones, dados algunos empates inverosímiles para Peña Nieto: Covarrubias y Reforma: 41.0; Ipsos-Bimsa y El Universal: 41.20.

Otro aspecto importante a observar en la Tabla 1 es que la mayor parte de los encuestadores tienen 0% para Otros Candidatos, que normalmente correspondería a Candidatos No Registrados y Votos Nulos. Esto lo consiguen los encuestadores diseñando el cuestionario de la encuesta de tal forma que sólo preguntan por qué candidato de los registrados votarán, a sabiendas de que algunos ciudadanos votan por Candidatos No Registrados, o bien, anulan el voto por voluntad propia. Este no es un error de las casas encuestadoras, es una forma de tomar los puntos porcentuales correspondientes a Candidatos No Registrados y asignárselos algún candidato particular, el cual resultaría favorecido.

En la Figura 2, se muestran las estimaciones de las casas encuestadoras para los candidatos, así como los resultados de los cómputos distritales para cada candidato (mediante una línea roja continua). También se muestran los promedios de las estimaciones de las casas encuestadoras para cada candidato (mediante una línea roja punteada).

Se puede apreciar, en la misma Figura 2, como todas las casas encuestadoras, se “equivocaron” a favor del candidato que, presuntamente, más gastó en campaña. Es decir, todas las estimaciones para este candidato fueron mayores que el resultado del cómputo distrital; en otras palabras, cada casa encuestadora tuvo un sesgo positivo para este candidato. Otro aspecto importante es que las estimaciones para Peña Nieto muestran una estratificación, como se puede observar, se forman tres grupos de estimaciones.


Figura 2

Para tener una idea de la magnitud de los sesgos, si se realiza la diferencia Promedio de Estimaciones menos el resultado del Cómputo Distrital para cada candidato (estos valores se encuentran en el último renglón de la Tabla 1) se tendría: Peña Nieto: 5.02; Quadri: 0.80; Otros Candidatos: -0.85; Vázquez Mota: -1.85 y López Obrador: -3.12. Es decir, las “equivocaciones” de las casas encuestadoras hicieron que el mayor beneficiado de ello fuera Peña Nieto con un sesgo a favor de 5.02, y el más perjudicado fuera López Obrador con un sesgo de -3.12.

Las estimaciones de las casas encuestadoras mostradas en la Figura 2 violan los principios estadísticos que antes se habían establecido, ya que estas deberían tener una distribución normal y, por lo tanto, las estimaciones deben distribuirse en forma simétrica alrededor del valor que están estimando, en este caso, el resultado del cómputo distrital; y violan también el principio de que es más probable observar desviaciones pequeñas de las estimaciones hacia el valor estimado –Cómputo Distrital- que observar desviaciones grandes.

Estimaciones obtenidas mediante simulación

Se generaron estimaciones mediante simulación asumiendo que las preferencias electorales de los candidatos son los resultados oficiales de los cómputos distritales, los cuales se muestran en el penúltimo renglón de la Tabla 1. No se generaron estimaciones para Quadri y Otros candidatos debido a que no se tienen errores muestrales o precisiones confiables ya que, en general, las casas encuestadoras no presentan errores asociados a las estimaciones de cada candidato, sino un error cota o límite cuyo valor, aseguran, no es rebasado por los errores de las estimaciones de los candidatos. Los errores de Quadri y Otros Candidatos, deben ser bastante menores que los tres candidatos con mayor preferencia electoral.

En la Tabla 3 se muestran las estimaciones generadas mediante simulación. Se observa que no hay valores repetidos para ningún candidato. Además, el promedio de las estimaciones de cada candidato está muy cercano al valor respectivo del Cómputo Distrital, debido a que el promedio de las estimaciones es un buen estimador del parámetro que se está estimando: el resultado del Cómputo Distrital.

En la Figura 3 se muestran graficadas las estimaciones de las casas encuestadoras, obtenidas mediante simulación y cuyos valores numéricos se muestran en la Tabla 3. Se muestra la simetría de las estimaciones respecto al valor que están estimando, es decir hay desviaciones positivas y negativas, prácticamente con la misma probabilidad; las desviaciones extremas se observan menos que las desviaciones cercanas. Además, el promedio de las estimaciones de cada candidato es muy cercano al resultado del cómputo distrital. El promedio de las estimaciones para López Obrador prácticamente coincide con el resultado del cómputo distrital, hay una diferencia de sólo 0.01 puntos porcentuales.

Se tiene que las estimaciones obtenidas mediante simulación si satisfacen los principios estadísticos que antes fueron postulados, mientras que las estimaciones de las casas encuestadoras mostradas en la Figura 2 no los cumplen, se “equivocan” y con mucho a favor del candidato que más gastó en la campaña electoral de 2012.


Figura 3

Intervalos de confianza de las estimaciones de las casas encuestadoras

Figura 4

Como se puede observar de la figura anterior, la probabilidad de que solamente 3 de los 11 intervalos de confianza de las casas encuestadoras contengan el resultado del cómputo distrital –asumiendo que este es el resultado real- para Peña Nieto, es de 5.52605X10-9: una posibilidad en 180.96 millones. La probabilidad de que ocurra el escenario para López Obrador –sólo 5 de los 11 intervalos de confianza contengan el resultado del cómputo distrital–, es de 5.58573X10-6: una posibilidad en 179,027. La probabilidad de que ocurra el escenario de Vázquez Mota es de 0.01368: 1 posibilidad en 73. Como se puede observar, todas las estimaciones de los encuestadores tienen sesgo positivo para Peña Nieto; todas las estimaciones para López Obrador y Vázquez Mota, tienen sesgo negativo, con excepción de una sola estimación en cada caso.

Si se considera el escenario global, para los tres candidatos solamente 16 de los intervalos de confianza de los 33 contienen al valor respectivo del cómputo distrital, lo que indica que sólo el 16/33 = 0.4848, sólo el 48.88% de los intervalos de confianza de los encuestadores, contienen el resultado del cómputo distrital respectivo. Esto indica que los encuestadores trabajaron con un nivel de confianza observado del 48.88% -el porcentaje de intervalos de confianza que contienen el valor que estaban estimando- cuando estos afirmaron trabajar con el 95% de confianza. La probabilidad de que se presente este escenario global para los tres candidatos, en estimaciones legales u honestas, es: 3.91801X10-14. Un evento prácticamente imposible de ocurrir, por supuesto, con encuestadores honestos.

Viendo este conjunto de encuestadores como un sistema de medición, se tendría un sistema totalmente incapaz. Y más cuando se trata de encuestadores profesionales, algunos de los cuales tienen cerca de 25 años realizando encuestas, como es el caso de Ulises Beltrán, Roy Campos y Ricardo de la Peña.

En un artículo firmado por Tania Rosas y aparecido en el diario El Economista, titulado: Encuestador analiza denuncia contra AMLO, escribe:

Beltrán consideró que pese a las críticas de los partidos de izquierda a las encuestadoras, la credibilidad de estas empresas no está en crisis y destacó que todas las encuestas fueron precisas en cuanto a los lugares que ocupó cada uno de los candidatos a la Presidencia, aunque admitió que algunas tuvieron errores en cuanto a los puntajes.

No obstante, comentó que no le parece un error desmedido ni exagerado y precisó que las encuestas no son pronósticos, sólo miden las preferencias al momento.

Y añade:

¿Obligarnos a ser precisos?, pues no pierdan su tiempo. Éste es un método basado en principios de probabilidad y estadística que por su misma naturaleza tiene variación, tiene error y las restricciones legales las tenemos para publicar antes de la elección”, precisó.

Ulises Beltrán es un viejo lobo de mar y se defiende como puede; sin embargo, un punto clave es que el hecho de que el muestreo estadístico esté basado en principios de probabilidad y estadística, no justifica el que se den escenarios tan improbables, y algunas veces prácticamente imposibles, como los mostrados en la Figura 4.

Puesto que el método de muestreo estadístico está basado en principios de probabilidad y estadística, debe satisfacer algunos principios estadísticos, algunos de los cuales ya se mencionaron. Cuando se presentan escenarios tan improbables –el de Peña Nieto casi imposible- como el de los candidatos anteriores, pudiera deberse a que:

  1. Los encuestadores involucrados son unos incompetentes.
  2. Las estimaciones están manipuladas por los encuestadores, en cuyo caso se estaría ante una auténtica mafia o cártel de las casas encuestadoras.

La primera opción debe quedar descartada ya que éstos son encuestadores profesionales desde el punto de vista técnico, algunos de los cuales tienen casi 25 años haciendo encuestas.

La única opción viable es que las estimaciones de las casas encuestadoras estén manipuladas y, por lo tanto, muy probablemente hubo un acuerdo entre las mismas.

Un argumento usado en su defensa por algunos encuestadores es que un evento improbable o imposible puede ocurrir. Sin embargo, si se analizan las estimaciones de encuestas presidenciales anteriores, se verá que algunos escenarios planteados por éstos son, también, prácticamente imposibles de ocurrir, y el que estén ocurriendo en elección tras elección este tipo de escenarios en forma legal u honesta es imposible de suceder. Se estaría en un auténtico mundo al revés donde los escenarios improbables, o prácticamente imposibles, ocurren con mayor frecuencia que los probables.

Intervalos de confianza de las estimaciones obtenidas mediante simulación


Figura 5

En la Figura 5, se muestran las estimaciones obtenidas mediante simulación para los tres principales candidatos –por su preferencia electoral- y asumiendo que las preferencias de los candidatos fueron los resultados oficiales del cómputo electoral, y su precisión fue la reportada por estas casas encuestadoras, y mostradas en la Tabla 2.

Como se puede apreciar de la Figura 5, las estimaciones de los tres candidatos son simétricas alrededor del resultado del cómputo distrital –el cual están estimando-, en el sentido de que, aproximadamente la mitad de estas son menores que el resultado del cómputo distrital respectivo, y la otra mitad son mayor. Se cumple también el principio de que es más probable obtener estimaciones cercanas al valor estimado –el resultado del cómputo distrital– que obtener estimaciones lejanas. Los dos anteriores principios derivados de que las estimaciones tienen una distribución normal, como antes se planteó.

En el escenario para Peña Nieto, con las estimaciones obtenidas mediante simulación; todos los intervalos de confianza contienen el valor asumido como real, el resultado del cómputo distrital. En tanto que para López Obrador y Vázquez Mota, ocurre el segundo escenario más probable, solamente uno de los intervalos de confianza, en cada caso, no contiene el valor asumido como real en la simulación, el valor del cómputo distrital para estos candidatos.

Conclusiones

  1. Hemos visto que las estimaciones obtenidas mediante encuestas probabilísticas satisfacen algunos principios estadísticos, derivados del hecho de que estas estimaciones se distribuyen en forma normal.
  2. Que las estimaciones de las casas encuestadoras en las elecciones del 2012 –sobre todo las mediáticas que se estuvieron difundiendo públicamente y, por lo tanto, tuvieron un impacto en la opinión pública-, no satisfacen los principios estadísticos que antes se ha señalado.
  3. Que las casas encuestadoras se equivocan en sus estimaciones, como los mismos encuestadores lo han reconocido, pero que, extrañamente, estas “equivocaciones” han sido a favor del candidato que más gastó en la campaña electoral; y estas mismas “equivocaciones” perjudicaron al resto de los candidatos, con excepción de Gabriel Quadri. Recordemos que en las elecciones de 2006, las “equivocaciones” de Gea-Isa a favor de Felipe Calderón, fueron premiadas con la dirección de Pemex para Jesús Reyes Heroles, y la dirección del Cisen para Guillermo Valdés Castellanos, ambos de la empresa GEA.
  4. Que los escenarios de las estimaciones de estas casas encuestadoras son demasiado improbables, o prácticamente imposibles de obtenerse con encuestadores profesionales y honestos.
  5. Que los patrocinadores de la mayor parte de las casas encuestadoras son medios de comunicación –parte de los poderes fácticos-, lo cual pudiera indicar que estas “equivocaciones” no lo fueron tanto, sino fue parte de un esquema orquestado.

Agradecimientos y Notas

Agradecimientos: Agradezco la revisión y observaciones hechas a este documento por: Daniel González Sepúlveda, Jesús Ibarra Salazar y Jorge Gómez Báez.

Notas: Para los gráficos de este texto se utilizó el software R, el cual es un lenguaje computacional similar al lenguaje S desarrollado en Bell Laboratories. El software R fue escrito inicialmente por Ross Ihaka y Robert Gentleman a mediados de la década de 1990. Desde 1997, el proyecto R ha sido organizado y por the R Core Team. R está siendo desarrollado para las familias de sistemas operativos Unix, Macintosh y Windows. R es un software de código abierto y es parte del proyecto GNU. La página de internet de R (http://www.r-project.org) contiene más información acerca de R e instrucciones para bajar una copia.

Se utilizó también el software ggplot2, el cual es un software que es uno de los tantos paquetes de R y desarrollado por Hadley Wickham. La página de ggplot2, mantenida por Hadley Wickham, se encuentra en la siguiente dirección: http://had.co.nz/ggplot2/

El programa para la simulación que se muestra en la Figura 1, es un programa basado en un programa de Yihui Xie, el cual tiene un sitio de internet en http://yihui.name/en/. Al programa original de Yihui Xie, le agregué un histograma y le hice algunas otras modificaciones cosméticas.