Sorprenderá a muchos leer que aparece una “crisis de las encuestas” después de cada elección en la gran mayoría de los países donde encuestar es práctica común. En las últimas semanas, por ejemplo, aparecieron las más recientes “crisis” en el Reino Unido e Israel. México, por lo tanto, no es la excepción, a pesar de la creencia de un buen número de comentócratas.

De hecho, México ha vivido “crisis de las encuestas” virtualmente desde la reaparición de estas mediciones al final de los 80. En los 90 fueron las crisis por la sospecha de que los métodos empleados para encuestar podrían convertirlas en instrumentos para encubrir el declive electoral del PRI. En los 2000 fueron las crisis causadas por la incertidumbre sobre la proclividad de los encuestados a revelar sus “verdaderas” preferencias electorales luego de la transición a la democracia. En los 2010, la crisis es motivada por la desconfianza de los candidatos no favorecidos por las encuestas y por los casos sonados donde un encuestador no “le atina” al resultado de la elección.

Nuestra situación no es, pues, tan distinta a la que ha prevalecido en los últimos 30 años en términos de “crisis de encuestas”. Lo que es diferente hoy es la escasez de debate y reflexión para mejorar la metodología que se utiliza para encuestar.

En los 80 y 90 se dieron debates metodológicos vigorosos para entender a la opinión pública mexicana y la metodología adecuada para encuestar. Inclusive se creó una revista —Este País— para dar voz a la investigación sobre el tema en términos comprensibles para todo público. En años recientes, en cambio, el “debate” se ha limitado a repetir los mismos argumentos de las décadas previas: “los encuestados mienten”, “las encuestas no son una predicción sino una fotografía”, “la veda electoral nos impide mostrar los cambios más cercanos a la elección”… El debate, pues, ha sido reemplazado principalmente por justificaciones. Estas justificaciones,además de no contribuir a corregir potenciales errores en las encuestas, han motivado ideas que rayan en el absurdo, como legislar y castigar penalmente el “error” en una encuesta.1

El problema central hoy en México es que no sabemos qué está bien y qué está mal con las encuestas. Esto no es extraño cuando la gran mayoría de los encuestadores mantienen parte de su metodología como “receta secreta”, y la autorregulación del gremio es laxa por decir lo menos. Sin un diagnóstico, es difícil saber dónde existe un problema, si es que existe alguno, y virtualmente imposible tomar medidas efectivas.

Haciendo justicia a algunas plumas e investigadores, se ha intentado hacer evaluaciones de las encuestas preelectorales en México. La gran mayoría de ellas, sin embargo, han comparado la última encuesta publicada antes de la elección con el resultado de la elección. Así se ha distinguido a los “buenos” de los “malos” encuestadores: porque “le atinan” al ganador. Este sería un gran método si las encuestas no fuesen un ejercicio estadístico, pero lo son.

Cuando en la ventana metodológica leemos “esta encuesta tiene un margen de error de +/-3% y un intervalo de confianza de 95%” está explicando que, si se repitiera esta encuesta al infinito, 95 de cada 100 veces deberíamos observar una estimación dentro de un intervalo de 6 puntos porcentuales que incluyen al valor verdadero. En otras palabras, por diseño, en 5 de cada 100 veces esta encuesta “no le atinaría” por mera suerte. Naturalmente, no podemos repetir una encuesta al infinito, lo que significa que el margen de error y el intervalo de confianza son expectativas teóricas. Hasta aquí, nada que no se enseñe en cursos de estadística y teoría de muestreo básicos.

Por esta razón, tiene poco sentido evaluar una encuesta y a su encuestador en función de un solo punto en el tiempo que sabemos que fallará en una proporción definida y de manera aleatoria. En otras palabras, estas “evaluaciones” podrían estar identificando una mala metodología o simplemente mala suerte, pero no podemos distinguir entre ellas. Si vamos a juzgar el desempeño de una encuestadora, debiéramos ser capaces de distinguir entre estos escenarios tan drásticamente diferentes.

Así, lo que debería interesarnos es el error sistemático en una encuesta. En lugar de preguntar “¿quién le atinó al ganador de la elección?” debiéramos preguntar “¿qué tan bien mide generalmente una encuestadora a cada uno de los candidatos?” Nos parece que esta última fue la pregunta que se planteaba la comentocracia después de la elección de 2012, aunque su “evaluación” respondió la primera pregunta.

Pero ¿qué pasaría si pudiésemos medir la intención de voto “verdadera” para cada candidato a través de una campaña? Algo muy útil: podríamos comparar en cada momento de una campaña la intención “verdadera” de voto para cada candidato con la estimación que hace cada encuestador. A esta diferencia le llamamos error. Si agregamos estas diferencias durante una campaña, podemos calcular el error sistemático de cada encuestador estimando la intención de voto de cada candidato. Evidentemente, esta medición minimiza el efecto de la suerte.

La buena noticia es que la tecnología para identificar la intención de voto “verdadera” existe, por lo menos, desde hace medio siglo.2 Es la tecnología que permite rastrear un objetivo en movimiento, tal como un misil. Si consideramos que la intención de voto es una variable que se mueve constantemente en el tiempo, podemos aplicar esta tecnología a las encuestas publicadas durante una campaña y validar las estimaciones con el resultado de la elección.

Hicimos ese ejercicio en un artículo académico de próxima publicación para evaluar el desempeño de las encuestadoras durante las elecciones presidenciales de 2006 y 2012 en México.3 Utilizamos todas las encuestas publicadas en cada una de estas elecciones, tal como que fueron reportadas al entonces Instituto Federal Electoral (IFE).4 Los resultados confirman problemas con las encuestas preelectorales en México, pero en formas que no se han documentado ni comentado previamente.

Intención de voto de 2006 y 2012

Comenzamos mostrando la intención de voto real para cada candidato en cada momento de la campaña que estimamos utilizando todas las encuestas publicadas. El método que empleamos —un filtro de Kalman— nos permite detectar esta trayectoria con precisión, y separar eficientemente la trayectoria real del error aleatorio y sistemático en las encuestas publicadas.

Mostramos estos resultados de una manera muy intuitiva: para cada campaña presidencial graficamos las tres líneas que corresponden a nuestra mejor estimación de la intención de voto en el electorado para cada uno de los tres principales candidatos. La zona sombreada y coloreada alrededor de cada una de estas líneas representa los intervalos creíbles —la incertidumbre estadística— alrededor de nuestras estimaciones basadas en toda la información publicada durante las campanas. Es decir, creemos que la intención de voto se encuentra sobre la línea, pero podría estar en cualquier lugar de la zona sombreada.

Este ejercicio nos permite contar una historia más certera sobre lo que sucedió, primero, en 2006. El primer punto a notar es que nuestras estimaciones indican que López Obrador inició arriba en la intención de voto y fue rebasado por Calderón durante la primera mitad de abril. Utilizando toda la información disponible sólo podemos afirmar responsablemente que la campaña inició empatada y terminó empatada.

Si dejamos la incertidumbre de lado por un momento, las estimaciones sugieren que la intención de voto por López Obrador había comenzado a descender antes del célebre “¡cállate chachalaca!” que dirigiera al entonces presidente Fox. De la misma manera, Calderón pareciera haber despegado antes del primer debate presidencial, al que no asistió López Obrador. El segundo debate, tampoco parece haber motivado cambios sustanciales en la intención de voto por Calderón o López Obrador.

El caso de 2012 es posiblemente menos interesante porque el ganador de la elección realmente nunca estuvo en duda. Sin embargo, puede resultar interesante determinar si hay efectos observables de algunos eventos trascendentales durante la campaña. El primer debate presidencial no parece haber afectado negativamente la intención de voto por Peña Nieto; de hecho, había empezado a descender desde los días previos. Este debate, por el contrario, marca el punto de inflexión en la intención de voto de Vázquez Mota que se convierte en el tercer lugar a partir de ese momento.

Contrario a lo que se ha especulado, la aparición de Peña Nieto en la Universidad Iberoamericana y el surgimiento del movimiento #YoSoy132 no parecen haber afectado la intención de voto por el candidato del PRI. Ya en ese momento había una tendencia clara al descenso en la intención de voto por el hoy Presidente. Si algo observamos, es un ligero repunte que inicia justo después de ese evento. El segundo debate no genera cambios notables para ninguno de los tres candidatos.

Error sistemático en las encuestas de 2006 y 2012

Una vez que hemos producido esta estimación de la intención de voto real, es sencillo calcular el error sistemático en cada encuestadora al estimar la intención de voto por cada candidato que participa en una elección. En una elección con más de dos candidatos, saber quién estimó sin sesgo al candidato ganador puede ser interesante. Pero lo verdaderamente importante para la industria es conocer la magnitud y dirección del sesgo sistemático con que cada encuestador estima a cada candidato. Eso hacemos a continuación.

La elección de 2006 no solamente fue la más competida en la historia contemporánea. Aunque hubo un grado notable de sesgo, no fue en la magnitud o dirección que se ha especulado. De los 15 encuestadores que publicaron encuestas en esa campaña, cuatro subestimaron consistentemente a Felipe Calderón, y seis sobreestimaron constantemente a Roberto Madrazo. Paradójicamente, a pesar de sus quejas, ninguna encuestadora estimó a López Obrador con sesgos sistemáticos, haciéndolo el candidato mejor estimado por las encuestadoras en 2006.

Posiblemente el dato mas importante para 2006 es que nueve encuestadores – ARCOP, CEO, Covarrubias, Data OPM, El Universal, GEA-ISA, Indemerc mundial, Marketing Político y Reforma – que conjuntamente publicaron más de la mitad de las encuestas durante la campaña, estimaron a los tres principales candidatos sin sesgos sistemáticos.

A pesar de que la elección de 2012 fue menos competida, más encuestadores exhibieron sesgo sistemático en sus estimaciones. De los 13 encuestadores que publicaron encuestas en la elección, 9 sobreestimaron a Peña Nieto, 7 sobreestimaron a López Obrador y 3 subestimaron a Vázquez Mota. Sin embargo, cinco encuestadores —Reforma, Mercaei, Covarrubias, María de las Heras y Votia— estimaron sin sesgos sistemáticos a todos los candidatos a través de la campaña.

La Figura 3 sintetiza las mediciones de error sistemático en las estimaciones para cada candidato de cada encuestador en la elección indicada. La forma de leerla es la siguiente: los puntos localizan la magnitud del error sistemático y las barras proveen el intervalo creíble de esta magnitud (o la incertidumbre de nuestra estimación). En consecuencia, cualquier estimación que cruce la línea marcada con 0 indica una estimación sin error sistemático.

De la Figura 3, notamos también que en cada elección hubo un número notable de encuestadores que no mostraron errores sistemáticos en sus estimaciones para candidato alguno. De hecho, Reforma y Covarrubias consistentemente estimaron a los tres candidatos sin sesgos sistemáticos en las últimas dos elecciones.

La crisis de la crisis de las encuestas

Recapitulando, con una clara base científica y cuantificable podemos afirmar que el error sistemático en las encuestas fue más prevalente en 2012 que en 2006. Con esa misma base, podemos afirmar también que el error sistemático no es generalizable a toda la industria. ¿Hubo, entonces, una “crisis” de las encuestas en México en 2006 y 2012? No. ¿Hubo errores sistemáticos en la estimación de la intención de voto por candidatos? Sí. Este último es un punto medular que la industria de las encuestas en México debe atender y que el Instituto Nacional Electoral (INE) debe entender.

Basados en los resultados de nuestro análisis para las campañas presidenciales de 2006 y 2012, hay tres aspectos que serían un buen punto de inicio para las discusiones que debieran suceder en la industria de las encuestas en México.

Primero, cuando vemos un sesgo en la estimación de un candidato siempre es en la misma dirección. Por ejemplo, entre quienes estimaron con sesgo sistemático a Peña Nieto, todos lo sobreestimaron. Sería natural esperar que algunos lo subestimaran y otros lo sobreestimaran, pero no fue el caso en las últimas dos elecciones. El error aparece en tándem.

Segundo, cuando hay sesgo en la estimación de los candidatos de un partido, se observa consistentemente en la misma dirección. En particular, los candidatos del PRI siempre fueron sobreestimados y los candidatos del PAN siempre fueron subestimados entre quienes los estimaron con sesgo sistemático. Esto implica que no se trata de un efecto vinculado con estimar al candidato que va primero o último en intención de voto, sino con el partido al que pertenece.

Tercero, el error sistemático no es constante entre los encuestadores entre elecciones. Es decir, no todos los encuestadores que estiman al candidato de un partido con error sistemático en una campaña repiten este patrón en la siguiente elección. Por lo tanto, es enteramente posible que los encuestadores tomen medidas para minimizar el error sistemático.

Podríamos especular sobre posibles razones que expliquen estos comportamientos, algunas de ellas metodológicas y otras logísticas. Sospechamos que una parte de los errores podría deberse a cuestiones logísticas, vinculadas con la subcontratación de encuestadores regionales en el campo que muchos encuestadores comparten. Sin embargo, el problema más importante que encontramos para proveer alguna explicación científica es que la regulación electoral ignora por completo las causales logísticas, y la autoridad electoral es extremadamente laxa al interpretar el cumplimiento de los requerimientos metodológicos. Esto hace muy difícil generar algún tipo de inferencia sólida.

La metodología de encuestas es una ciencia en constante evolución, pero su adaptación requiere incorporar las peculiaridades que enfrentan los encuestadores en cada elección en cada país. Indudablemente, contar con una evaluación certera y comprehensiva de los errores sistemáticos en cada encuesta es el primer paso para diagnosticar los cambios que es necesario hacer.5 Este había sido, hasta ahora, el elemento faltante en la discusión en México.

Francisco Cantú,

Profesor asistente en la Universidad de Houston.

Verónica Hoyo

Profesora de asignatura en la Universidad de California – San Diego.

Marco A. Morales

Investigador Afiliado al Instituto Tecnológico Autónomo de México (ITAM)

1 Una discusión de estas propuestas e iniciativas de ley puede verse en Cepeda, Juan Antonio & Morales, Marco A. 2012. “La Insoportable levedad de legislar contra las encuestas” Este País 259.

2 Kalman, Rudolph E. 1960. “A New Approach to Linear Filtering and Prediction Problems” Journal of Basic Engineering 82(1):35–45.

3 Este texto se basa en los resultados del artículo “The utility of unpacking survey bias in multiparty elections: Mexican polling firms in the 2006 and 2012 presidential elections” de próxima aparición en el International Journal of Public Opinion Research, accesible en http://ow.ly/Meej1

4 Los datos para 2006 pueden consultarse en http://www.ine.mx/documentos/proceso_2005-2006/encuestas_2006/se_resultados.htm y para 2012 en http://www.ine.mx/documentos/proceso_2011-2012/EncuestasConteosRapidos/informe-encuestadoras.html

5 En otro lugar hemos discutido ampliamente y de forma más comprehensiva otros aspectos que deben considerarse al evaluar las “crisis” de las encuestas que involucran a otros actores además de los encuestadores. Ver Bautista, René y Marco A. Morales. 2012. “La Crisis de las Encuestas (primer acto)” [http://www.animalpolitico.com/blogueros-blog-invitado/2012/09/04/la-crisis-de-las-encuestas-primer-acto/] y “La Crisis de las Encuestas (segundo acto)” [http://www.animalpolitico.com/blogueros-blog-invitado/2012/09/05/%C2%ADla-crisis-de-las-encuestas-segundo-acto/] en Animal Político.