Por Agustín Vallejo y Agustina Haime (*)

La elección primaria del pasado 13 de agosto fue testigo, pero no excepción, de cuán errados pueden estar los expertos de la medición de la intención de voto. Quiénes fueron las encuestadoras que más lejos quedaron del resultado final ya fue tema análisis durante esta semana. En esta nota responderemos otras preguntas: por qué se equivocan y cómo estimar la intención de cada candidato anulando parte de ese error.

Existen dos tipos de errores en la realización de encuestas: un error aleatorio y un error sistemático. El error aleatorio es producto de fallas no intencionales por parte del encuestador y del encuestado. Por ejemplo, errores cometidos en la selección de la muestra, errores a la hora de ajustar y ponderar los resultados de la encuesta en base a la población estudiada, y errores de procesamiento de datos.

El segundo tipo de error es el sistemático. A diferencia del primer tipo de error, en este caso sí existe un sesgo intencional en el reporte del resultado de la encuesta en beneficio o perjuicio de uno o más candidatos. Cuando este error se repite en repetidas encuestas en una misma dirección (en beneficio o perjuicio del mismo candidato) y en magnitudes similares estamos en presencia de un “house effect”, es decir, un efecto propio de cada encuestadora sobre el reporte de los resultados.

¿Es posible realizar una estimación más precisa de la intención de voto corrigiendo estos errores? El error aleatorio no puede corregirse porque carece de un patrón que lo haga identificable. Lo único que puede hacerse con él es estimarlo a partir del tamaño de la muestra. Por otra parte, sí es posible calcular la dirección y la magnitud del error sistemático de cada encuestadora a partir del resultado de la elección y eso es lo que haremos a continuación.

Siguiendo el método propuesto por Simon Jackman (Jackman 2005; Cantú et al 2015) lo primero que hacemos es calcular el sesgo de cada encuestadora a partir del resultado de la elección. Una vez que conocemos este sesgo realizamos una simulación bayesiana a partir del resultado final donde lo que se predice es el pasado, es decir, cuál fue la intención de voto de cada candidato sin ningún “house effect” a una semana, un mes, o a “n” cantidad de días antes de la elección. Para la estimación utilizamos las encuestas de las PASO publicadas por el Observatorio de Encuestas de La Política Online para el cargo de senador nacional por la provincia de Buenos Aires donde no solo figura el porcentaje de votos que cada encuestadora le atribuye a cada candidato, sino también el número de casos con los que contó cada encuesta.

En la Figura 1 presentamos el resultado de esta simulación que ajusta por el “house effect” para los tres candidatos que más votos obtuvieron en la PASO para senador: Cristina Fernández de Kirchner, Esteban Bullrich y Sergio Massa. Las líneas indican la intención de voto estimada para cada momento de la campaña (desde el 8 de mayo, fecha en la cuál registramos nuestra primera encuesta, hasta el día de la elección), y las franjas de colores alrededor corresponden a los intervalos de confianza del 95%. Los puntos con distintas formas y colores tanto dentro como por fuera de los intervalos indican la estimación de cada encuestadora sobre la intención de voto de cada candidato en cada momento de la campaña.

Figura 1: Estimación de intención de voto de cada candidato en cada momento de la campaña

Fuente: Elaboración propia en base a datos de Observatorio de Encuestas de LPO

La Figura nos indica que hay un grupo de encuestadoras que se encuentran consistentemente dentro del intervalo de confianza de cada candidato a lo largo de la campaña, y cuya estimación de la intención de voto fue cercana a la encontrada por nuestra estimación. Por otro lado, vemos que algunas encuestadoras persistentemente sub o sobre estiman la intención de voto de los candidatos, y por ende, se encuentran por fuera de las líneas sombreadas de cada candidato. Cabe destacar que, al no contar con todas las encuestas publicadas en todos los diarios a lo largo de la campaña (ya que muchas de las notas donde se las menciona no reportan datos técnicos como el número de entrevistados), vemos algunos patrones inusuales al inicio de la campaña.

Restaría responder una última pregunta: ¿para qué querríamos conocer algo que sucedió y ya sabemos cómo terminó? Hay dos respuestas posibles a esta pregunta. En primer lugar, tener una estimación precisa de la intención de voto de cada candidato nos permitiría analizar los acontecimientos sucedidos a lo largo de la campaña. Una pregunta qué podría responderse viendo ese gráfico es “¿en qué momento se polarizó la elección?” Por otra parte, un segundo uso que puede hacerse de esta estimación es analizar las encuestas que nos depararán hasta el día de la elección general a la luz de su correspondiente “house effect”. Asumiendo que las encuestadoras mantienen el sesgo que tuvieron para las PASO, podría realizarse una estimación que lo controle y reporte con mayor precisión la intención de voto de cada candidato de cara a las próximas elecciones. Si bien no podemos hacer que las encuestadoras no se equivoquen sin querer ni a propósito, podemos calcular cómo se equivocan y poder leer entre líneas sus reportes.

(*) Los autores quisieran agradecer a Francisco Cantú por sus comentarios para escribir este artículo.

Referencias

Cantú, F., Hoyo, V., & Morales, M. A. (2015). The utility of unpacking survey bias in multiparty elections: Mexican polling firms in the 2006 and 2012 presidential elections. International Journal of Public Opinion Research, 28(1), 96-116.

Jackman, S. (2005). Pooling the polls over an election campaign. Australian Journal of Political Science, 40(4), 499-517.

Para replicación, código y data, escribir a los autores a ah35@rice.edu o av37@rice.edu.