México celebra el próximo 1 de julio unas elecciones presidenciales trascendentales. A cinco meses de la votación, el promedio de los sondeos coloca primero a Andrés Manuel López Obrador, que ahora mismo rondaría el 37% de los votos. Le siguen el candidato del PAN, Ricardo Anaya (27%), y el del PRI, José Antonio Meade (25%). En cuarto y quinto lugar aparecen dos candidatos independientes, Margarita Zavala (7%), esposa del expresidente Felipe Calderón, que abandonó el PAN a finales del año pasado y el hasta ahora gobernador de Nuevo León, Jaime Rodríguez Calderón, conocido como El Bronco (3%).

Los datos analizados no tienen una única fuente, sino que son el promedio de 12 encuestas recientes hechas por distintas empresas. Los sondeos están promediados tal y como se explica en la metodología, tomando en cuenta el tamaño de su muestra, la empresa encuestadora y la fecha.

Estos datos colocan a López Obrador con una ventaja clara, pero no definitiva. Basta analizar la precisión de los sondeos en el pasado. En las tres últimas elecciones presidenciales en México, el error (absoluto medio) de las encuestas fue de 2,9 puntos por partido. Los sondeos estuvieron razonablemente bien en 2012 y 2006 —y aún mejor en las federales de 2015 y 2009—, pero se desviaron mucho del resultado en el año 2000. El margen de error de estos sondeos lo hemos estimado en unos 7 puntos. Además, quedan cinco meses hasta la votación y eso añade incertidumbre. Nuestro modelo de incertidumbre, basado en miles de encuestas de distintos países, dice que el margen de error de las encuestas en México rondaría ahora mismo los 11 puntos. Por eso la ventaja de López Obrador es importante, pero no definitiva. Otro dato sugiere lo mismo: según un sondeo de Buendía & Laredo para El Universal, la mitad de los mexicanos todavía está indeciso sobre a quién votará.

Hay, por último, otro argumento para atemperar el entusiasmo de López Obrador: los datos de intención de voto por partido.

Intención de voto por cada partido

Las encuestadoras también preguntan por partidos políticos además de por candidatos. Y eso tiene una ventaja: ofrecen series largas que arrancan antes de conocer los candidatos presidenciales. El siguiente gráfico muestra la intención de voto por cada partido —y las coaliciones que forman— desde el año 2015.

El promedio de encuestas coloca al Movimiento Regeneración Nacional (Morena) como el primer partido en México, con un 28% de votantes. Le siguen el PAN (24%), el PRI (24%) y el PRD (8%).

En el gráfico se muestran las sumas por coaliciones. Si asumimos que todos los votantes de cada partido votarán por el candidato de su coalición, López Obrador perdería el primer puesto en favor de Anaya, o al menos sus fuerzas se igualarían. Si el candidato del PAN consiguiese todos los votos de PRD y Movimiento Ciudadano, rondaría el 34%, frente a un 27% que consigue en las encuestas que preguntan usando directamente el nombre del candidato. Algo parecido ocurre con Meade, que logra el 25% de los votos con su nombre y un 28% sumando los votos de PRI, el Partido Verde y Nueva Alianza.

¿A qué puede deberse esta discrepancia en función de si preguntamos por candidatos o por partidos? Pueden ocurrir al menos dos cosas.

Quizás los simpatizantes de los partidos más pequeños no quieran votar por el candidato de su coalición. Puede ser, por ejemplo, que una parte de los votantes del PRD no quieren votar por Anaya, o que los simpatizantes de Nueva Alianza o el Partido Verde no se decidan por Meade. Una parte de estos votantes pueden estar indecisos, pero otros podrían rechazar sinceramente a los candidatos de su coalición. Si efectivamente es así, Meade y Anaya desaprovecharán parte del voto potencial de sus plataformas.

Pero hay otra posibilidad: es probable que algunos votantes todavía no conozcan el nombre de los candidatos. De acuerdo con los datos de Buendía & Laredo, el 84% de los mexicanos reconoce y nombra a López Obrador; pero solo un 56% y un 41% hace lo mismo con Anaya y Meade. Es evidente que López Obrador tiene ventaja. Una parte de los simpatizantes del PAN y del PRI, y de sus respectivos socios, no conoce quizás el nombre de sus candidato. Para estos partidos es fundamental mejorar las tasas de conocimiento de sus líderes, porque hay una máxima universal: las personas no pueden votarte sin conocerte.

En las próximas semanas se publicarán nuevos sondeos y desde EL PAÍS los seguiremos. Actualizaremos periódicamente el promedio de encuestas y construiremos más adelante un modelo de predicción electoral, similar a los que hemos usado en España, Francia o Reino Unido.

Metodología. Nuestro promedio tienen en cuenta decenas de sondeos desde 2015, para así mejorar la precisión del pronóstico. Los datos han sido recopilados en su mayoría por la web Oraculus.mx. El promedio está ponderado para dar distinto peso a cada encuesta según tres factores: el tamaño de la muestra, la casa encuestadora y la fecha. De los tres elementos, la ponderación por fecha es la más importante.

Peso por muestra. Las encuestas con más entrevistas realizadas reciben más peso, según una ley decreciente (pasado cierto umbral hacer más entrevistas aporta ya poco).

Efecto de la casa encuestadora. La mayoría de encuestadoras se desvían de forma sistemática del promedio. Hay encuestas que tienden a dar mejores resultados a unos candidatos (y partidos) que a otros. Es algo normal y razonable: si usan métodos, ajustes o hipótesis diferentes, es normal que sus desviaciones se repitan en el tiempo. El problema es que estos efectos mueven el promedio artificialmente a corto plazo. Una opción para evitar esto es calcular los «efectos casa»: la desviación sistemática que comete cada encuestadora con cada partido. Al hacer el promedio, podemos sustraer esa desviación del dato de cada encuestadora. Este ajuste lo aplicamos parcialmente y solo para encuestadoras con efectos fuertes.

Encuestas repetidas. Ponderamos a la baja las encuestas repetidas de un mismo encuestador. La idea es sencilla: no queremos que una empresa que haga muchas encuestas domine el promedio. Al calcular el promedio en una fecha, la encuesta más cercana de cada encuestador tiene peso 1, y el resto de encuestas de la misma casa reciben un peso reducido.

Peso por fecha. El último factor es el más importante: queremos dar más peso a las encuestas recientes al calcular el promedio. Para conseguir eso asignamos pesos a los sondeos según una ley decreciente exponencial (por ejemplo, en este promedio las encuestas de hace 30 días reciben la mitad de peso que una encuesta de hoy). También defino una franja de exclusión y elimino completamente del promedio las encuestas con más de 120 días de antigüedad. Estos parámetros cambian dependiendo de la agitación de los sondeos. Cuando no hay movimientos o tenemos pocas encuestas, como ocurre ahora, es mejor hacer un promedio lento, que agregue muchos sondeos y reduzca los errores de muestreo y las diferencias entre encuestadoras.