Andrés Manuel López Obrador afronta el último mes antes de las elecciones mexicanas con una sustancial ventaja sobre sus rivales. El líder de Morena cuenta con un 48% de intención de votos, según el promedio de sondeos y ha aumentado su ventaja hasta 20 puntos con Ricardo Anaya, que cuenta con un 28%. El candidato del PRI, José Antonio Meade, sigue tercero, con un 20%.

De acuerdo al modelo electoral de EL PAÍS, López Obrador tiene un 92% de probabilidades para ser elegido presidente el próximo 1 de julio; el candidato de Por México al Frente –la coalición del conservador PAN y los progresistas PRD y Movimiento Ciudadano- un 9% y Meade, un 1%, es decir, solo se impondría una de cada 100 veces.

La ventaja de López Obrador es clara. Ni siquiera los dos debates que se han celebrado hasta ahora, el terreno en el que peor se desenvuelve el tres veces candidato, han mermado su posición en las encuestas. No es normal que se produzca un vuelco electoral que haga perder 20 puntos al candidato puntero. Sirve de referencia una estadística deportiva: ahora mismo una derrota de López Obrador sería más rara que ver fallar un penalti a Cristiano Ronaldo. No obstante, la victoria del candidato de Morena tampoco es una certeza: los sondeos aún podrían moverse y hasta el último día habrá espacio para una sorpresa.

Estos pronósticos se calculan a partir de encuestas, usando la metodología de nuestros modelos electorales para Francia, Reino Unido o España. Los modelos convierten las encuestas en predicciones probabilísticas después de estudiar la precisión histórica de miles de sondeos. En el caso de México, el modelo asume un error medio de 3,5 puntos por candidato, que es mayor ahora porque faltan semanas hasta el 1 de julio. El margen de error todavía ronda los 15 puntos para un candidato con el 40% de votos. López Obrador es favorito, pero no tiene garantizada su victoria.

López Obrador cuenta con otros datos a su favor. El primero es la tendencia positiva en los sondeos. El candidato de Morena ha subido siete puntos en las encuestas desde marzo. Eso ha hecho que sus opciones de victoria aumentasen también desde el 79% —nuestra primera predicción del día 31 de marzo— hasta el 92% actual.

Mientras, sus rivales no terminan de cerrar la distancia y la segunda plaza sigue en disputa. El mejor momento para Meade fue poco después de ser designado por el presidente, Enrique Peña Nieto, como el candidato del PRI. No obstante, la mala imagen del partido y el Gobierno actual, ha pesado mucho en toda la campaña. El último debate, en el que el aspirante priista se mostró más sólido que sus rivales, no ha traído una mejora muy grande en los sondeos. Por su parte, Ricardo Anaya, que inició el año al alza, se ha estancado en los últimos meses. Si el primer debate le sirvió para marcar distancias con Meade, el segundo, celebrado hace dos semanas en Tijuana, no fue fructífero para Anaya.

El último mes ha sido particularmente bueno para el candidato de Morena, que podría estar subiendo otro escalón. Las cuatro encuestas más recientes en nuestro promedio —de Parametria, Reforma, Ipsos y Demotecnia— lo colocaron por encima del 50% de votos. En mayo las encuestas de Reforma y Parametria le dan subidas de 4 y 9 puntos. Ricardo Anaya y José Antonio Meade, mientras tanto, aparecen planos o pierden apoyos.

Una de los factores a los que recurren tanto Anaya como Meade para decir que la batalla electoral no está resuelta es al número de indecisos. Tampoco los datos en este caso son malos para López Obrador, porque no hay tanto como podría parecer. En la última encuesta de Enkoll, que publicó La Silla Rota, un 33% de los mexicanos dice que aún no sabe por quien votará. Pero la mayoría en ese grupo declarará preferencia por algún candidato. Los indecisos absolutos (que no saben por quien votarán ni declaran preferencias) seguramente no superan el 14% del censo. Esas personas, además, tienen propensión a no votar. Hay que recordar que la cifra de encuestados que reconocen que es probable que no voten apenas llega al 20%, aunque la abstención real suele superar el 35%.

¿Cuál es la esperanza de Ricardo Anaya en este último mes? Su baza pasa por coordinar el voto contra López Obrador. Hasta el momento ha conseguido el apoyo de la élite empresarial, que ha desistido de apoyar a su favorito, Meade, para decantarse por Anaya. Esta élite, además, ha lanzado duros ataques contra López Obrador en las últimas semanas. Pero de nuevo los sondeos ofrecen cierta tranquilidad al candidato de Morena. Los datos sobre segundas opciones limitan el flujo potencial de votantes saltando de José Antonio Meade a Ricardo Anaya. Según cifras de la empresa Demotecnia, si la elección fuese entre López Obrador y Anaya, los votantes de Meade se repartirían casi a partes iguales. Es decir, hay un sector del PRI que se siente más cómodo con la victoria de López Obrador que con un triunfo del expresidente del PAN, el tradicional partido opositor en México. Eso limita los efectos coordinación. Entre los votantes del candidato del PRI habría un 40% que tiene a Anaya como segunda opción, pero eso solo supone el 8% de todos los votos. Aunque todos ellos decidiesen votar por Anaya al final —cosa poco probable—, serían insuficientes para hacerle ganar.

La derrota de López Obrador, en caso de producirse, vendría seguramente por dos vías. Una posibilidad es que se produzca un cambio brusco en las encuestas durante el final de campaña. En ese caso lo veríamos en los últimos sondeos. La otra opción es que la sorpresa llegue el día de la elección y que el recuente demuestre que las encuestas estaban muy erradas. Eso no es imposible —ocurrió, por ejemplo, con el plebiscito colombiano en 2016, cuando las encuestas fallaron por 15 puntos—, pero no es algo frecuente. Por eso nuestro modelo mantiene a López Obrador favorito al 92%.

Metodología del modelo. Las predicciones las produce un modelo estadístico basado en sondeos y en su precisión histórica. El modelo es similar al que usamos en Francia, Reino Unido o Cataluña. Funciona en tres pasos: 1) agregar y promediar las encuestas en México, 2) incorporar la incertidumbre esperada, y 3) simular 20.000 elecciones presidenciales para calcular probabilidades.

Paso 1. Promediar las encuestas. Nuestro promedio tienen en cuenta docenas de sondeos para mejorar su precisión. Los datos han sido recopilados en su mayoría por la web Oraculus.mx. El promedio está ponderado para dar distinto peso a cada encuesta según tres factores: el tamaño de la muestra, la casa encuestadora y la fecha.

Peso por muestra. Las encuestas con más entrevistas reciben más peso, según una ley decreciente (pasado cierto umbral, hacer más entrevistas aporta poco).

Efecto de la casa encuestadora. La mayoría de encuestadoras tienden a dar mejores resultados a un candidato de forma sistemática. Es algo razonable: si usan métodos e hipótesis diferentes, es normal que sus desviaciones sean constantes. El problema es que estos efectos mueven el promedio artificialmente a corto plazo. Una opción para evitarlo es calcular los «efectos casa», la desviación sistemática de cada encuestadora con cada candidato. Después, al promediar las encuestas, sustraemos (parte de) esa desviación del dato de la encuestadora.

Encuestas repetidas. Ponderamos a la baja las encuestas repetidas de un mismo encuestador. La idea es sencilla: no queremos que una empresa que haga muchas encuestas domine el promedio. Al calcular el promedio en una fecha, la encuesta más cercana de cada encuestador tiene peso 1, y el resto un peso reducido.

Peso por fecha. El último factor es el más importante: queremos dar más peso a las encuestas recientes al calcular el promedio. Para conseguir eso asignamos pesos a los sondeos según una ley decreciente exponencial (por ejemplo, en este promedio una encuesta de hace 15 días recibe la mitad de peso que una encuesta de hoy). También definimos una franja de exclusión y eliminamos completamente las encuestas con más de 60 días de antigüedad.

Paso 2. Incorporar la incertidumbre de las encuestas. Este es el paso más complicado y más importante. Necesitamos estimar la precisión esperada de los sondeos en México. ¿De qué magnitud son los errores habituales? ¿Cómo de probable es que se produzcan errores de 2, 3 o 5 puntos? Para responder esas preguntas hemos estudiado cientos de encuestas en México y miles internacionales.

Calibrar los errores esperados. Primero he estimado el error de las encuestas en México. He construido una base de datos con encuestas de cinco elecciones desde 2000 —incluyendo las tres presidenciales. El error absoluto medio (MAE) de los promedios de encuestas en México ha rondado los 3 puntos por partido o candidato. Eso significa que fueron habituales desviaciones de 3 o 4 puntos y que el margen de error se acerca a los 8 puntos. Pero tres elecciones son pocas para extraer conclusiones fuertes, especialmente si miramos el acierto de los sondeos en la región. Nuestro análisis de 24 votaciones en Latinoamérica eleva el error MAE a 4 puntos. Por eso, queriendo ser cautos, nuestro modelo asume un MAE de 3,5 puntos para México.

Esos errores dependen al menos de dos cosas: del tamaño del candidato/partido y de la cercanía de las elecciones. Para tener en cuenta esos dos factores hemos recurrido a la base de datos de Jennings y Wlezien, recientemente publicada en Nature. Hemos analizado los errores de más de 4.100 encuestas en 241 elecciones de 19 países occidentales. Así hemos construido un modelo sencillo que estima el error MAE del promedio de votos estimado por las encuestas para cada partido, teniendo en cuenta: i) su tamaño (es más fácil estimar un partido que ronda el 5% en votos que uno que supera el 30%), y ii) los días que faltan hasta las elecciones (porque las encuestas mejoran al final).

Distribución. Para incorporar la incertidumbre al voto de cada partido en cada simulación utilizo uno distribución multivariable. Uso distribuciones t-student en lugar de normales para que tengan colas más largas (curtosis): eso hace más probable que sucedan eventos muy extremos. Las ventajas de esa hipótesis la explica Nate Silver. El nivel de curtosis lo he estimado con la base de datos. Luego defino la matriz de covarianzas de estas distribuciones para que i) la suma de los votos no sobrepase el 100% (una idea de Chris Hanretty), y ii) consideren correlaciones entre candidatos cercanos (tomando datos de duelos cara a cara y de segundas opciones). Por último, hay que escalar la amplitud de las matrices de covarianza para que las distribuciones de voto que resultan al final tengan el MAE y la amplitud esperados según la calibración.

Paso 3. Simular. El último paso consiste en ejecutar el modelo 20.000 veces. Cada iteración es una simulación de las elecciones con porcentajes de voto que varían según la distribución definida en el paso anterior. Los resultados en esas simulaciones permiten calcular las probabilidad que tiene cada candidato de ganar.

Por qué encuestas. El modelo se basa por entero en encuestas. Existe la percepción de que los sondeos no son fiables, pero a nivel nacional fallaron por pocos puntos incluso con Trump y con el Brexit. En otras elecciones recientes dieron menos que hablar porque estuvieron acertados (Francia, Países Bajos, País Vasco, Galicia, Cataluña). Pese a la creencia popular, lo cierto es que las encuestas no lo han hecho mal últimamente. Las encuestas raramente son perfectas, pero no existe una alternativa que haya demostrado mejor capacidad de predicción.