Por Nelson Pedernera (Especialista en Explotación de Datos y Descubrimiento del Conocimiento). Tal vez la palabra “siempre”, a la que refiere el título, es una gran responsabilidad. Pero sin duda el uso de la ciencia de datos podría hacer que tengamos mucha más probabilidad de encontrar una bicicleta la próxima vez que estemos en una de las estaciones de Ecobici.

En realidad, esta idea de mejorar el servicio de bicicletas públicas (o privadas) no es nueva: Allá por el 2015, se realizó la competición “Bike Sharing Demand” en el portal de Kaggle.com, la cual consistía en predecir la demanda de bicicletas del programa Capital Bikeshare en Washington, D.C. en base a la información meteorológica. Inspirado en esa idea, se podría suponer de realizar lo mismo para el sistema de bicicletas de la Ciudad de Buenos Aires.

Ahora bien, ¿qué nos motivaría a realizar este tipo de predicción? A primera vista, por supuesto, mejorar la disponibilidad de las bicicletas, pero también existen otras razones que sitúan al sistema de Ecobici como una necesidad, más que un simple servicio, por ejemplo…

Al no necesitar combustible, la bicicleta ahorra energía evitando el consumo de recursos no renovables. No se emiten gases de efecto invernadero que contaminan el aire, y tampoco se generan ruidos molestos.

La bici mejora el uso del espacio público porque libera a las calles de la congestión de vehículos.

Significa una mejor calidad de vida para los usuarios porque reduce el sedentarismo y mejora la actividad física.

Es una política estratégica de la Ciudad de Buenos Aires, ya que desde su implementación en el 2010, se han ampliado la cantidad de bicicletas disponibles y los kilómetros de ciclovía, y en consecuencia ha pasado del 0.4% de la población al 3.5%

La bici es la mejor aliada de una vida urbana de calidad.

Sin embargo, ¿cómo conseguir los datos necesarios si no hay un portal “Kaggle” nacional que nos provea tales datasets?

Por suerte, la Ciudad de Buenos Aires tiene una política de datos abierta desde hace muchos años, y dentro de los conjuntos de datos disponibles se encuentran los recorridos realizados en el sistema de Ecobici desde el 2010 en adelante.

Buenos Aires Open Data:

Por otro lado, la información climática se podría obtener de varios portales web, como por ejemplo “WeatherUnderground”.

Weather Underground:

Una vez obtenidos los datasets para los años 2016 y 2017, los siguientes pasos serían:

Unir la información y sumarizar a un nivel de demanda por hora del día, ya que así se encuentran la información climática. Aplicar técnicas de exploración de datos (Análisis de Correspondencia, Análisis de Componentes Principales, Clusterización). Aplicar técnicas de predicción de la demanda (Redes Neuronales, Árboles Random Forest, Regresión Lineal, Gradient Boosting). Evaluar los modelos y elegir el mejor.

El siguiente diagrama sumariza los pasos descriptos:

Luego de aplicar las técnicas mencionadas y evaluarlas según la Raíz del Error logarítmico Cuadrático Medio, la mejor técnica fue la de xgboost, la cual ha sido la más usada durante varios años en las competencias de Kaggle. He aquí una tabla con los principales resultados de la competencia del 2015 y el resultado obtenido del presente trabajo:

De hecho, el modelo desarrollado con xgboost sobre Ecobici hubiese permitido entrar en las primeras posiciones del podio en la competencia de Kaggle.

Una vez obtenido un modelo, ¿qué se puede hacer?. Pues ahora, sólo teniendo los valores pronosticados del tiempo del día siguiente, se podría estimar la demanda de bicicletas en el sistema de Ecobici.

Esta herramienta será de mucha utilidad pues permitirá:

Mejorar el servicio, dedicando aquellos días de baja demanda para el mantenimiento de unidades, y días de alta demanda distribuyendo un mayor número de bicicletas.

Optimizar el presupuesto, al decidir si comprar mas bicicletas o distribuirlas mejor.

Tener bicicletas disponibles en todo momento, a fin de optar por un medio de transporte más sustentable

Sin duda alguna, se podría seguir mejorando la predicción de la demanda (y subiendo en la tabla de posiciones de Kaggle), sumando más información disponible como ubicación de las estaciones, origen-destino, ubicación cercana a estaciones de subte/tren/metrobús, etc, pero eso quedará ya para el siguiente capítulo.

_____________________________________________________________________________

Referencias

[1] C.-S. L. a. Y.-P. W. Yu-Chun Yin, «Demand Prediction of Bicycle Sharing Systems,» 2014. [En línea]. Available: http://cs229.stanford.edu/proj2014/Yu-chun%20Yin,%20Chi-Shuen%20Lee,%20Yu-Po%20Wong,%20Demand%20Prediction%20of%20Bicycle%20Sharing%20Systems.pdf

[2] R. H. Z. Z. Jimmy Du, «Forecasting Bike Rental Demand,» 2014. [En línea]. Available: http://cs229.stanford.edu/proj2014/Jimmy%20Du,%20Rolland%20He,%20Zhivko%20Zhechev,%20Forecasting%20Bike%20Rental%20Demand.pdf

[3] D. W. A. W. Christina Lee, «Forecasting Utilization in City Bike-Share Program,» 2014. [En línea]. Available: http://cs229.stanford.edu/proj2014/Christina%20Lee,%20David%20Wang,%20Adeline%20Wong,%20Forecasting%20Utilization%20in%20City%20Bike-Share%20Program.pdf

[4] K. M. a. B. P. R. Akshay Patil, «Bike Share Demand Prediction using RandomForests,» 2015. [En línea]. Available: http://ijiset.com/vol2/v2s4/IJISET_V2_I4_195.pdf

[5] W. Liu, «Predicting Capital Bikeshare Demand in R: Part 3. Generalized Boosted Model,» 10 Julio 2014. [En línea]. Available: http://beyondvalence.blogspot.com/2014/07/predicting-capital-bikeshare-demand-in_10.html