Tendencias

Conocer cuál es la industria que más se desarrolla en Puente Alto (spoiler: se relaciona con el comercio), de qué dependencia es el colegio con el mejor puntaje PSU o qué proporción de las importaciones totales del país llegan a esa comuna, la segunda más poblada de Chile, serán datos que podrás obtener con sólo un click.

Esa es la premisa de Data Chile, una plataforma en línea que integra, visualiza y distribuye datos públicos chilenos.

César Hidalgo, físico chileno y único profesor latino del Media Lab del MIT (Instituto Tecnológico de Massachusetts, por sus siglas en inglés) es el creador y líder del equipo de siete profesionales -que incluye diseñadores, economistas y desarrolladores de software- tras esta iniciativa, desarrollada por la empresa Datawheel y que cuenta con el patrocinio de Antofagasta Minerals, Corfo, el Ministerio de Economía y Entel.

El director del Grupo de Aprendizaje Colectivo de la misma universidad explica a El Dínamo que “nosotros no somos fuente de datos, somos distribuidores de datos y al distribuirlos, hacerlos visibles y fáciles de interpretar, logramos ser capaz de darle un escrutinio a esos datos”.

Data Chile organiza la información en Economía, Educación, Vivienda, Demografía y Salud, a nivel comunal, regional o nacional, con una visualización amigable y que permite un análisis de los datos a primera vista.

Así, por ejemplo, se podrá saber cuál es el producto que más se importa en cierta región, pero también cuáles son los datos relacionados a otro país que se vinculan con Chile: dónde está la mayor matrícula de colombianos o cuál es el producto chino más importado, por ejemplo.

Una experiencia anterior de Datawheel, empresa que pertenece a Hidalgo, fue Data USA, proyecto gemelo basado en datos de Estados Unidos creado en 2016. Las principales diferencias entre ambas plataformas son que la versión chilena incluye más fuentes de datos y que Data USA cuenta con historias basadas en el análisis de sus datos. La plataforma tecnológica propia de la versión local, comenta, es más avanzada que la versión estadounidense.

Para la recopilación de estos datos, el equipo tras Data Chile solicitó la información a través de la Ley de Transparencia, y allí fue donde encontraron el primer escollo: “Por ejemplo, los primeros datos de comercio que nos pasaron estaban mal, entonces los tuvimos que encontrar de nuevo. Hemos tenido varios problemas con los datos, pero eventualmente ya tenemos la situación bajo control”, aclara con optimismo, apuntando, sin embargo, a que la burocracia para concretar el proyecto fue la principal dificultad.

El profesor titular del MIT asegura que una de las principales necesidades que busca satisfacer este “integrador de datos” es mejorar la gestión gubernamental en el manejo de esta información.

“Hoy en día, si tú quieres ir a buscar datos de las fuentes que están en Data Chile son 15 páginas distintas y esos datos están en formatos distintos. Es decir, si quieres integrarlos es un costo muy grande. Entonces uno como gobierno no debería tener cientos de páginas web distintas, departamentos distintos, proveyendo datos distintos, sino que estos departamentos deberían generar los datos que tiene que generar, pero la plataforma de distribución debería ser capaz de integrar, unificarlos y redistribuirlos de manera mucho más accesible a los usuarios que de la manera que lo estamos haciendo hoy en día, en que cada uno hace algo distinto por separado y nada funciona junto”, comenta Hidalgo.

Agrega que espera aprovechar el impulso del cambio de gobierno para avanzar en la institucionalización de Data Chile, aprovechando que tanto la administración saliente como la entrante han mostrado su interés en el proyecto.

– ¿Te parece que debería haber un esfuerzo mayor desde el Estado para poner a disposición estas bases y en la integración de los datos?

– ¡Exacto! Lo que quiero hacer es, eventualmente, institucionalizar Data Chile como un esfuerzo de modernización del gobierno que se adopte, porque este es un bien público, digital, que tiene un costo muy bajo, es más barato que construir un kilómetro de carretera, pero a su vez genera un gran beneficio y un gran ahorro. El gobierno es uno de los principales actores que debería estar interesado en esto. Y sí están interesados.

En la página se señala que la administración de Data Chile pasará a manos del gobierno de Chile en abril del 2018, una vez terminado el financiamiento de Corfo.

Datos para la democracia

Pero no sólo la eficiencia es un factor que debería ser, a juicio de Hidalgo, considerado por el Estado, sino también el componente político que conlleva.

“En la discusión política se tiran siempre números y esos números son difíciles de verificar. Bueno, acá vamos a tener una fuente de verificación de muchas de estas estadísticas y una fuente también para entender cuáles son las capacidades, brechas y problemas de cada uno de los lugares del país, y si estas brechas incluso están bien medidas. Vamos a tener esta unificación para que podamos discutir sobre las interpretaciones, las direcciones, pero no sobre el estado de la situación”.

– Te parece que existe una urgencia por contar con datos más precisos en un contexto de “noticias falsas”, no sólo desde los medios de comunicación sino que desde los ciudadanos.

– Absolutamente, sí. Porque de hecho, un poco esto de los fake news emerge en un mundo bien postmodernista, donde todo es una opinión y donde todo es sobre una percepción y donde una realidad más o menos objetiva no existe. Y, obviamente, siempre los datos tienen problemas, tienen errores, pero aún así apuntan en cierta dirección, hay ciertos márgenes. Cuando yo veo los datos, por ejemplo, de ingresos de una comuna y la otra obviamente a ese ingreso no le voy a creer hasta el último peso de ese promedio, porque hay un margen de error, pero el hecho de que el ingreso de Vitacura sea el doble o más que el de Talagante, por ejemplo, eso ya sí es informativo. Entonces, a pesar de que los datos tienen errores y tienen problemas, las distribuciones y las comparaciones que definen sí son informativas.

– Entonces, ¿sostendrías que los datos son una fuente objetiva de información o existe un sesgo o interés en la entrega de los datos?

– La intención de la generación de datos en general es poder hacer algo cuantitativo, objetivo, medible, y también mejorable. La idea de poder medir las cosas es poder ir mejorando y ver si efectivamente mejoraron o creer que uno mejoró porque tuvo buenas intenciones. Pero, por otro lado, en el contexto de los gobiernos, sí se han manipulado y se manipulan datos, eso ha ocurrido en todo el mundo. Entonces sí creo que es importante que este tipo de esfuerzos pasen no sólo por un esfuerzo político sino que el gobierno le dé una cierta autonomía a una organización un poquito externa que tenga una reputación distinta, más científica, para que haga este tipo de cosas.

– ¿De esta manera se afianzaría la fe pública en la información que se entrega desde los organismos estatales?

– Para hacer datos confiables tienes que hacer procesos que te ayuden a confiar en los datos. Entonces, nosotros hemos encontrado que en Chile hay incluso versiones paralelas sobre datos que se supone son sobre lo mismo y que no dicen lo mismo, y eso es muy difícil de ver o corregir si todos estos cruces que no cruzan las personas los encuentran en distintos lugares. Ahora, si hay una información que es incorrecta o algo así, bueno se establece una duda, pero hay un lugar central en el que se compara y se mejora, se publica la actualización y vamos mejorando los datos. En general estoy de acuerdo con que sí hay mucha información que está icnorrecta o tiene problemas graves.

En este punto, Hidalgo menciona inconsistencias que durante el proceso de análisis detectaron en el Servicio Electoral (Servel) respecto a candidatos a alcaldes que fueron dados por ganadores sin tener la mayor cantidad de votos, y hace una analogía con el proceso de revisión de un texto al momento de escribir: “La única manera de descubrir los errores en los datos es verlos una y otra vez. Eso es lo que hacemos en esta plataforma: ver los datos una y otra vez, y cuando veo que un dato no hace sentido empezamos a indagar donde esta el error, si es de nosotros o quizás el dato venía malo. Para poder mejorar los datos hay que verlos cien veces”.

– Otro desafío respecto a las bases de datos que entregan los servicios públicos es la actualización, ya que, por ejemplo, hay bases cuya última actualización es de 2014

– Es que con esto generamos demanda por eso, porque al comparar con otro dato, como las exportaciones, por ejemplo, que está actualizado al 2016, el DEIS (se refiere al Departamento de Estadísticas e Información de Salud señalando en la pantalla de su computador el dato de afiliados a Fonasa) se tiene que poner las pilas. Porque además hacer esto es muy caro para un servicio, entonces nosotros decimos déjennos la distribución a nosotros, que somos capaces de hacer esa distribución de datos, ustedes preocúpense sólo de la generación de datos, nosotros lo podemos integrar y las podemos distribuir.

La visión de Hidalgo a largo plazo es poder ir aumentando la cantidad de bases integradas a la plataforma e ir incorporando más características que mejoren su usabilidad, como poder comparar en una misma panatalla dos comunas de acuerdo a sus ingresos, opción que ya existe en su proyecto gemelo Data USA con un objetivo más grande y profundo.

“Creo que estos esfuerzos aumentan la democracia. La idea es empezar a aumentar la democracia de una manera en la cual la información no sólo se integre y se distribuya sino que la visión mía a largo plazo, a cien años, es eventualmente ser capaz de automatizar muchas de estas labores ejecutivas de los gobiernos. Y estos son como unos pequeños peldaños”.

Acceso versus privacidad

Data Chile incluye información de 12 bases de datos distintas, tales como el Ministerio de Educación, el Instituto Nacional de Estadísticas (INE), el Servicio Nacional de Aduanas, Extranjería y Migración y la Subsecretaría de Telecomunicaciones (SUBTEL).

Al ser datos públicos, precisa Hidalgo, están diseñados para poder ser publicados y se puede preservar el anonimato. Esto a pesar de que, según un paper publicado por él mismo en 2008, haciendo sólo un par de cruces, lo que aparece sólo como un número en una pantalla puede ser “desanonimizados”, es decir, revelar la identidad de una persona.

“Lo que nosotros hacemos en Data Chile es trabajar con datos que son públicos, que están diseñados para ser publicados y por ende no tiene tanto riesgo con la anonimidad. Pero hoy hay muchos datos que sí son privados, que se recolectan por empresas del sector privado, principalmente el retail que tiene esa mala costumbre de pedirte el rut para hacer una compra”, explica.

– ¿Cómo se vincula esta plataforma con la disyuntiva entre acceso y privacidad, sobre todo en el tema de los datos más personales, como los relacionados con salud?

– Como la revolución de los datos ha sido tan reciente y tan rápida, creo que no existe una educación muy general sobre los distintos matices que existen en el mundo de los datos, y me parece importante ir educándose en los distintos tipos de datos y los distintos tipos de riesgos que hay. Por un lado hay datos qe son muy agregados, que no tienen riesgo de privacidad. Cuando yo te digo que las empresas en Talagante exportaron 11 millones de dólares a Perú no estoy invadiendo la privacidad de nadie. Y esta información por ley es pública, y cuando se hace ese registro se sabe que esa información puede eventualmente publicarse. Cuando yo te digo que estuviste a la 2 de la mañana un sábado en la noche en la discoteque Blondie esa información que quizás tu no quieres que la gente sepa, y esa información que es individual y es personal.

– Para un ciudadano común, que no sea ni periodista ni cientista de datos, ¿qué provecho le puede sacar a esta herramienta?

– Hay distintas cosas dependiendo del ciudadano. Por ejemplo, para una persona que está pensando en hacer una campaña de marketing, acá tienen información sobre la demografía, los ingresos, los orígenes, de todas las comunas de Chile. O si están pensando en desarrollar una nueva actividad económica o establecer una sucursal de un negocio, acá también va a tener información que va a ser relevante, qué otras industrias ya están presentes en ciertas municipalidades. Los profesores de Geografía o de Historia pueden hacer proyectos donde los estudiantes puedan descubrir las contrastes y diferencias entre comunas y regiones. Así se usan estos datos, por ejemplo, en la sociedad civil y en el gobierno o en el ámbito educacional.

“Tenemos esperanza de incluir más datos, hacer más features, y la idea es que el proyecto siga avanzando. La idea es que se transforme en el proyecto líder global de cómo los sitios de datos abiertos deberían verse”, concluye.