Ultimamente me he puesto a digitalizar varias cantidades de documentos que tenía por casa. Documentos que me ocupan espacio y que necesito liberar pero no quiero perder. Es por ello que buscando por internet encontré una solución basada en un programa OCR y la cámara del smartphone.

Con la cámara del smartphone fotografiaría el documento y luego pasaría un programa OCR a la imagen para crear el documento de texto y poder utilizarlo y guardarlo en el ordenador. Pero ¿que programa usar para el reconocimiento OCR en Debian u otra distribución Gnu/Linux?

Navegando por Internet encontré varias webs que hablaban de este tipo de programas. En Gnu/Linux, un programa OCR está compuesto por el motor de reconocimiento y la interfaz. En cuánto a motor de reconocimiento, existe uno muy bueno llamado tesseract-ocr (personalmente lo probé y funciona muy bien) que es el que utilizaremos y la interfaz, en este caso, escogeremos gImageReader, que posee una interfaz bastante amigable para todo tipo de usuarios.

Así pues, para instalarlo abrimos una terminal y escribimos lo siguiente:

sudo aptitude install tesseract-ocr tesseract-ocr-spa gimagereader

Una vez que termine la instalación, hemos de ejecutar gImageReader y ya está listo para usar. Solo hemos de seleccionar la imagen o lote de imágenes que queremos digitalizar y pulsar la opción que está en la parte superior llamada «Recognize All». Esto hará que comience el reconocimiento de caracteres del documento y lo porta a un documento txt que podremos abrir con cualquier editor de texto.

La interfaz de gImageReader es muy intuitiva y fácil de usar, por lo que el uso del programa OCR es muy fácil y rápido, haciendo muy fácil la tarea de digitalizar documentos de texto.

Claro está, si tenemos documentos aislados, hemos de ir imagen tras imagen pues si lo hacemos como lote de imágenes, crearíamos un único documento txt con todo el texto de los documentos. En cualquier caso, no hay ya excusa para tener nuestros documentos de texto en formato digital ¿no creéis?