Uno de los mayores inventos de la humanidad (en cuanto a nuestra labor se refiere) ha sido el ordenador. Con él podemos dibujar, retocar, escanear, maquetar… Pero dentro de este “gran invento” el que los ordenadores consiguieran detectar letras dentro de imágenes escaneadas ha sido de gran ayuda para todos aquellos que nos dedicamos a la preimpresión. La tecnología OCR (Reconocimiento Óptico de Caracteres) nos permite obtener textos editables de lo que en principio no son más que imágenes escaneadas de un libro, una revista, un folleto…

Los programas OCR dedicados permiten hacer un previo del escaneado desde donde podremos elegir las zonas a escanear, también permiten el escaneo con ajustes de tonos, además de una corrección previa del texto antes de la salida final y nos dan a elegir el formato final del fichero de texto.

No me voy a centrar en ningún software en especial sencillamente porque la técnica que describiré es el método más general de preparar los ficheros para efectuar el Reconocimiento Óptico de Caracteres. Para el ejemplo me he bajado una imagen de internet que cumple “ciertas características”.

OCR preparación con Photoshop

Lo primero que debes conseguir para hacer un buen OCR es que el original sea lo más limpio y definido posible. Si depende de tí mismo el escaneo de los originales, lo suyo es que desde el principio empieces a hacer las cosas de la mejor manera.

1.- Para empezar (y si no son muchos), te aconsejaría que escanearas tus originales a 600 pppp, en escala de grises y todos de una vez. Si son muchos los originales y no te quieres entretener en exceso (o lo haces automáticamente), procura que la resolución del escaneo sea la mejor posible. El sugerir hacerlo en escala de grises tiene su explicación: es la mejor manera de que puedas captar los matices que pueden hacer que tu aplicación OCR interprete mejor o peor el texto final.

2.- Elimina del escaneado las imágenes, filetes y cosas que no quieras que aparezcan posteriormente (o que pienses que te puedan acarrear problemas). En este momento nos estamos centrando en el texto, y, de momento, no necesitamos nada más.

OCR - Técnica General de preparación con Photoshop

3.- Una vez que tengas escaneados los originales y eliminados los elementos indeseados , procede a corregir los niveles (o las curvas, lo que prefieras) de cada una de las imágenes. Personalmente, yo lo hago buscando con el cuentagotas las zonas que quiero blancas del todo, así como las que quiero negras completamente. En el caso de que sean muchos los originales escaneados, puedes aplicar una acción de Photoshop para que te modifique las curvas o los niveles de todas las imágenes de una vez (pero supongo que sabes que esto las modificará de un modo más genérico).

OCR - Técnica General de preparación con Photoshop

4.- Con seguridad, te habrán quedado suciedades alrededor de los textos. Elimínalas en la medida que puedas y que consideres que no te entretiene mucho. Yo utilizo el marco rectangular para para borrarlas en los exteriores de los textos (los márgenes). De esta forma “te llevas” muchas imperfecciones de una vez. Entre las líneas y las letras encontrarás también suciedades. Procura eliminar las que puedas o, en su caso, las más evidentes que pudieran hacer “confundirse” al software de OCR. Puedes aplicar un desenfoque gaussiano muy pequeño para que esos puntitos negros se transformen en puntitos grises. Utiliza otra vez la técnica de niveles o curvas para dejar la mayoría en blanco. Hazlo de tal forma que las letras no se vean afectadas (o por lo menos intenta que sea lo mínimo).

OCR - Técnica General de preparación con Photoshop

Te habrás dado cuenta de que estos procesos han engordado un poquito la letra. Lo que no debes permitir es que se cieguen los caracteres.
6.- Cuando el texto esté limpio, ponlo recto para que el software haga su trabajo posteriormente de una forma más sencilla. Puedes ayudarte de las guías de Photoshop o utilizar la técnica para girar imágenes que describí en una entrada anterior:

Enderezar imágenes en Photoshop

Entre otras cosas, el hecho de que la imagen esté escaneada en Escala de Grises permite esto. Si fuera un bitmap en B/N no podrías hacerlo.

OCR - Técnica General de preparación con Photoshop

7.- Si ya has limpiado la imagen y has puesto recto el texto, puedes continuar tu trabajo en función de como esté dispuesto el texto escaneado:

Si el texto está en dos o más columnas: Puedes modificar la disposición de éstas para que el texto a “reconocer” vaya de forma contínua. Habitualmente los programas de OCR “dedicados” te permiten escanear zonas que tú luego numeras para que el software las reconozca en el orden que tú les has proporcionado. Como este no es nuestro caso, lo que hacemos es un fichero con el texto contínuo y así evitamos problemas de bloques de texto reconocidos en orden incorrecto. Una vez hayas colocado el texto en un solo bloque puedes acoplar la imagen (puesto que seguro que has creado alguna capa). Si quieres también puedes unir varios documentos en uno para posteriormente procesar de un tirón varias páginas de texto.

OCR - Técnica General de preparación con Photoshop

Si el texto está en una sola columna: no tendrías que hacer nada más. Esta es la disposición ideal.

8.- Llega el momento final. Habitualmente los programas de OCR suelen utilizar imágenes TIFF en Modo Mapa de Bits. Por lo tanto, y si es tu caso deberás cambiar el Modo de color de la imagen en Escala de Grises a Mapa de Bits. Si tu aplicación de OCR lo admite podrías saltarte este paso.

OCR - Técnica General de preparación con Photoshop

Al cambiar el Modo de Color, aparecerá una nueva ventana que te solicitará cómo quieres hacer la conversión. Deberás tener cuidado de que la resolución de salida sea la misma que la de entrada (que es la correspondiente a la resolución con que has escaneado tu documento). el Método de Conversión deberás usar Umbral al 50%. Este método pasará todas las partes de la imagen que vayan del 50% al 100% a negro puro y todas las que vayan del 50% a 0% a blanco puro.

OCR - Técnica General de preparación con Photoshop

¡¡Ya está!!

Puedes guardar tu ficheros como TIFF y ejecutar tu programa de OCR poniendo como originales los ficheros recién creados.

Reitero que esta técnica de preparación es general y no tiene que ser tomada como algo a seguir estrictamente. Todo depende de con qué programas contemos, el tiempo de que dispongamos, la calidad de los originales…