OCR con adobe Acrobat Professional

La verdad es que es una función de Acrobat que está poco valorada, pero que realmente nos puede “salvar el pellejo” (y las huellas dactilares) en algunos momentos.

¿Cuantas veces has necesitado recuperar los textos de una imagen JPG o TIFF para no tener que volver a escribirlos a mano y resulta que no tenías un software OCR para poder hacerlo? Seguro, pero que muy seguro que dispones de Acrobat Proffessional desde hace bastante tiempo y no has caído en la cuenta de utilizarlo.

En el mercado existen otras aplicaciones muchísimo más especializadas para la recuperación de textos a través de imágenes, pero no se suelen comprar sólo para un par de ocasiones puntuales. Por lo tanto el uso de esta técnica resultará de utilidad cuando se plantee el hecho de que no queremos “picar” texto y la cantidad de este no es desmesurada. Acrobat permite la importación de archivos ráster en formato TIFF, JPG, GIF, BMP…, el problema que puedes tener a la hora de hacer el OCR es la resolución de los archivos de entrada. Si la has cuidado, o te proporcionan buenos originales el resultado será bastante satisfactorio.

Al tema…

Si has leído con atención la entrada anterior, lo que hicimos fue generar archivos TIFF en modo Mapa de Bits. Ahora toca utilizarlos como originales. Por lo tanto vamos a ajustar la aplicación para que reconozca perfectamente nuestros ficheros y podamos unir varios en un sólo documento para efectuar el OCR de todas las páginas a la vez.

Deberás acceder al Menú Archivo–>Crear PDF–>De varios archivos.

OCR con adobe Acrobat Professional

Indica a Acrobat dónde se encuentra(n) el(los) fichero(s) que vas a convertir en PDF… ¡Ah! por si no lo sabías, puedes seleccionar varios archivos a la vez. Pulsa Agregar.

OCR con adobe Acrobat Professional

Si es menester ordénalos para que formen las páginas del PDF consecutivamente o en el orden que desees.

OCR con adobe Acrobat Professional

OCR con adobe Acrobat Professional

Una vez hecho esto, pulsa Aceptar. Acrobat creará un PDF multipágina (en caso de que sean varios los ficheros originales).

Si sólo es uno como en el ejemplo de la entrada anterior te encontrarás con una sola página.

EN EL BLOG -  Un par de recomendaciones de páginas sobre artes gráficas y preimpresión

OCR con adobe Acrobat Professional

Cuando tengas tu documento PDF en la pantalla, ve al Menú Documento–>Reconocer texto usando OCR–>Inicio. Aparecerá una pantalla donde podrás indicar el rango de páginas que quieres reconocer y, además, existe un botón que te permite editar diversas opciones. Entre ellaspodrás seleccionar el lenguaje que quieres utilizar. En el caso del ejemplo cambiaremos la selección a Inglés Americano (puesto que nuestro original es de Estados Unidos).

OCR con adobe Acrobat Professional

OCR con adobe Acrobat Professional

Pulsa Aceptar en las dos ventanas y Acrobat comenzará a efectuar el Reconocimiento Óptico de Caracteres.

Cuando haya terminado no verás nada anormal en el PDF…

Ve al Menú Archivo–>Guardar Como y guarda tu documento como Documento de Microsoft Word o como Formato RTF.

Donde hayas dispuesto que Acrobat guarde el archivo, encontrarás un bonito documento de Word o de Texto RTF que podrás importar a Indesign, o a Quark para poder maquetarlo.

Aquí tienes la comparación entre el fichero TIFF original y el documento Word final.

news_text6.jpg OCR con adobe Acrobat Professional

Si te fijas con atención, Acrobat ha intentado mantener la geometría de la página original en la medida de lo posible, aunque realmente el resultado difiere bastante del original. Por lo menos hemos conseguido conservar las negritas.

Tengo que decir que el fichero de texto final siempre queda “bastante guarro” (a nivel de tipografías, retornos de carro, formatos de párrafo, etc.) y hay que limpiarlo. Pero eso queda para otro día…

¡Por cierto! ¿A que ya sabes como hacer búsquedas en un documento PDF?

El OCR en Acrobat permite además que el documento PDF final tenga la característica de que puedes hacer búsquedas en él. Aunque no hayas guardado el texto en formato Word o RTF (eso se queda para los que vamos a reutilizarlo) puedes realizar búsquedas a lo largo de todo el documento.

Esta técnica es válida para Acrobat desde versiones relativamente antiguas. Cambian los menús, pero el producto final se consigue de similar forma.

Verás cuanto tiempo ahorras…

También te puede interesar...