Extraer texto de un pdf con Python II. OCR de imagenes embebidas en un pdf.

¿Como hacer un OCR de imágenes contenidas en un pdf?

Muchos pdfs proceden de escaner o de una conversión de tiff multipágina con el mismo origen, siendo imágenes embebidas donde el texto son pixels y no caracteres.

En esos casos, la extracción del texto por procedimientos estandar no dará el resultado esperado porque no hay texto como tal. […]

Split de tiff multipagina con Python Imaging Library

Si bien un tiff es un formato cómodo y versátil, a veces encontramos que el formato multipágina dificulta el acceso y necesitamos acceder a las páginas que lo componen de forma individual.

Vamos a ver como dividir un tiff multipágina en páginas independientes. […]