Etiqueta: tesseract

Extraer texto de un pdf con Python II. OCR de imagenes embebidas en un pdf.

¿Como hacer un OCR de imágenes contenidas en un pdf? Muchos pdfs proceden de escaner o de una conversión de tiff multipágina con el mismo origen, siendo imágenes embebidas donde el texto son pixels y no caracteres. En esos casos, la extracción del texto por procedimientos estandar no dará el resultado esperado porque no hay…


Cómo implementar OCR en Python con tesseract

Tarde o temprano llega el momento de desarrollar una solución para la extracción de texto en imágenes, para ello tenemos a nuestra disposición distintas soluciones OCR….