Etiqueta: pdfminer3k

Extraer texto de un pdf con Python II. OCR de imagenes embebidas en un pdf.

¿Como hacer un OCR de imágenes contenidas en un pdf? Muchos pdfs proceden de escaner o de una conversión de tiff multipágina con el mismo origen, siendo imágenes embebidas donde el texto son pixels y no caracteres. En esos casos, la extracción del texto por procedimientos estandar no dará el resultado esperado porque no hay…


Extraer texto de un pdf con Python, pdfminer3k

¿Es posible extraer el texto de un pdf y generar un archivo de texto plano para su posterior tratamiento?…