Tarde o temprano llega el momento de desarrollar una solución para la extracción de texto en imágenes, para ello tenemos a nuestra disposición distintas soluciones OCR.

OCR es el acrónimo de Optical Character Recognition, Reconocimiento Óptico de Caracteres. Un OCR hace posible la extracción de texto de una imagen.

Generalmente las imagenes procederan de una digitalización previa, sin embargo, se puede aplicar OCR a cualquier archivo de imagen.

Ejemplos de implementación pueden ser indexación de facturas o albaranes, extracción de metadatos de documentos de identidad como DNIs, pasaportes, tarjetas de residencia o tarjetas de visita.

¿Qué es tesseract?

Tesseract es un potente motor de OCR de uso libre.

Si bien en sus orígenes era software propietario desarrollado por Hewlett Packard, tras años sin evolución, en 2005 terminó siendo liberado el código. Actualmente es desarrollado por Google.

Instalación de Tesseract

sudo apt update
sudo apt install tesseract-ocr
sudo apt-get install tesseract-ocr-spa

 Dependencias

Imagemagick proporciona utilidades y librerias de manipulación de imágen. Soporta múltiples formatos y es de código abierto.

sudo apt install imagemagick

pytesseract

Pytesseract es la libreria python que nos permitirá utilizar este potente ocr en nuestros desarrollos.

Instalación de pytesseract

sudo pip3 install pytesseract
sudo pip3 install opencv-python

Tesseract utiliza las librerias opencv para el tratamiento de imágenes.

Ejemplo de código

import cv2
import pytesseract

# cargar la imagen utilizando opencv
img = cv2.imread("imagendeprueba.tif")

# extraer texto de la imagen
sret=pytesseract.image_to_string(img)

# mostrar el resultado
print(sret)

Referencias

Feliz día!

Un comentario sobre «Cómo implementar OCR en Python con tesseract»

  1. saludos me gustaría saber como puedo digitalizar documentos físicos en digitales pdf usando pyhton?

Deja tu comentario