Tesseract, c'est un OCR (reconnaissance optique de caractères) développé par les laboratoires HP entre 1985 et 1995. Depuis ce temps, il reste un des meilleurs OCR développé mais a commencé à prendre la poussière.
Quelques ingénieurs HP ont donc sollicité Google pour les aider à remettre le projet à flot et à le publier finalement sous licence libre sur Sourceforge.
L'OCR ne supporte pour le moment que l'anglais et n'analyse pas "encore" le layout de la page mais Google affirme tout de même que cela reste un des OCR les plus précis disponible actuellement.
Quelques ingénieurs HP ont donc sollicité Google pour les aider à remettre le projet à flot et à le publier finalement sous licence libre sur Sourceforge.
L'OCR ne supporte pour le moment que l'anglais et n'analyse pas "encore" le layout de la page mais Google affirme tout de même que cela reste un des OCR les plus précis disponible actuellement.
Liens
Tesseract (301 Clics)
Editer un commentaire