venerdì 17 ottobre 2008

Tesseract OCR professionale opensource grazie a google

I programmi di optical character recognition opensource come gocr risultano essere con un basso livello di sviluppo, anzi per dirla tutta le loro performance sono piuttosto deludenti. Ma Recentemente la situazione sembra essere cambiata infatti HP ha rilascio sotto licenza Apache un nuovo motore per ocr professionale chiamato Tesseract

Lo sviluppo di Tesseract da parte del HP è durato 9 anni (1985 -1994) . Adesso lo sviluppo del programma sta continuando grazie ad un nuovo team di sviluppo, il codice sorgente può essere scaricato liberamente dai server di Google Code,

tessecart presente nei repository di numerosi distro come ubuntu e opensuse mandrive e fedora ma se volete testarlo senza istallarlo puntate il vostro browser al seguente indirizzo indirizzo

http://asv.aso.ecei.tohoku.ac.jp/tesseract/

NB nei mie test eseguiti su opensuse 11 il programma riesce a gestire solo immagini bmp

Name:

Tesseract

Location:

http://code.google.com/p/tesseract-ocr/

Version:

1.04b

Input Format:

tiff

Accuracy:

99%

Easy of Use:

2/5



Nessun commento:

Posta un commento

Lettori fissi