Cerca nel blog

Caricamento in corso...

lunedì 21 giugno 2010

FreeOCR:estrarre testo da immagini e PDF

Quante volte vi siete trovati nella situazione in cui del testo utile è contenuto in immagini o PDF e non è possibile selezionarlo? Una soluzione a questo problema esiste.

La soluzione ci è data da una tecnica detta OCR(Optical Character Recognition), questa tecnica permette la conversione di testo contenuto in un'immagine in un formato digitale modificabile. La conversione può avvenire in caratteri ASCII o UNICODE.

Ci sono dei software che impelementano la tecnica dell'OCR e permettono quindi di estrarre del testo non altrimenti selezionabile.
Uno di questi programmi gratuiti è FreeOCR, esso utilizza un motore OCR sviluppato e testato da Hewlett Packard.



Le funzionalità offerte da FreeOCR sono:
  • Riconosce l'italiano
  • Permette il riconoscimento OCR da scanner, PDF, FAX e praticamente tutti i tipi d’immagine.
  • Può estrarre testo e produrre direttamente un file Word
FreeOCR non riconosce immediatamente appena istallato la lingua italia dovete scaricare da Google Code il seguente file tesseract-2.00.ita.tar.gz ed installarlo. Decomprimete il pacchetto selezionate dal menu Setting di FreeOCR la voce “Open Language folder” e riavviare FreeOCR.

FreeOCR è sicuramente un'ottima soluzione per l'OCR e poi è gratuito. Provatelo!!!

0 commenti:

Posta un commento