OCR (Optical Character Recognition) — “оптическое распознавание символов”, процедура, которую нужно проделать, чтобы получить из отсканированного листа книги, обычный текст, пригодный для редактирования в каком-нибудь Word-е.

Недавно стала доступной бесплатно в исходных кодах, программа Tesseract. Это проект с богатой и длинной историей, одна из лучших открытых программ распознавания текста, которую вы можете запустить на своем сервере.

Сделайте веб-интерфейс для загрузки изображений со сканера на сервер и распознавания с помощью Tesseract — получится бесплатный онлайн OCR сервис.



No Responses Yet to “Бесплатные идеи: OCR”  

  1. No Comments Yet

Leave a Reply