Справка:Оцифровка: различия между версиями

[досмотренная версия][досмотренная версия]
Содержимое удалено Содержимое добавлено
м викификация
Строка 137:
> for %f in (*.txt) do (echo ^<newpage n="%f"/^> && type «%f») >> output.lst
</syntaxhighlight> Это создаст файл output.lst, состоящий из склеенных страниц, разделённых маркерами с нумерацией этих страниц. (Обратите внимание, что если запустите команду дважды, то файл допишется, поэтому перед перезапуском рекомендуется удалять этот файл.)
 
== Программы OCR ==
* [[w:Категория:Оптическое распознавание символов]] — статьи в Википедии
 
=== Распознавание ===
;Windows
* [[w:FineReader|FineReader]] — коммерческий и самый качественный инструмент. С 11-12 версии имеет словари распознавания дореволюционной орфографии и ударений в словах.
 
;Linux
* [[w:Tesseract|Tesseract]] — развивается компанией Google
* [https://launchpad.net/cuneiform-linux Cuneiform для Linux], проект заброшен
* [https://help.ubuntu.com/community/OCR Cправка по программам OCR в Linux], [http://rus-linux.net/nlib.php?name=/MyLDP/office/OCR/OCR_review.html], [http://freeanalogs.ru/Linux/OCR] — обзоры некоторых программ и онлайн-сервисов
 
; Online-сервисы
* [https://finereaderonline.com/ru-ru FineReader-online] — бесплатный «пробник» на 10 страниц
* [https://img2txt.com img2txt.com] и [https://www.newocr.com newocr.com] — web-интерфейсы программы Tesseract
 
=== Извлечение текстового слоя в файл ===
Список программ, способных извлекать текстовый OCR-слой, если он имеется в сканированном файле.
 
'''Windows''': [[w:STDU Viewer|STDU Viewer]]
 
== Примечания ==