Викитека:Проект:OCR: различия между версиями
Содержимое удалено Содержимое добавлено
Vladis13 (обсуждение | вклад) |
Vladis13 (обсуждение | вклад) |
||
Строка 102:
=== Сохранение только распознанного текста ===
Бывает, что надо опубликовать только распознанный текст без скана. <small>(Например, это лучший вариант текста, и при этом не хочется переделывать уже загруженные сканы, в которых текстовый слой плохой или отсутствует).</small> Если в файле уже есть распознанный текстовый слой, можно по-быстрому экспортировать его программой ''[http://www.stduviewer.ru STDU Viewer]'', но обычно он заметно хуже<ref>Обычно распознавание предустановленного текстового слоя
; Использование FineReader
Открыть файл скана в FineReader. <small>(Возможно он потребует [[#Распознавание|распознать текст]], даже если в файле уже есть плохо распознанный текстовый слой.)</small> Далее, в меню ''«Файл» → «Сохранить документ как»'' выбрать вариант:
Строка 112 ⟶ 113 :
Выбрать «Параметры сохранения», проверить опции:
* ''«Форматированный текст»'' — сохраняет тэги курсивного и др. выделения слов, и таблицы.
* ''«Сохранять картинки»'' — если в документе они есть и хочется сделать пометки о них на страницах. Обратите внимание, что сами картинки в Викитеке таким образом не разместить
Нажав «Ок» сохраняем файл.
Строка 127 ⟶ 128 :
Проверьте, чтобы в правом-нижнем углу редактора в статусной строке было написано «UTF-8», в иной кодировке в тексте могут быть потеряны специальные символы и буквы.
-->
В некоторых подверсиях FineReader есть особенность, что он может сохранять fb2 с разбивкой на страницы скана (в файле создаются отдельные тэге <code><nowiki><section></nowiki></code>). Такой файл с разделителями страниц удобно заливать в пространство имён «Страница:», а также высчитывать номера страниц, указывая их в графе «источник» текстовых произведений.
==== Текстовый документ ====
В формате txt
* ''«Форматированный текст»'' — включить.
* ''«Сохранять деление на строки»'' — выключить.
* ''«Разделять страницы символом конца страницы (#12)»''.
* ''«Разделять абзацы пустыми строками»'' — включить.
* ''«Сохранять колонтитулы»''.
* ''«Кодировка»'' — UTF-8.
Нажать «Ок». Далее выбрать одно из:
* ''«Создавать один файл для всех страниц»''.
* ''«Создавать отдельный файл для каждой страницы»'' — если нужно сохранить нумерацию страниц
> chcp 65001
> for %f in (*.txt) do (echo ^<newpage n="%f"/^> && type «%f») >> output.txt
</syntaxhighlight> Это создаст файл output.txt, состоящий из склеенных страниц, разделённых маркерами, с нумерацией этих страниц. (Обратите внимание, что если запустите команду дважды, то файл допишется, поэтому перед перезапуском рекомендуется удалять этот файл.)
=== Разместите сканы на Викискладе ===
|