Викитека:Проект:OCR: различия между версиями

Содержимое удалено Содержимое добавлено
Строка 102:
 
=== Сохранение только распознанного текста ===
Бывает, что надо опубликовать только распознанный текст без скана. <small>(Например, это лучший вариант текста, и при этом не хочется переделывать уже загруженные сканы, в которых текстовый слой плохой или отсутствует).</small> Если в файле уже есть распознанный текстовый слой, можно по-быстрому экспортировать его программой ''[http://www.stduviewer.ru STDU Viewer]'', но обычно он заметно хуже<ref>Обычно распознавание предустановленного текстового слоя в файлах сделаноделается в библиотеках, с целью лишь добавления грубого текстового поиска по файлу,. Делается это в режимемассовом массовостиавтоматическом и автоматизациирежиме, бесплатными утилитами неизвестного качества. Но никак не для публикации текста в идеальной вычитке.</ref>, чем делает FineReader, и имеет проблему с утерей абзацев и таблиц.
 
; Использование FineReader
Открыть файл скана в FineReader. <small>(Возможно он потребует [[#Распознавание|распознать текст]], даже если в файле уже есть плохо распознанный текстовый слой.)</small> Далее, в меню ''«Файл» → «Сохранить документ как»'' выбрать вариант:
 
Строка 112 ⟶ 113 :
Выбрать «Параметры сохранения», проверить опции:
* ''«Форматированный текст»'' — сохраняет тэги курсивного и др. выделения слов, и таблицы.
* ''«Сохранять картинки»'' — если в документе они есть и хочется сделать пометки о них на страницах. Обратите внимание, что сами картинки в Викитеке таким образом не разместить. Поэтому в ''«Качество картинок» → «Пользовательское…»'' ставим на минимум разрешение и качество — чтобы они в файле занимали минимум места, все ровно будут удаляться.
Нажав «Ок» сохраняем файл.
 
Строка 127 ⟶ 128 :
Проверьте, чтобы в правом-нижнем углу редактора в статусной строке было написано «UTF-8», в иной кодировке в тексте могут быть потеряны специальные символы и буквы.
-->
В некоторых подверсиях FineReader есть особенность, что он может сохранять fb2 с разбивкой на страницы скана (в файле создаются отдельные тэге <code><nowiki><section></nowiki></code>). Такой файл с разделителями страниц удобно заливать в пространство имён «Страница:», а также высчитывать номера страниц, указывая их в графе «источник» текстовых произведений.
 
==== Текстовый документ ====
В формате txt сохраняются лишь только текстовые символы, без оформления, разметки таблиц, картинок. Настройка «Параметров сохранения»:
* ''«Форматированный текст»'' — включить.
* ''«Сохранять деление на строки»'' — выключить.
* ''«Разделять страницы символом конца страницы (#12)»''. — включитьВключить, если нужны маркеры-разделители страниц. Они могут быть необходимы при заливке текста в пространство имён «Страница:», создании словника, ипри другой отметки нумерации страницпубликации.
* ''«Разделять абзацы пустыми строками»'' — включить.
* ''«Сохранять колонтитулы»''. Колонтитулы лишь мешают при размещении текста в основном пространстве. колонтитулыОднако лишьони мешают,могут однакобыть желательны в пространстве имён «Страница:», где текст приводится в соответствие оригиналу и они могут быть желательны.
* ''«Кодировка»'' — UTF-8.
Нажать «Ок». Далее выбрать одно из:
* ''«Создавать один файл для всех страниц»''.
* ''«Создавать отдельный файл для каждой страницы»'' — если нужно сохранить нумерацию страниц. При этом выборе можно не включать опцию ''«Разделять страницы символом конца страниц»''. Выбираем пустую папку, чтобы избежать казусов. При выборе этой опции документ сохранится во множестве файлов, нумерованных по порядку страниц скана. Далее,Создаём можноили склеитьвыбираем этипустую файлыпапку, счтобы добавлениемизбежать собственного маркера с нумерацией страницказусов. Для этогоДалее, открываем командную консоль Windows и переходим в эту папку<ref>http://ru.wikihow.com/соединить-текстовые-(TXT)-файлы-при-помощи-командной-строки</ref>, вводим следующую командукоманды: <code><nowiki>forsyntaxhighlight %f in (*.txt) do (echo ^<newpage nlang="%fdosbatch"/^> && type "%f") >> output.txt</nowiki></code>. Это создаст файл output.txt с маркерами. <small>(Обратите внимание, что если запустите команду дважды, то файл допишется, поэтому надо удалять этот файл при перезапуске.)</small>
> chcp 65001
> for %f in (*.txt) do (echo ^<newpage n="%f"/^> && type «%f») >> output.txt
</syntaxhighlight> Это создаст файл output.txt, состоящий из склеенных страниц, разделённых маркерами, с нумерацией этих страниц. (Обратите внимание, что если запустите команду дважды, то файл допишется, поэтому перед перезапуском рекомендуется удалять этот файл.)
 
=== Разместите сканы на Викискладе ===