Викитека:Проект:OCR: различия между версиями

Содержимое удалено Содержимое добавлено
Строка 104:
Бывает, что надо опубликовать только распознанный текст без скана. <small>(Например, это лучший вариант текста, и при этом не хочется переделывать уже загруженные сканы, в которых текстовый слой плохой или отсутствует).</small>
 
Открыть файл скана в FineReader. <small>(Возможно он потребует [[#Распознавание|распознать текст]], даже если в файле уже есть плохо распознанный текстовый слой.)</small> Далее, в меню ''«Файл» → «Сохранить документ как»'' выбрать вариант:
 
==== OpenOffice.org Writer ====
Строка 112:
Выбрать «Параметры сохранения», проверить опции:
* ''«Форматированный текст»'' — сохраняет тэги курсивного и др. выделения слов, и таблицы.
* ''«Сохранять картинки»'' — если в документе они есть и хочется сделать пометки о них на страницах. Обратите внимание, что сами картинки в Викитеке таким образом не разместить, их надо отдельно загружать. Поэтому в ''«Качество картинок» → «Пользовательское…»'' ставим на минимум разрешение и качество — чтобы они в файле занимали минимум места, все ровно будут удаляться.
Нажав «Ок» сохраняем файл.
 
Теперь надо конвертировать fb2 в wiki-текст. Открываем файл в [[w:Текстовый редактор|текстовом редакторе]] (для Windows рекомендуется редактор [[w:Notepad++|Notepad++]]; текстовый процессор типа MS Word не подходит). Можно просто скопировать текст в редактор Викитеки, и убирать теги в нём, но он медленный, что (ощутимо на больших файлах), и сравнительно примитивный.
* Удаляем тэги заголовков <small>(<code><nowiki><body>, <?xml>, <FictionBook></nowiki></code> и т. п.)</small>.
* Заменяем тэг <code><nowiki>emphasis</nowiki></code> на <code><nowiki>i</nowiki></code> (кнопка ctrl-h или в меню ''«Поиск» → «Замена», «Заменить всё»'').
* КонвертироватьКонвертация таблицытаблиц из формата html в wiki.:
** Можно [http://tools.wmflabs.org/magnustools/html2wiki.php этим инструментомКонвертер]. (Выкл. в нём опцию ''«Replace other HTML tags if possible»'', иначе он некорректно убирает тэги <code><nowiki><p></nowiki></code>, не перевода стро́ки. И для таблиц с короткими значениями в ячейках можно установить ''«Use one-line position of cells in a row»'' можно переключить нав ''«yes»'', для таблиц с короткими значениями в ячейках.)
** Конвертацию может делать бот Pwb скриптом [https://www.mediawiki.org/wiki/Manual:Pywikibot/Compat/table2wiki.py table2wiki.py].
<!-- написание в планах
Строка 127:
Проверьте, чтобы в правом-нижнем углу редактора в статусной строке было написано «UTF-8», в иной кодировке в тексте могут быть потеряны специальные символы и буквы.
-->
Есть особенность, что вВ некоторых подверсиях FineReader есть особенность, что он может сохранять fb2 с разбивкой на страницы скана (в файле создаются отдельные тэге <code><nowiki><section></nowiki></code>). Такой файл с разделителями страниц удобно заливать в пространство имён «Страница:», а также высчитывать номера страниц, указывая их в графе источник текстовых произведений.
 
==== Текстовый документ ====
В формате txt — сохраняются лишь только текстовые символы, без оформления, разметки таблиц, картинок. Настройка «Параметров сохранения»:
* ''«Форматированный текст»'' — включить.
* ''«Сохранять деление на строки»'' — выключить.
* ''«Разделять страницы символом конца страницы (#12)»'' — включить, если нужны маркеры-разделители страниц. Они могут быть необходимы при заливке текста в пространство имён «Страница:», создании словника, и другой отметки нумерации страниц.
* ''«Разделять абзацы пустыми строками»'' — включить.
* ''«Сохранять колонтитулы»'' — при размещении текста в основном пространстве колонтитулы лишь мешают, однако в пространстве имён «Страница:» текст приводится в соответствие оригиналу и они могут быть желательны.
* ''«Кодировка»'' — UTF-8 является международным стандартом, в иных могут не сохраняться специальные символы (ударения, надстрочные знаки,…) и буквы других алфавитов, включая русские дореформенные.
Нажать «Ок». Далее выбрать одно из:
* ''«Создавать один файл для всех страниц»''.
* ''«Создавать отдельный файл для каждой страницы»'' — если нужно сохранить нумерацию страниц. При этом выборе можно не включать опцию ''«Разделять страницы символом конца страниц»''. Выбираем пустую папку, чтобы избежать казусов. При выборе этой опции документ сохранится во множестве файлов, нумерованных по порядку страниц скана. Далее, можно склеить эти файлы, с добавлением собственного маркера с нумерацией страниц. Для этого открываем командную консоль Windows и переходим в эту папку<ref>http://ru.wikihow.com/соединить-текстовые-(TXT)-файлы-при-помощи-командной-строки</ref>, вводим следующую команду: <code><nowiki>for %f in (*.txt) do (echo ^<newpage n="%f"/^> && type "%f") >> output.txt</nowiki></code>. Это создаст файл output.txt с маркерами. <small>(Обратите внимание, что если запустите команду дважды, то файл допишется, поэтому надо удалять этот файл при перезапуске.)</small>
 
=== Разместите сканы на Викискладе ===