Викитека:Проект:OCR: различия между версиями

Содержимое удалено Содержимое добавлено
Строка 82:
 
==== Сохранение файла ====
О сохранении только текстового слоя см. [[#Сохранение только распознанного текста|раздел ниже]].
 
; Выбор формата конвертации
{| class="standard"
Строка 98 ⟶ 100 :
 
Открытый и записанный в том же формате файл не идентичен оригиналу (обычно хуже). Поскольку при открытии файла он программно обрабатывается.
 
== Сохранение только распознанного текста ==
Бывает, что надо опубликовать только распознанный текст без скана. <small>(Например, это лучший вариант текста, и при этом не хочется переделывать уже загруженные сканы, в которых плохой или отсутствует текстовый слой).</small>
 
В FineReader в меню «Файл» → «Сохранить документ как» выбрать вариант:
 
==== OpenOffice.org Writer ====
<small>(предпочтительный вариант)</small> [[w:OpenOffice Writer|OpenOffice]] — это бесплатный аналог MS Office. [http://www.openoffice.org/ru/ Установив его] и [http://extensions.services.openoffice.org/project/wikipublisher плагин-конвертор], надо включить плагин (в меню «Сервис» → «Управление расширениями»). Далее: открываем наш файл в формате .odt, нажимаем «Файл» → «Экспорт…» → «Тип файла» → «MediaWiki (.txt)»
 
==== FictionBook (FB2) ====
Выбрать «Параметры сохранения», проверить опции:
* «Форматированный текст» — сохраняет тэги курсивного и др. выделения слов, и таблицы.
* «Сохранять картинки» — если в документе они есть и хочется сделать пометки о них на страницах. Обратите внимание, что сами картинки в Викитеке таким образом не разместить, их надо отдельно загружать. Поэтому в «Качество картинок» → «Пользовательское…» ставим на минимум разрешение и качество — чтобы они в файле занимали минимум места, все ровно будут удаляться.
Нажав «Ок» сохраняем файл.
 
Теперь надо конвертировать fb2 в wiki-текст. Открываем файл в [[w:Текстовый редактор|текстовом редакторе]] (для Windows рекомендуется редактор [[w:Notepad++|Notepad++]]; текстовый процессор типа MS Word не подходит). Можно просто скопировать текст в редактор Викитеки, и убирать теги в нём, но он медленный (ощутимо на больших файлах) и сравнительно примитивный.
* Удаляем тэги заголовков <small>(<code><nowiki><body>, <?xml>, <FictionBook></nowiki></code> и т. п.)</small>.
* Заменяем тэг <code><nowiki>emphasis</nowiki></code> на <code><nowiki>i</nowiki></code> (кнопка ctrl-h или в меню «Поиск» → «Замена»).
* Конвертировать таблицы из формата html в wiki.
** Можно [http://tools.wmflabs.org/magnustools/html2wiki.php этим инструментом]. (Выкл. в нём опцию «Replace other HTML tags if possible», иначе он некорректно убирает тэги <code><nowiki><p></nowiki></code>, не перевода стро́ки. И «Use one-line position of cells in a row» можно переключить на «yes», для таблиц с короткими значениями в ячейках.)
** Конвертацию может делать бот Pwb скриптом [https://www.mediawiki.org/wiki/Manual:Pywikibot/Compat/table2wiki.py table2wiki.py].
<!-- написание в планах
* Меняем тэг картинок:
** <tr><td><image l:href="#image1.png"/></td></tr>
 
Проверьте, чтобы в правом-нижнем углу редактора в статусной строке было написано «UTF-8», в иной кодировке в тексте могут быть потеряны специальные символы и буквы.
-->
Есть особенность, что в некоторых подверсиях FineReader может сохранять fb2 с разбивкой на страницы скана (в файле создаются отдельные тэге <code><nowiki><section></nowiki></code>). Такой файл с разделителями страниц удобно заливать в пространство имён «Страница:», а также высчитывать номера страниц, указывая их в графе источник текстовых произведений.
 
=== Разместите сканы на Викискладе ===