Справка:Оцифровка: различия между версиями

[досмотренная версия][досмотренная версия]
Содержимое удалено Содержимое добавлено
Нет описания правки
Строка 103:
 
=== FineReader ===
# Открыть файл скана в FineReader. <small>(Возможно он потребует [[#Распознавание|распознать текст]], даже если в файле уже есть плохо распознанный текстовый слой.)</small> Далее, в меню ''«Файл» → «Сохранить документ как»'' выбрать вариант:
# Выбрать формат сохранения '''HTML''', или '''FB2''' (формат XML). В этих форматах сохраняется оформление текста и они имеют оптимальную структуру. Также можно выбрать простой текст (TXT), если оформление сохранять не нужно или оно отсуствует.
# Внизу окна сохранения файла выбрать «Создавать отдельный файл для каждой страницы». Эти файлы мы затем будем скриптом постранично заливать в Викитеку.
Выбрать# Нажать «Параметры сохранения», и проверить опции:
::* ''«Форматированный текст»'' — сохраняет тэги курсивного и др. выделения слов, и таблицы.
::* ''«Сохранять css»'' (для html) — включить, файлы получатся короче.
::* ''«Сохранять картинки»'' — если в документе они есть и хочется сделать пометки о них на страницах. Обратите внимание, что сами картинки в Викитеке таким образом не разместить.
# Нажав «Ок» сохраняем файл.
 
;Викификация полученных файлов
=== OpenOffice.org Writer ===
Теперь надо викифицировать полученные файлы, и очистить полученные файлы от лишнего кода.
<small>(предпочтительный вариант)</small> [[w:OpenOffice Writer|OpenOffice]] — это бесплатный аналог MS Office. [http://www.openoffice.org/ru/ Установив его] и [http://extensions.services.openoffice.org/project/wikipublisher плагин-конвертор], надо включить плагин (в меню ''«Сервис» → «Управление расширениями»''). Далее, открываем наш файл в формате .odt, выбираем ''«Файл» → «Экспорт…» → «Тип файла» → «MediaWiki (.txt)»'', сохраняем.
 
/ Скрипт для html будет добавлен позже /
=== FictionBook (FB2) ===
Выбрать «Параметры сохранения», проверить опции:
* ''«Форматированный текст»'' — сохраняет тэги курсивного и др. выделения слов, и таблицы.
* ''«Сохранять картинки»'' — если в документе они есть и хочется сделать пометки о них на страницах. Обратите внимание, что сами картинки в Викитеке таким образом не разместить.
Нажав «Ок» сохраняем файл.
 
; Ручная очистка fb2
Теперь надо конвертировать fb2 в wiki-текст. Открываем файл в [[w:Текстовый редактор|текстовом редакторе]] (для Windows рекомендуется редактор [[w:Notepad++|Notepad++]]; текстовый процессор типа MS Word не подходит). Можно просто скопировать текст в редактор Викитеки, и убирать теги в нём, но он медленный, что ощутимо на больших файлах, и сравнительно примитивный.
* Удаляем тэги заголовков <small>(<code><nowiki><body>, <?xml>, <FictionBook></nowiki></code> и т. п.)</small>.
* Заменяем тэг <code><nowiki>emphasis</nowiki></code> на <code><nowiki>em</nowiki></code> (кнопка ctrl-h или в меню ''«Поиск» → «Замена», «Заменить всё»'').
Строка 126 ⟶ 130 :
Проверьте, чтобы в правом-нижнем углу редактора в статусной строке было написано «UTF-8», в иной кодировке в тексте могут быть потеряны специальные символы и буквы.
-->
В некоторых подверсиях FineReader есть особенность, что он может сохранять fb2 с разбивкой на страницы скана (в файле создаются отдельные тэге <code><nowiki><section></nowiki></code>). Такой файл с разделителями страниц удобно заливать в пространство имён «Страница:», а также высчитывать номера страниц, указывая их в графе «источник» текстовых произведений.
 
===; Текстовый документ ===(TXT)
В формате txt сохраняются лишь текстовые символы, без оформления, разметки таблиц, картинок. Настройка «Параметров сохранения»:
:* ''«Форматированный текст»'' — включить.
:* ''«Сохранять деление на строки»'' — выключить.
:* ''«Разделять страницы символом конца страницы (#12)»''. Включить, если нужны маркеры — разделители страниц. Они могут быть необходимы при заливке текста в пространство имён «Страница:», создании словника, при публикации.
:* ''«Разделять абзацы пустыми строками»'' — включить.
:* ''«Сохранять колонтитулы»''. Колонтитулы лишь мешают при размещении текста в основном пространстве. Однако они могут быть желательны в пространстве имён «Страница:», где текст приводится в соответствие оригиналу.
:* ''«Кодировка»'' — UTF-8.
Нажать «Ок». Далее выбрать одно из:
* ''«Создавать один файл для всех страниц»''.