Справка:Оцифровка: различия между версиями

[досмотренная версия][досмотренная версия]
Содержимое удалено Содержимое добавлено
мНет описания правки
м викификация
Строка 5:
|Проект = OCR
}}
 
== Конвертация файлов ==
Большие файлы сканов книг желательно конвертировать со сжатием, для ускорения их загрузки и упрощения использования. Также, существует лимит в 100 Мб на размер файла загружаемого на Викисклад или в Викитеку, поэтому большие файлы надо ещё и разделять.
 
Конвертация файла обычно приводит к уменьшению его размера без существенной потери качества, поэтому в общем рекомендуется конвертировать все файлы. '''Разрешение''' лучше делать '''до 300—400 dpi''', а для текста с мелким кеглем  — до 600 dpi<ref>[http://www.ixbt.com/soft/ocr-basis.shtml Основы распознавания изображений с помощью FineReader]</ref>. Конвертировать можно в формат djvu, или в pdf, с режимами MRC и Precise Scan программы FineReader, дающими лучше качество и/или сжатие, чем djvu (см. ниже).
 
Однако, не для всех книг рекомендуется конвертация. Например, в сканах словарей могут содержаться мелкие и тонкие шрифты (греческий алфавит), мелкие иллюстрации, рукописные надписи. Сжатие необратимо повредит их, ухудшив возможное последующее OCR-распознавание. Поэтому, при конвертировании лучше добавлять в файл распознанный текст оригинала, как резервный источник оригинальной информации, и в описании загруженного файла указывать ссылку на оригинал.
 
=== Выбор программы ===
Обычно бесплатные конверторы<ref name="djvu tools"/> медленны,  — используют только 1 ядро процессора и плохо оптимизированы. Поэтому по возможности лучше использовать профессиональные программы, из которых практически не имеет конкуренции коммерческий ''ABBYY FineReader''.
 
FineReader, перед ковертацией в djvu, требует распознавания текста. Итого потребуется 3 операции: 1) анализ книги  — конвертация в формат FineReader, с разметкой областей текста и картинок; 2) распознавание; 3) запись в djvu.
 
=== Время обработки файла ===
Строка 21 ⟶ 22 :
 
{{начало скрытого блока|Время обработки при сложном случае|Фон_заголовка=#efefef|Рамка=1px solid #aaa}}
Для книги из 1500 страниц ёмкого текста (энциклопедический словарь) размером 721 Мб на не новом компьютере с 2-ядерным процессором 2700 МГц (с загрузкой каждого ядра на ~40  %, и отключением ресурсозатратных процессов вроде антивируса и обновлений):
* Анализ  — до 4-7 часов.
* Распознавание  — 8-12 часов.
* Запись (программа использует 1 ядро CPU) с настройкой сохранения «Высокое качество (разрешение исходного изображения)»
** djvu  — 19 часов, сжатие файла до 175 Мб, критичная утеря качества. Возможно такая длительность из-за описанной ниже особенности FineReader, что при настройке «Высокое качество (разрешение исходного изображения)» по умолчанию включается сжатие до 80  %. Для его избежания надо отключать сжатие вручную выбрав «Пользовательское…». Однако тогда файл получается в 3 раза больше, а результат визуально таким же, т.ч. конвертация кроме вреда ничего не даёт.
** pdf MRC  — 1 час, сжатие до 202 Мб, режим «Пользовательское…» с отключением сжатия и с разрешением оригинала, качество заметно лучше чем у djvu в случае выше
** pdf Precise Scan  — 1 час, сжатие до 333 Мб, настройки как выше
{{конец скрытого блока}}
 
Строка 43 ⟶ 44 :
! Тип страниц в pdf !! Признаки !! Рекомендации
|-
| width=11  % |Векторные шрифты
| Края букв ровные при любом увеличении, без «лесенки» из пикселей
| Хорошее сжатие без потери качества.
Строка 54 ⟶ 55 :
| Буквы состоят из точек разных оттенков
| Лучше включить «сохранить оригинальное изображение», оставить включённым «цветной» или «серый» режим, и выключить сжатие.
<small>Примечание:</small> В FineReader замечена особенность, что при выборе опции «сохранить исходное разрешение» по умолчанию включается «сжимать, с потерей качества до 80  %». Поэтому лучше выбирать «Пользовательское…» и явно запретить сжатие. <br />Однако, при этом визуально djvu выглядит также плохо, хотя размер файла увеличивается в 3 раза, становясь почти равным оригиналу. <br />Такая конвертация бессмысленна и вредна, из-за потери качества.
|}
 
=== Выбор языков документа ===
Для качественного распознавания надо уточнить языки документа в настройках FineReader.
* Если в книге лишь изредка встречаются иностранные слова, лучше оставить только поддержку русского языка. Иначе, половина текста ошибочно распознается как иностранные буквы<ref>Настройки приоритета языков нет. Следовательно: при выборе двух языков русский + иностранный → приоритет 50  % (½); если русский + 2 иностранных языка → выберется русский лишь в 33  % случаев (⅓).</ref>. К тому же, лишние словари замедляют работу.
* По возможности не включать редкие языки, они могут распознаются некачественно<ref>Из-за их малого словаря с ограниченным числом растровых масок.</ref>.
 
=== Словари ===
FineReader использует словари, существенно улучшающие точность распознавания. Можно пополнить словарь часто используемыми в книге терминами  — сокращениями, специальной терминологией.
{{начало скрытого блока|Пополнение словаря|Фон_заголовка=#efefef|Рамка=1px solid #aaa}}
Для добавления терминов в словарь: на странице нажать «Распознать страницу», затем в окне «Текст» исправить плохо распознанные термины, и выделяя мышкой, по правой её кнопке «добавлять их в словарь». Рекомендации:
* Часто списки используемых сокращений расположены в конце книги. В других случаях можно пополнить словарь на страницах, где термины часто встречаются.
* Если термин включает несколько коротких сокращений идущих всегда подряд, то лучше их включить вместе, а не по отдельности. Например: <code>см. ''Tac. ann.'' 2, 63. ''Amm. Marc.'' 17, 12</code> (добавить «''Tac. ann.''», и «''Amm. Marc.''»).
* Общеизвестные слова уже имеются в словарях, их включать не нужно. Добавление слов с единичным использованием  — потеря времени.
* Если выбрано несколько языков документа, то учесть, что многие буквы в русском и иностранном языке выглядят идентично («с, е, у, к, р, А, Н» и  т.  д.). Чтобы избежать их последующего распознавания в ошибочной кодировке лучше заменять их на буквы соответствующего языка перед добавлением в словарь.
* Сохранять термины в их стиле шрифта (курсив, жирный).
* Сокращения с точками сохранять вместе с точкой, ибо она часть термина.
* Функция «обучение эталонам» и «распознавание с обучением»  — потеря времени. Имеет смысл только на редких необычных шрифтах, и требует долгой тонкой настройки, иначе ошибки при обучении ухудшат распознавание.
{{конец скрытого блока}}
После выбора языков и пополнения словаря можно запускать распознавание, которое займёт до часа, или несколько часов в сложных случаях.
Строка 100 ⟶ 101 :
 
=== OpenOffice.org Writer ===
<small>(предпочтительный вариант)</small> [[w:OpenOffice Writer|OpenOffice]]  — это бесплатный аналог MS Office. [http://www.openoffice.org/ru/ Установив его] и [http://extensions.services.openoffice.org/project/wikipublisher плагин-конвертор], надо включить плагин (в меню ''«Сервис» → «Управление расширениями»''). Далее, открываем наш файл в формате .odt, выбираем ''«Файл» → «Экспорт…» → «Тип файла» → «MediaWiki (.txt)»'', сохраняем.
 
=== FictionBook (FB2) ===
Выбрать «Параметры сохранения», проверить опции:
* ''«Форматированный текст»''  — сохраняет тэги курсивного и др. выделения слов, и таблицы.
* ''«Сохранять картинки»''  — если в документе они есть и хочется сделать пометки о них на страницах. Обратите внимание, что сами картинки в Викитеке таким образом не разместить.
Нажав «Ок» сохраняем файл.
 
Теперь надо конвертировать fb2 в wiki-текст. Открываем файл в [[w:Текстовый редактор|текстовом редакторе]] (для Windows рекомендуется редактор [[w:Notepad++|Notepad++]]; текстовый процессор типа MS Word не подходит). Можно просто скопировать текст в редактор Викитеки, и убирать теги в нём, но он медленный, что ощутимо на больших файлах, и сравнительно примитивный.
* Удаляем тэги заголовков <small>(<code><nowiki><body>, <?xml>, <FictionBook></nowiki></code> и  т.  п.)</small>.
* Заменяем тэг <code><nowiki>emphasis</nowiki></code> на <code><nowiki>em</nowiki></code> (кнопка ctrl-h или в меню ''«Поиск» → «Замена», «Заменить всё»'').
* Конвертация таблиц из формата html в wiki:
Строка 124 ⟶ 125 :
=== Текстовый документ ===
В формате txt сохраняются лишь текстовые символы, без оформления, разметки таблиц, картинок. Настройка «Параметров сохранения»:
* ''«Форматированный текст»''  — включить.
* ''«Сохранять деление на строки»''  — выключить.
* ''«Разделять страницы символом конца страницы (#12)»''. Включить, если нужны маркеры  — разделители страниц. Они могут быть необходимы при заливке текста в пространство имён «Страница:», создании словника, при публикации.
* ''«Разделять абзацы пустыми строками»''  — включить.
* ''«Сохранять колонтитулы»''. Колонтитулы лишь мешают при размещении текста в основном пространстве. Однако они могут быть желательны в пространстве имён «Страница:», где текст приводится в соответствие оригиналу.
* ''«Кодировка»''  — UTF-8.
Нажать «Ок». Далее выбрать одно из:
* ''«Создавать один файл для всех страниц»''.
* ''«Создавать отдельный файл для каждой страницы»''  — если нужно сохранить нумерацию страниц. При выборе этой опции документ сохранится во множестве файлов, нумерованных по порядку страниц скана. Сохраняем их в пустой папке, чтобы избежать казусов. Далее, открываем командную консоль Windows и переходим в эту папку<ref>http://ru.wikihow.com/соединить-текстовые-(TXT)-файлы-при-помощи-командной-строки</ref>, вводим команды: <syntaxhighlight lang="dosbatch">
> chcp 65001
> for %f in (*.txt) do (echo ^<newpage n="%f"/^> && type «%f») >> output.lst