Справка:Оцифровка: различия между версиями
[досмотренная версия] | [досмотренная версия] |
Содержимое удалено Содержимое добавлено
Ratte (обсуждение | вклад) мНет описания правки |
Vladis13 (обсуждение | вклад) м викификация |
||
Строка 5:
|Проект = OCR
}}
== Конвертация файлов ==
Большие файлы сканов книг желательно конвертировать со сжатием, для ускорения их загрузки и упрощения использования. Также, существует лимит в 100 Мб на размер файла загружаемого на Викисклад или в Викитеку, поэтому большие файлы надо ещё и разделять.
Конвертация файла обычно приводит к уменьшению его размера без существенной потери качества, поэтому в общем рекомендуется конвертировать все файлы. '''Разрешение''' лучше делать '''до 300—400 dpi''', а для текста с мелким кеглем
Однако, не для всех книг рекомендуется конвертация. Например, в сканах словарей могут содержаться мелкие и тонкие шрифты (греческий алфавит), мелкие иллюстрации, рукописные надписи. Сжатие необратимо повредит их, ухудшив возможное последующее OCR-распознавание. Поэтому, при конвертировании лучше добавлять в файл распознанный текст оригинала, как резервный источник оригинальной информации, и в описании загруженного файла указывать ссылку на оригинал.
=== Выбор программы ===
Обычно бесплатные конверторы<ref name="djvu tools"/> медленны,
FineReader, перед ковертацией в djvu, требует распознавания текста. Итого потребуется 3 операции: 1) анализ книги
=== Время обработки файла ===
Строка 21 ⟶ 22 :
{{начало скрытого блока|Время обработки при сложном случае|Фон_заголовка=#efefef|Рамка=1px solid #aaa}}
Для книги из 1500 страниц ёмкого текста (энциклопедический словарь) размером 721 Мб на не новом компьютере с 2-ядерным процессором 2700 МГц (с загрузкой каждого ядра на ~40
* Анализ
* Распознавание
* Запись (программа использует 1 ядро CPU) с настройкой сохранения «Высокое качество (разрешение исходного изображения)»
** djvu
** pdf MRC
** pdf Precise Scan
{{конец скрытого блока}}
Строка 43 ⟶ 44 :
! Тип страниц в pdf !! Признаки !! Рекомендации
|-
| width=11
| Края букв ровные при любом увеличении, без «лесенки» из пикселей
| Хорошее сжатие без потери качества.
Строка 54 ⟶ 55 :
| Буквы состоят из точек разных оттенков
| Лучше включить «сохранить оригинальное изображение», оставить включённым «цветной» или «серый» режим, и выключить сжатие.
<small>Примечание:</small> В FineReader замечена особенность, что при выборе опции «сохранить исходное разрешение» по умолчанию включается «сжимать, с потерей качества до 80
|}
=== Выбор языков документа ===
Для качественного распознавания надо уточнить языки документа в настройках FineReader.
* Если в книге лишь изредка встречаются иностранные слова, лучше оставить только поддержку русского языка. Иначе, половина текста ошибочно распознается как иностранные буквы<ref>Настройки приоритета языков нет. Следовательно: при выборе двух языков русский + иностранный → приоритет 50
* По возможности не включать редкие языки, они могут распознаются некачественно<ref>Из-за их малого словаря с ограниченным числом растровых масок.</ref>.
=== Словари ===
FineReader использует словари, существенно улучшающие точность распознавания. Можно пополнить словарь часто используемыми в книге терминами
{{начало скрытого блока|Пополнение словаря|Фон_заголовка=#efefef|Рамка=1px solid #aaa}}
Для добавления терминов в словарь: на странице нажать «Распознать страницу», затем в окне «Текст» исправить плохо распознанные термины, и выделяя мышкой, по правой её кнопке «добавлять их в словарь». Рекомендации:
* Часто списки используемых сокращений расположены в конце книги. В других случаях можно пополнить словарь на страницах, где термины часто встречаются.
* Если термин включает несколько коротких сокращений идущих всегда подряд, то лучше их включить вместе, а не по отдельности. Например: <code>см. ''Tac. ann.'' 2, 63. ''Amm. Marc.'' 17, 12</code> (добавить «''Tac. ann.''», и «''Amm. Marc.''»).
* Общеизвестные слова уже имеются в словарях, их включать не нужно. Добавление слов с единичным использованием
* Если выбрано несколько языков документа, то учесть, что многие буквы в русском и иностранном языке выглядят идентично («с, е, у, к, р, А, Н» и
* Сохранять термины в их стиле шрифта (курсив, жирный).
* Сокращения с точками сохранять вместе с точкой, ибо она часть термина.
* Функция «обучение эталонам» и «распознавание с обучением»
{{конец скрытого блока}}
После выбора языков и пополнения словаря можно запускать распознавание, которое займёт до часа, или несколько часов в сложных случаях.
Строка 100 ⟶ 101 :
=== OpenOffice.org Writer ===
<small>(предпочтительный вариант)</small> [[w:OpenOffice Writer|OpenOffice]]
=== FictionBook (FB2) ===
Выбрать «Параметры сохранения», проверить опции:
* ''«Форматированный текст»''
* ''«Сохранять картинки»''
Нажав «Ок» сохраняем файл.
Теперь надо конвертировать fb2 в wiki-текст. Открываем файл в [[w:Текстовый редактор|текстовом редакторе]] (для Windows рекомендуется редактор [[w:Notepad++|Notepad++]]; текстовый процессор типа MS Word не подходит). Можно просто скопировать текст в редактор Викитеки, и убирать теги в нём, но он медленный, что ощутимо на больших файлах, и сравнительно примитивный.
* Удаляем тэги заголовков <small>(<code><nowiki><body>, <?xml>, <FictionBook></nowiki></code> и
* Заменяем тэг <code><nowiki>emphasis</nowiki></code> на <code><nowiki>em</nowiki></code> (кнопка ctrl-h или в меню ''«Поиск» → «Замена», «Заменить всё»'').
* Конвертация таблиц из формата html в wiki:
Строка 124 ⟶ 125 :
=== Текстовый документ ===
В формате txt сохраняются лишь текстовые символы, без оформления, разметки таблиц, картинок. Настройка «Параметров сохранения»:
* ''«Форматированный текст»''
* ''«Сохранять деление на строки»''
* ''«Разделять страницы символом конца страницы (#12)»''. Включить, если нужны маркеры
* ''«Разделять абзацы пустыми строками»''
* ''«Сохранять колонтитулы»''. Колонтитулы лишь мешают при размещении текста в основном пространстве. Однако они могут быть желательны в пространстве имён «Страница:», где текст приводится в соответствие оригиналу.
* ''«Кодировка»''
Нажать «Ок». Далее выбрать одно из:
* ''«Создавать один файл для всех страниц»''.
* ''«Создавать отдельный файл для каждой страницы»''
> chcp 65001
> for %f in (*.txt) do (echo ^<newpage n="%f"/^> && type «%f») >> output.lst
|