Викитека:Проект:OCR: различия между версиями
Содержимое удалено Содержимое добавлено
Vladis13 (обсуждение | вклад) |
Vladis13 (обсуждение | вклад) |
||
Строка 12:
=== Отсканируйте, распознайте, конвертируйте ===
Однако, не для всех книг рекомендуется конвертация. Например, в сканах словарей могут содержатся мелкие и тонкие шрифты (греческий алфавит), мелкие иллюстрации, рукописные надписи. Сжатие необратимо повредит их, ухудшив возможное последующее OCR-распознавание. Поэтому, при конвертировании лучше добавлять в файл распознанный текст оригинала, как резервный источник оригинальной информации, и в описании загруженного файла указывать ссылку на оригинал.
; Выбор программы
Обычно бесплатные конверторы<ref name="djvu tools"/> медленны — используют только 1 ядро процессора и плохо оптимизированы. Поэтому по возможности лучше использовать профессиональные программы, из которых практически не имеет конкуренции ''ABBYY FineReader''. Если в файле уже есть неплохо распознанный текстовый слой, можно по-быстрому экспортировать его<ref>в меню «Файл» → «Экспортировать»</ref> программой ''[http://www.stduviewer.ru STDU Viewer]'', но обычно качество при этом заметно хуже, чем сделает FineReader, и возникает проблема со знаками перевода строк и утерей абзацев.
FineReader, перед ковертацией в djvu, требует распознавания текста. Итого потребуется 3 операции: 1) анализ книги — конвертация в формат FineReader, с разметкой областей текста и картинок; 2) распознавание; 3) запись в djvu.
Строка 27:
{{начало скрытого блока|Ориентировочное время обработки|Фон_заголовка=#efefef|Рамка=1px solid #aaa}}
Для книги из 1500 страниц
* Анализ — до 4-7 часов.
* Распознавание — 8-12 часов.
* Запись (программа использует 1 ядро CPU) с настройкой сохранения «Высокое качество (разрешение исходного изображения)»
** djvu — 19 часов, сжатие файла до 175 Мб, критичная утеря качества. Возможно такая длительность
** pdf MRC — 1 час, сжатие до 202 Мб, режим «Пользовательское…» с отключением сжатия и с разрешением оригинала, качество заметно лучше чем у djvu в случае выше
** pdf Precise Scan — 1 час, сжатие до 333 Мб, настройки как выше
{{конец скрытого блока}}
{{важно|Ввиду длительности операций имеются риск потратить впустую десятки часов работы,
==== Распознавание ====
Строка 48:
! Тип страниц в pdf !! Признаки !! Рекомендации
|-
| width=11 % |Векторные шрифты
| Края букв ровные при любом увеличении, без «лесенки» из пикселей
| Хорошее сжатие без потери качества.
Строка 74:
* Если термин включает несколько коротких сокращений идущих всегда подряд, то лучше их включить вместе, а не по отдельности. Например: <code>см. ''Tac. ann.'' 2, 63. ''Amm. Marc.'' 17, 12</code> (добавить «''Tac. ann.''», и «''Amm. Marc.''»).
* Общеизвестные слова уже имеются в словарях, их включать не нужно. Добавление слов с единичным использованием — потеря времени.
* Если выбрано несколько языков документа, то учесть, что многие буквы в русском и иностранном языке выглядят идентично («с, е, у, к, р, А, Н» и т. д.). Чтобы избежать их последующего распознавания в ошибочной кодировке лучше заменять их на буквы соответствующего языка перед добавлением в словарь.
* Сохранять термины в их стиле шрифта (курсив, жирный).
* Сокращения с точками сохранять вместе с точкой, ибо она часть термина.
|