Викитека:Проект:OCR: различия между версиями

Содержимое удалено Содержимое добавлено
Строка 12:
 
=== Отсканируйте, распознайте, конвертируйте ===
СуществуетБольшие файлы сканов книг желательно конвертировать со сжатием, для ускорения их загрузки и упрощения использования. Также, существует лимит в 100 Мб на размер загружаемого файла загружаемого на Викисклад или в Викитеку., Можнопоэтому разделитьбольшие файл на части,файлы анадо можноещё егои сжатьразделять.
 
Обычно конвертацияКонвертация файла обычно приводит к уменьшению его размера без существенной потери качества, поэтому в общем рекомендуется конвертировать все файлы. '''Разрешение''' лучше делать '''до 300—400 dpi''', а для текста с мелким кеглем — до 600 dpi<ref>[http://www.ixbt.com/soft/ocr-basis.shtml Основы распознавания изображений с помощью FineReader]</ref>. Конвертировать можно в формат djvu, или в pdf, с режимами MRC и Precise Scan программы FineReader, дающими лучше качество и/или сжатие, чем djvu (см. ниже).
 
Однако, не для всех книг рекомендуется конвертация. Например, в сканах словарей могут содержатся мелкие и тонкие шрифты (греческий алфавит), мелкие иллюстрации, рукописные надписи. Сжатие необратимо повредит их, ухудшив возможное последующее OCR-распознавание. Поэтому, при конвертировании лучше добавлять в файл распознанный текст оригинала, как резервный источник оригинальной информации, и в описании загруженного файла указывать ссылку на оригинал.
 
; Выбор программы
Обычно бесплатные конверторы<ref name="djvu tools"/> медленны — используют только 1 ядро процессора и плохо оптимизированы. Поэтому по возможности лучше использовать профессиональные программы, из которых практически не имеет конкуренции ''ABBYY FineReader''. Если в файле уже есть неплохо распознанный текстовый слой, можно по-быстрому экспортировать его<ref>в меню «Файл» → «Экспортировать»</ref> программой ''[http://www.stduviewer.ru STDU Viewer]'', но обычно качество при этом заметно хуже, чем сделает FineReader, и возникает проблема со знаками перевода строк и утерей абзацев.
 
FineReader, перед ковертацией в djvu, требует распознавания текста. Итого потребуется 3 операции: 1) анализ книги — конвертация в формат FineReader, с разметкой областей текста и картинок; 2) распознавание; 3) запись в djvu.
Строка 27:
 
{{начало скрытого блока|Ориентировочное время обработки|Фон_заголовка=#efefef|Рамка=1px solid #aaa}}
Для книги из 1500 страниц емкогоёмкого текста (энциклопедический словарь) размером 721 Мб на не новом компьютере с 2-ядерным процессором 2700 МГц (с загрузкой каждого ядра на ~40 %, и отключением ресурсозатратных процессов вроде антивируса и обновлений):
* Анализ — до 4-7 часов.
* Распознавание — 8-12 часов.
* Запись (программа использует 1 ядро CPU) с настройкой сохранения «Высокое качество (разрешение исходного изображения)»
** djvu — 19 часов, сжатие файла до 175 Мб, критичная утеря качества. Возможно такая длительность имеетиз-за причиной описаннуюописанной ниже фичуособенности FineReader, что при настройке «Высокое качество (разрешение исходного изображения)» по умолчанию включается сжатие до 80 %;. дляДля избежанияего которогоизбежания надо отключать сжатие вручную выбрав «Пользовательское…». Однако тогда файл получается в 3 раза больше, а результат визуально таким же, т.ч. конверацияконвертация кроме вреда ничего не даёт.
** pdf MRC — 1 час, сжатие до 202 Мб, режим «Пользовательское…» с отключением сжатия и с разрешением оригинала, качество заметно лучше чем у djvu в случае выше
** pdf Precise Scan — 1 час, сжатие до 333 Мб, настройки как выше
{{конец скрытого блока}}
 
{{важно|Ввиду длительности операций имеются риск потратить впустую десятки часов работы, ввидуполучив получениянекачественный некачественного документадокумент из-за неточных настроек. Поэтому предварительно сто́итстоит тестировать настройки на отдельных страницах скана (опции «сохранить выбранные страницы как…» и в меню «Страница»).}}
 
==== Распознавание ====
Строка 48:
! Тип страниц в pdf !! Признаки !! Рекомендации
|-
| width=11 % |Векторные шрифты
| Края букв ровные при любом увеличении, без «лесенки» из пикселей
| Хорошее сжатие без потери качества.
Строка 74:
* Если термин включает несколько коротких сокращений идущих всегда подряд, то лучше их включить вместе, а не по отдельности. Например: <code>см. ''Tac. ann.'' 2, 63. ''Amm. Marc.'' 17, 12</code> (добавить «''Tac. ann.''», и «''Amm. Marc.''»).
* Общеизвестные слова уже имеются в словарях, их включать не нужно. Добавление слов с единичным использованием — потеря времени.
* Если выбрано несколько языков документа, то учесть, что многие буквы в русском и иностранном языке выглядят идентично («с, е, у, к, р, А, Н» и т. д.). Чтобы избежать их последующего распознавания в ошибочной кодировке лучше заменять их на буквы соответствующего языка перед добавлением в словарь.
* Сохранять термины в их стиле шрифта (курсив, жирный).
* Сокращения с точками сохранять вместе с точкой, ибо она часть термина.