Справка:Оцифровка: различия между версиями
[досмотренная версия] | [досмотренная версия] |
Содержимое удалено Содержимое добавлено
Vladis13 (обсуждение | вклад) →Программы OCR: перенос из Викитека:Проект:OCR |
Vladis13 (обсуждение | вклад) порядок разделов, стилевые правки |
||
Строка 6:
}}
== Конвертация файлов ==▼
Большие файлы сканов книг желательно конвертировать со сжатием, для ускорения их загрузки и упрощения использования. Также, существует лимит в 100 Мб на размер файла загружаемого на Викисклад или в Викитеку, поэтому большие файлы надо ещё и разделять.▼
Конвертация файла обычно приводит к уменьшению его размера без существенной потери качества, поэтому в общем рекомендуется конвертировать все файлы. '''Разрешение''' лучше делать '''до 300—400 dpi''', а для текста с мелким кеглем — до 600 dpi<ref>[http://www.ixbt.com/soft/ocr-basis.shtml Основы распознавания изображений с помощью FineReader]</ref>. Конвертировать можно в формат djvu, или в pdf, с режимами MRC и Precise Scan программы FineReader, дающими лучше качество и/или сжатие, чем djvu (см. ниже).▼
Однако, не для всех книг рекомендуется конвертация. Например, в сканах словарей могут содержаться мелкие и тонкие шрифты (греческий алфавит), мелкие иллюстрации, рукописные надписи. Сжатие необратимо повредит их, ухудшив возможное последующее OCR-распознавание. Поэтому, при конвертировании лучше добавлять в файл распознанный текст оригинала, как резервный источник оригинальной информации, и в описании загруженного файла указывать ссылку на оригинал.▼
=== Выбор программы ===
Обычно бесплатные программы распознавания сканированного текста (OCR) и конверторы<ref name="djvu tools"/> медленны,
FineReader, перед ковертацией в djvu, требует распознавания текста. Итого потребуется 3 операции: 1) анализ книги — конвертация в формат FineReader, с разметкой областей текста и картинок; 2) распознавание; 3) запись в djvu.▼
=== Время обработки файла ===▼
Открытие, распознавание, и запись могут занять до 1—2 часов машинного времени. Но в сложных случаях может три дня.▼
{{начало скрытого блока|Время обработки при сложном случае|Фон_заголовка=#efefef|Рамка=1px solid #aaa}}▼
Для книги из 1500 страниц ёмкого текста (энциклопедический словарь) размером 721 Мб на не новом компьютере с 2-ядерным процессором 2700 МГц (с загрузкой каждого ядра на ~40 %, и отключением ресурсозатратных процессов вроде антивируса и обновлений):▼
* Анализ — до 4-7 часов.▼
* Распознавание — 8-12 часов.▼
* Запись (программа использует 1 ядро CPU) с настройкой сохранения «Высокое качество (разрешение исходного изображения)»▼
** djvu — 19 часов, сжатие файла до 175 Мб, критичная утеря качества. Возможно такая длительность из-за описанной ниже особенности FineReader, что при настройке «Высокое качество (разрешение исходного изображения)» по умолчанию включается сжатие до 80 %. Для его избежания надо отключать сжатие вручную выбрав «Пользовательское…». Однако тогда файл получается в 3 раза больше, а результат визуально таким же, т.ч. конвертация кроме вреда ничего не даёт.▼
** pdf MRC — 1 час, сжатие до 202 Мб, режим «Пользовательское…» с отключением сжатия и с разрешением оригинала, качество заметно лучше чем у djvu в случае выше▼
** pdf Precise Scan — 1 час, сжатие до 333 Мб, настройки как выше▼
{{конец скрытого блока}}▼
{{важно|Ввиду длительности операций имеются риск потратить впустую десятки часов работы, получив некачественный документ из-за неточных настроек. Поэтому предварительно стоит тестировать настройки на отдельных страницах скана (опции «сохранить выбранные страницы как…» и в меню «Страница»).}}▼
▲== Распознавание файлов ==
* [https://www.youtube.com/watch?v=PNRiVq1p6a0&index=1&list=PLAngObgqXBVV2ZVKMnKTkMsdoyiKxdcVZ Видео по настройке и использованию FineReader].
* [[
=== Тип страниц в файле скана ===
Формат файла выясняется при масштабировании текста сканированной страницы<ref>[https://youtube.com/watch?v=O_-THfiYIt4&t=52 Видео: Разъяснения автора оболочки одного из конверторов pdf в djvu]</ref>: {| class="standard"
|-
! Тип страниц в pdf !! Признаки !! Рекомендации по сжатию файла
|-
| width=11 % |Векторные шрифты
Строка 77 ⟶ 56 :
После выбора языков и пополнения словаря можно запускать распознавание, которое займёт до часа, или несколько часов в сложных случаях.
=== Выбор формата
{| class="standard"
|-
Строка 93 ⟶ 72 :
Открытый и записанный в том же формате файл не идентичен оригиналу (обычно хуже). Поскольку при открытии файла он программно обрабатывается.
▲Большие файлы сканов книг желательно сохранять или конвертировать со сжатием, для ускорения их загрузки и упрощения использования. Также, существует лимит в 100 Мб на размер файла загружаемого на Викисклад или в Викитеку, поэтому большие файлы надо ещё и разделять.
▲
▲Однако, не для всех книг рекомендуется
▲FineReader, перед ковертацией в djvu, требует распознавания текста. Итого потребуется 3 операции: 1) анализ книги — конвертация в формат FineReader, с разметкой областей текста и картинок; 2) распознавание; 3) запись в djvu.
▲Открытие файла сканированной книги, распознавание, и запись могут занять до 1—2 часов машинного времени.
▲{{начало скрытого блока|Время обработки при сложном случае|Фон_заголовка=#efefef|Рамка=1px solid #aaa}}
▲Для книги из 1500 страниц ёмкого текста (энциклопедический словарь) размером 721 Мб на не новом компьютере с 2-ядерным процессором 2700 МГц (с загрузкой каждого ядра на ~40 %, и отключением ресурсозатратных процессов вроде антивируса и обновлений):
▲* Анализ — до 4-7 часов.
▲* Распознавание — 8-12 часов.
▲* Запись (программа использует 1 ядро CPU) с настройкой сохранения «Высокое качество (разрешение исходного изображения)»
▲** djvu — 19 часов, сжатие файла до 175 Мб, критичная утеря качества. Возможно такая длительность из-за описанной ниже особенности FineReader, что при настройке «Высокое качество (разрешение исходного изображения)» по умолчанию включается сжатие до 80 %. Для его избежания надо отключать сжатие вручную выбрав «Пользовательское…». Однако тогда файл получается в 3 раза больше, а результат визуально таким же, т.ч. конвертация кроме вреда ничего не даёт.
▲** pdf MRC — 1 час, сжатие до 202 Мб, режим «Пользовательское…» с отключением сжатия и с разрешением оригинала, качество заметно лучше чем у djvu в случае выше
▲** pdf Precise Scan — 1 час, сжатие до 333 Мб, настройки как выше
▲{{конец скрытого блока}}
▲{{важно|Ввиду длительности операций имеются риск потратить впустую десятки часов работы, получив некачественный документ из-за неточных настроек. Поэтому предварительно стоит тестировать настройки на отдельных страницах скана (опции «сохранить выбранные страницы как…» и в меню «Страница»).}}
== Сохранение только распознанного текста ==
Строка 143 ⟶ 147 :
=== Распознавание ===
;Windows
* [[w:FineReader|FineReader]] — коммерческий и самый качественный инструмент.
;Linux
|