Справка:Оцифровка: различия между версиями

[досмотренная версия][досмотренная версия]
Содержимое удалено Содержимое добавлено
порядок разделов, стилевые правки
Строка 6:
}}
 
== Распознавание файловтекстов ==
== Конвертация файлов ==
Большие файлы сканов книг желательно конвертировать со сжатием, для ускорения их загрузки и упрощения использования. Также, существует лимит в 100 Мб на размер файла загружаемого на Викисклад или в Викитеку, поэтому большие файлы надо ещё и разделять.
 
Конвертация файла обычно приводит к уменьшению его размера без существенной потери качества, поэтому в общем рекомендуется конвертировать все файлы. '''Разрешение''' лучше делать '''до 300—400 dpi''', а для текста с мелким кеглем — до 600 dpi<ref>[http://www.ixbt.com/soft/ocr-basis.shtml Основы распознавания изображений с помощью FineReader]</ref>. Конвертировать можно в формат djvu, или в pdf, с режимами MRC и Precise Scan программы FineReader, дающими лучше качество и/или сжатие, чем djvu (см. ниже).
 
Однако, не для всех книг рекомендуется конвертация. Например, в сканах словарей могут содержаться мелкие и тонкие шрифты (греческий алфавит), мелкие иллюстрации, рукописные надписи. Сжатие необратимо повредит их, ухудшив возможное последующее OCR-распознавание. Поэтому, при конвертировании лучше добавлять в файл распознанный текст оригинала, как резервный источник оригинальной информации, и в описании загруженного файла указывать ссылку на оригинал.
 
=== Выбор программы ===
Обычно бесплатные программы распознавания сканированного текста (OCR) и конверторы<ref name="djvu tools"/> медленны, поскольку используют только 1 ядро процессора и плохо оптимизированы. Поэтому по возможности лучше использовать профессиональные программы, из которых практически не имеет конкуренции коммерческий ''ABBYY FineReader''.
 
FineReader, перед ковертацией в djvu, требует распознавания текста. Итого потребуется 3 операции: 1) анализ книги — конвертация в формат FineReader, с разметкой областей текста и картинок; 2) распознавание; 3) запись в djvu.
 
=== Время обработки файла ===
Открытие, распознавание, и запись могут занять до 1—2 часов машинного времени. Но в сложных случаях может три дня.
 
{{начало скрытого блока|Время обработки при сложном случае|Фон_заголовка=#efefef|Рамка=1px solid #aaa}}
Для книги из 1500 страниц ёмкого текста (энциклопедический словарь) размером 721 Мб на не новом компьютере с 2-ядерным процессором 2700 МГц (с загрузкой каждого ядра на ~40 %, и отключением ресурсозатратных процессов вроде антивируса и обновлений):
* Анализ — до 4-7 часов.
* Распознавание — 8-12 часов.
* Запись (программа использует 1 ядро CPU) с настройкой сохранения «Высокое качество (разрешение исходного изображения)»
** djvu — 19 часов, сжатие файла до 175 Мб, критичная утеря качества. Возможно такая длительность из-за описанной ниже особенности FineReader, что при настройке «Высокое качество (разрешение исходного изображения)» по умолчанию включается сжатие до 80 %. Для его избежания надо отключать сжатие вручную выбрав «Пользовательское…». Однако тогда файл получается в 3 раза больше, а результат визуально таким же, т.ч. конвертация кроме вреда ничего не даёт.
** pdf MRC — 1 час, сжатие до 202 Мб, режим «Пользовательское…» с отключением сжатия и с разрешением оригинала, качество заметно лучше чем у djvu в случае выше
** pdf Precise Scan — 1 час, сжатие до 333 Мб, настройки как выше
{{конец скрытого блока}}
 
{{важно|Ввиду длительности операций имеются риск потратить впустую десятки часов работы, получив некачественный документ из-за неточных настроек. Поэтому предварительно стоит тестировать настройки на отдельных страницах скана (опции «сохранить выбранные страницы как…» и в меню «Страница»).}}
 
== Распознавание файлов ==
* [https://www.youtube.com/watch?v=PNRiVq1p6a0&index=1&list=PLAngObgqXBVV2ZVKMnKTkMsdoyiKxdcVZ Видео по настройке и использованию FineReader].
* [[Викитека:Проект:OCR#Программы OCR|Список других программ OCR]].
 
=== Тип страниц в файле скана ===
ФайлФайлы pdf и djvu представляют собой пакет из изображений (в форматах jpeg, gif) постраничных сканов документа. В нёмфайле может присутствовать отдельный текстовый слой, который необходимбудет дляотображаться Викитеки,при еслипубликации егов Викитеке (в пространстве имён «Страница»). Если текстового слоя нет, то текстего надонеобходимо распознатьсделать, в этом помогут программы распознавания текста. Реже, изображений страниц нет, а текст изначально хранится в особом формате (как в MS Word).

Формат файла выясняется при масштабировании текста сканированной страницы<ref>[https://youtube.com/watch?v=O_-THfiYIt4&t=52 Видео: Разъяснения автора оболочки одного из конверторов pdf в djvu]</ref>:
 
{| class="standard"
|-
! Тип страниц в pdf !! Признаки !! Рекомендации по сжатию файла
|-
| width=11 % |Векторные шрифты
Строка 77 ⟶ 56 :
После выбора языков и пополнения словаря можно запускать распознавание, которое займёт до часа, или несколько часов в сложных случаях.
 
=== Выбор формата конвертации ===
{| class="standard"
|-
Строка 93 ⟶ 72 :
 
Открытый и записанный в том же формате файл не идентичен оригиналу (обычно хуже). Поскольку при открытии файла он программно обрабатывается.
 
=== КонвертацияСжатие файлов ===
Большие файлы сканов книг желательно сохранять или конвертировать со сжатием, для ускорения их загрузки и упрощения использования. Также, существует лимит в 100 Мб на размер файла загружаемого на Викисклад или в Викитеку, поэтому большие файлы надо ещё и разделять.
 
КонвертацияСохранение файла со сжатием обычно приводит к уменьшению его размера без существенной потери качества, поэтому в общем рекомендуется конвертироватьсжимать все файлы. '''Разрешение''' лучше делать '''до 300—400 dpi''', а для текста с мелким кеглем — до 600 dpi<ref>[http://www.ixbt.com/soft/ocr-basis.shtml Основы распознавания изображений с помощью FineReader]</ref>. КонвертироватьСохранять можно в формат djvu, или в pdf, с режимами MRC и Precise Scan программы FineReader, дающими лучше качество и/или сжатие, чем djvu (см. ниже).
 
Однако, не для всех книг рекомендуется конвертациясжатие. Например, в сканах словарей могут содержаться мелкие и тонкие шрифты (греческий алфавит), мелкие иллюстрации, рукописные надписи. Сжатие необратимо повредит их, ухудшив возможное последующее OCR-распознавание. Поэтому, при конвертировании лучше добавлять в файл распознанный текст оригинала, как резервный источник оригинальной информации, и в описании загруженного файла указывать ссылку на оригинал.
 
=== Время обработки файла ===
FineReader, перед ковертацией в djvu, требует распознавания текста. Итого потребуется 3 операции: 1) анализ книги — конвертация в формат FineReader, с разметкой областей текста и картинок; 2) распознавание; 3) запись в djvu.
 
Открытие файла сканированной книги, распознавание, и запись могут занять до 1—2 часов машинного времени. Но вВ сложных случаях может трипотребоваться около трёх днядней.
 
{{начало скрытого блока|Время обработки при сложном случае|Фон_заголовка=#efefef|Рамка=1px solid #aaa}}
Для книги из 1500 страниц ёмкого текста (энциклопедический словарь) размером 721 Мб на не новом компьютере с 2-ядерным процессором 2700 МГц (с загрузкой каждого ядра на ~40 %, и отключением ресурсозатратных процессов вроде антивируса и обновлений):
* Анализ — до 4-7 часов.
* Распознавание — 8-12 часов.
* Запись (программа использует 1 ядро CPU) с настройкой сохранения «Высокое качество (разрешение исходного изображения)»
** djvu — 19 часов, сжатие файла до 175 Мб, критичная утеря качества. Возможно такая длительность из-за описанной ниже особенности FineReader, что при настройке «Высокое качество (разрешение исходного изображения)» по умолчанию включается сжатие до 80 %. Для его избежания надо отключать сжатие вручную выбрав «Пользовательское…». Однако тогда файл получается в 3 раза больше, а результат визуально таким же, т.ч. конвертация кроме вреда ничего не даёт.
** pdf MRC — 1 час, сжатие до 202 Мб, режим «Пользовательское…» с отключением сжатия и с разрешением оригинала, качество заметно лучше чем у djvu в случае выше
** pdf Precise Scan — 1 час, сжатие до 333 Мб, настройки как выше
{{конец скрытого блока}}
 
{{важно|Ввиду длительности операций имеются риск потратить впустую десятки часов работы, получив некачественный документ из-за неточных настроек. Поэтому предварительно стоит тестировать настройки на отдельных страницах скана (опции «сохранить выбранные страницы как…» и в меню «Страница»).}}
 
 
== Сохранение только распознанного текста ==
Строка 143 ⟶ 147 :
=== Распознавание ===
;Windows
* [[w:FineReader|FineReader]] — коммерческий и самый качественный инструмент. СНачиная с версий 11-12 версиии 12 имеет словари распознавания дореволюционной орфографии и ударений в словах.
 
;Linux