Справка:Оцифровка: различия между версиями

[досмотренная версия][досмотренная версия]
Содержимое удалено Содержимое добавлено
порядок разделов, стилевые правки
Нет описания правки
Строка 9:
 
=== Выбор программы ===
Обычно бесплатные программы распознавания сканированного текста (OCR) и конверторы<ref name="djvu tools"/> медленны, поскольку используют только 1 ядро процессора и плохо оптимизированы. Поэтому лучше использовать профессиональные программы, из которых практически не имеет конкуренции коммерческий ''ABBYY FineReader''.
 
Профессиональной программой вне конкуренции является коммерческий ''ABBYY FineReader''. Начиная с версий 11 и 12 он имеет словари распознавания дореволюционной орфографии и ударений в словах. Ниже описана справка применительно к этой программе, другие программы имеют схожие функции.
 
* [https://www.youtube.com/watch?v=PNRiVq1p6a0&index=1&list=PLAngObgqXBVV2ZVKMnKTkMsdoyiKxdcVZ Видео по настройке и использованию FineReader].
Строка 17 ⟶ 19 :
Файлы pdf и djvu представляют собой пакет из изображений (в форматах jpeg, gif) постраничных сканов документа. В файле может присутствовать отдельный текстовый слой, который будет отображаться при публикации в Викитеке (в пространстве имён «Страница»). Если текстового слоя нет, то его необходимо сделать, в этом помогут программы распознавания текста. Реже, изображений страниц нет, а текст изначально хранится в особом формате (как в MS Word).
 
Формат файла выясняется при масштабировании текста сканированной страницы:<ref>[https://youtube.com/watch?v=O_-THfiYIt4&t=52 Видео: Разъяснения автора оболочки одного из конверторов pdf в djvu]</ref>:
 
{| class="standard"
Строка 39 ⟶ 41 :
=== Выбор языков документа ===
Для качественного распознавания надо уточнить языки документа в настройках FineReader.
* Если в книге лишь изредка встречаются иностранные слова, лучше оставить только поддержку русского языка. Иначе, половина текста ошибочно распознается как иностранные буквы<ref>НастройкиВ программе нет настройки приоритета языков нет. Следовательно: при выборе двух языков — русский + иностранный — приоритет 50 % (½); если русский + 2 иностранных языка → выберется русский лишь в 33 % случаев (⅓).</ref>. К тому же, лишние словари замедляют работу.
* По возможности не включать редкие языки, они могут распознаются некачественно<ref>Из-за их малого словаря с ограниченным числом растровых масок.</ref>.
 
Строка 56 ⟶ 58 :
После выбора языков и пополнения словаря можно запускать распознавание, которое займёт до часа, или несколько часов в сложных случаях.
 
=== СжатиеФормат и сжатие файлов ===
=== Выбор формата ===
{| class="standard"
|-
! Формат !! Рекомендации
|-
| djvu
| djvu<ref name="djvu tools">Некоторые сайты с бесплатными утилитами для djvu: [http://djvu-spec.narod.ru/ Djvu-Spec Pdf 2 Djvu Converter], http://djvu-inf.narod.ru, http://djvu-info.ru</ref>
| На обычном тексте даёт уменьшение размера документа без существенной потери качества. На книгах с мелким текстом применять с предварительным тестированием.
|-
Строка 73 ⟶ 75 :
Открытый и записанный в том же формате файл не идентичен оригиналу (обычно хуже). Поскольку при открытии файла он программно обрабатывается.
 
=== Сжатие файлов ===
Большие файлы сканов книг желательно сохранять или конвертировать со сжатием, для ускорения их загрузки и упрощения использования. Также, существует лимит в 100 Мб на размер файла загружаемого на Викисклад или в Викитеку, поэтому большие файлы надо ещё и разделять.
 
Сохранение файла со сжатием обычно приводит к уменьшению его размера без существенной потери качества, поэтому в общем рекомендуется сжимать все файлы. '''Разрешение''' лучше делать '''до 300—400 dpi''', а для текста с мелким кеглем — до 600 dpi<ref>[http://www.ixbt.com/soft/ocr-basis.shtml Основы распознавания изображений с помощью FineReader]</ref>. Сохранять можно в формат djvu, или в pdf, с режимами MRC и Precise Scan программы FineReader, дающими лучше качество и/или сжатие, чем djvu (см. нижетаблицу).
 
Однако, сжатие рекомендуется не для всех книг рекомендуется сжатие. Например, в сканах словарей могут содержаться мелкие и тонкие шрифты (греческий алфавит), мелкие иллюстрации, рукописные надписи. Сжатие необратимо повредит их, ухудшив возможное последующее OCR-распознавание. Поэтому, приесли существует какое-то ограничение на размер файла, конвертированиито лучше добавлятьдобавить в файл распознанный текст оригинала, как резервный источник оригинальной информации, и в описании загруженного файла указывать ссылку на оригинал.
 
=== Время обработки ===
Строка 157 ⟶ 158 :
* [https://finereaderonline.com/ru-ru FineReader-online] — бесплатный «пробник» на 10 страниц
* [https://img2txt.com img2txt.com] и [https://www.newocr.com newocr.com] — web-интерфейсы программы Tesseract
 
; Конверторы и утилиты для djvu
* [http://djvu-spec.narod.ru/ Djvu-Spec Pdf 2 Djvu Converter], http://djvu-inf.narod.ru, http://djvu-info.ru - некоторые сайты с бесплатными утилитами для djvu
 
=== Извлечение текстового слоя в файл ===