Справка:Оцифровка: различия между версиями

[досмотренная версия][досмотренная версия]
Содержимое удалено Содержимое добавлено
Строка 30:
* [[#Программы OCR|Список других программ OCR]].
 
;=== Тип страниц в файле скана ===
Файл pdf и djvu представляют собой пакет из изображений (в форматах jpeg, gif) постраничных сканов документа. В нём может присутствовать отдельный текстовый слой, который необходим для Викитеки, если его нет, то текст надо распознать. Реже, изображений страниц нет, а текст изначально хранится в особом формате (как в MS Word). Формат файла выясняется при масштабировании текста сканированной страницы<ref>[https://youtube.com/watch?v=O_-THfiYIt4&t=52 Видео: Разъяснения автора оболочки одного из конверторов pdf в djvu]</ref>:
 
Строка 51:
|}
 
;=== Выбор языков документа ===
Для качественного распознавания надо уточнить языки документа в настройках FineReader.
* Если в книге лишь изредка встречаются иностранные слова, лучше оставить только поддержку русского языка. Иначе, половина текста ошибочно распознается как иностранные буквы<ref>Настройки приоритета языков нет. Следовательно: при выборе двух языков русский + иностранный → приоритет 50 % (½); если русский + 2 иностранных языка → выберется русский лишь в 33 % случаев (⅓).</ref>. К тому же, лишние словари замедляют работу.
* По возможности не включать редкие языки, они могут распознаются некачественно<ref>Из-за их малого словаря с ограниченным числом растровых масок.</ref>.
 
;=== Словари ===
FineReader использует словари, существенно улучшающие точность распознавания. Можно пополнить словарь часто используемыми в книге терминами — сокращениями, специальной терминологией.
{{начало скрытого блока|Пополнение словаря|Фон_заголовка=#efefef|Рамка=1px solid #aaa}}
Строка 70:
После выбора языков и пополнения словаря можно запускать распознавание, которое займёт до часа, или несколько часов в сложных случаях.
 
;=== Выбор формата конвертации ===
==== Сохранение файла ====
О сохранении только текстового слоя см. [[#Сохранение только распознанного текста|раздел ниже]].
 
; Выбор формата конвертации
{| class="standard"
|-
Строка 90 ⟶ 87 :
Открытый и записанный в том же формате файл не идентичен оригиналу (обычно хуже). Поскольку при открытии файла он программно обрабатывается.
 
=== Сохранение только распознанного текста ===
Бывает, что надо опубликовать только распознанный текст без скана. <small>(Например, это лучший вариант текста, и при этом не хочется переделывать уже загруженные сканы, в которых текстовый слой плохой или отсутствует).</small> Если в файле уже есть распознанный текстовый слой, можно по-быстрому экспортировать его программой ''[http://www.stduviewer.ru STDU Viewer]'', но обычно он заметно хуже<ref>Обычно распознавание предустановленного текстового слоя делается в библиотеках, с целью лишь добавления грубого текстового поиска по файлу. Делается это в массовом автоматическом режиме, бесплатными утилитами неизвестного качества.</ref>, чем делает FineReader, и имеет проблему с утерей абзацев и таблиц.
 
;=== Использование FineReader ===
Открыть файл скана в FineReader. <small>(Возможно он потребует [[#Распознавание|распознать текст]], даже если в файле уже есть плохо распознанный текстовый слой.)</small> Далее, в меню ''«Файл» → «Сохранить документ как»'' выбрать вариант: