Викитека:Проект:OCR: различия между версиями

Содержимое удалено Содержимое добавлено
Строка 39:
 
==== Распознавание ====
[https://www.youtube.com/watch?v=PNRiVq1p6a0&index=1&list=PLAngObgqXBVV2ZVKMnKTkMsdoyiKxdcVZ Видео по настройке и использованию FineReader].
; Тип страниц в pdf
 
При добавлении документа в FineReader, или конвертации в других программах, следует обратить внимание на тип страниц в pdf<ref>[https://youtube.com/watch?v=O_-THfiYIt4&t=52 Разъяснения автора оболочки одного из конверторов pdf в djvu]</ref>. Это выясняется при масштабировании текста сканированной страницы:
; Тип страниц в pdfфайле скана
Файл pdf и djvu представляют собой пакет из изображений (в форматах jpeg, gif) постраничных сканов документа. В нём может присутствовать отдельный текстовый слой, который необходим для Викитеки, если его нет, то текст надо распознать. Реже, изображений страниц нет, а текст изначально хранится в особом формате (как в MS Word). Формат файла выясняется при масштабировании текста сканированной страницы<ref>[https://youtube.com/watch?v=O_-THfiYIt4&t=52 Видео: Разъяснения автора оболочки одного из конверторов pdf в djvu]</ref>:
 
{| class="standard"
Строка 46 ⟶ 48 :
! Тип страниц в pdf !! Признаки !! Рекомендации
|-
| width=11% |Векторные шрифты
| Края букв ровные при любом увеличении, без «лесенки» из пикселей
| Хорошее сжатие без потери качества.
Строка 57 ⟶ 59 :
| Буквы состоят из точек разных оттенков
| Лучше включить «сохранить оригинальное изображение», оставить включённым «цветной» или «серый» режим, и выключить сжатие.
<small>Примечание:</small> В FineReader 12 замечена фичаособенность, что при выборе опции «сохранить исходное разрешение» по умолчанию включается «сжимать, с потерей качества до 80 %». Поэтому лучше выбирать «Пользовательское…» и запрещать сжатие. <br />Однако, при этом визуально djvu выглядит также плохо, хотя размер файла увеличивается в 3 раза, становясь почти равным оригиналу. Такая конвертация с сильной потерей качества только вредна и бессмысленна.
|}
 
; Выбор языков документа
Для качественного распознавания надо уточнить языки документа в настройках FineReader.
* Если в книге лишь изредка встречаются иностранные слова, лучше оставить только поддержку русского языка. Иначе, половина текста ошибочно распознается как иностранные буквы<ref>Настройки приоритета языков нет. Следовательно: при выборе двух языков русский + иностранный → приоритет 50 % (½),; если русский + 2 иностранных языка → выберется русский лишь в 33 % случаев (⅓).</ref>. К тому же, лишние словари замедляют работу.
* По возможности не включать редкие языки, особенно с тонкой графикой букв (например, греческий). Ониони могут распознаются некачественно<ref>Из-за их малого словаря с ограниченным числом растровых масок.</ref>.
 
; Словари
FineReader использует словари, существенно улучшающие точность распознавания. Поэтому, желательноЖелательно пополнить словарь часто используемыми терминами книги — сокращениями, ссылками на имена авторов (для научной литературы), специальной терминологией. Часто списки используемых сокращений расположены в конце книги, в других случаях можно пополнить словарь на страницах, где термины часто встречаются.
 
Для добавления терминов в словарь,: на странице надо нажать «Распознать страницу», затем в окне «Текст» исправить плохо распознанные термины, и выделяя мышкой, по правой её кнопке «добавлять их в словарь». Не все слова могут добавляться в словарь.Рекомендации:
* Часто списки используемых сокращений расположены в конце книги. В других случаях можно пополнить словарь на страницах, где термины часто встречаются.
* Если термин включает несколько коротких сокращений идущих всегда подряд, то лучше их включить вместе, а не по отдельности. Например: <code>см. ''Tac. ann.'' 2, 63. ''Amm. Marc.'' 17, 12</code> (добавить «''Tac. ann.''», и «''Amm. Marc.''»).
* Общеизвестные слова уже имеются в словарях, их включать не нужно. Добавление слов с единичным использованием также является потерейпотеря времени.
* Если выбрано несколько языков документа, то следует учесть, что многие буквы в русском и иностранном языке выглядят идентично («с, е, у, к, р, А, Н» и т. д.). Чтобы избежать их последующего распознавания в ошибочной кодировке лучше заменять их на буквы соответствующего языка перед добавлением в словарь. Также
* сохранятьСохранять термины в их стиле шрифта (курсив, жирный).
* Сокращения с точками лучше сохранять вместе с точкой, ибо она часть термина.
* Функция «обучение эталонам» и «распознавание с обучением» — потеря времени. Имеет смысл только на редких необычных шрифтах, и требует долгой тонкой настройки, иначе ошибки при обучении ухудшат распознавание.
* «Обучение эталонам» не использовать, это потеря времени.
 
После выбора языков и пополнения словаря можно запускать распознавание, которое займёт несколько часов.