Викитека:Проект:OCR: различия между версиями
Содержимое удалено Содержимое добавлено
Vladis13 (обсуждение | вклад) |
Vladis13 (обсуждение | вклад) |
||
Строка 39:
==== Распознавание ====
[https://www.youtube.com/watch?v=PNRiVq1p6a0&index=1&list=PLAngObgqXBVV2ZVKMnKTkMsdoyiKxdcVZ Видео по настройке и использованию FineReader].
; Тип страниц в pdf▼
Файл pdf и djvu представляют собой пакет из изображений (в форматах jpeg, gif) постраничных сканов документа. В нём может присутствовать отдельный текстовый слой, который необходим для Викитеки, если его нет, то текст надо распознать. Реже, изображений страниц нет, а текст изначально хранится в особом формате (как в MS Word). Формат файла выясняется при масштабировании текста сканированной страницы<ref>[https://youtube.com/watch?v=O_-THfiYIt4&t=52 Видео: Разъяснения автора оболочки одного из конверторов pdf в djvu]</ref>:
{| class="standard"
Строка 46 ⟶ 48 :
! Тип страниц в pdf !! Признаки !! Рекомендации
|-
| width=11% |Векторные шрифты
| Края букв ровные при любом увеличении, без «лесенки» из пикселей
| Хорошее сжатие без потери качества.
Строка 57 ⟶ 59 :
| Буквы состоят из точек разных оттенков
| Лучше включить «сохранить оригинальное изображение», оставить включённым «цветной» или «серый» режим, и выключить сжатие.
<small>Примечание:</small> В FineReader
|}
; Выбор языков документа
Для качественного распознавания надо уточнить языки документа в настройках FineReader.
* Если в книге лишь изредка встречаются иностранные слова, лучше оставить только поддержку русского языка. Иначе, половина текста ошибочно распознается как иностранные буквы<ref>Настройки приоритета языков нет. Следовательно: при выборе двух языков русский + иностранный → приоритет 50 % (½)
* По возможности не включать редкие языки,
; Словари
FineReader использует словари, существенно улучшающие точность распознавания.
Для добавления терминов в словарь
* Часто списки используемых сокращений расположены в конце книги. В других случаях можно пополнить словарь на страницах, где термины часто встречаются.
* Если термин включает несколько коротких сокращений идущих всегда подряд, то лучше их включить вместе, а не по отдельности. Например: <code>см. ''Tac. ann.'' 2, 63. ''Amm. Marc.'' 17, 12</code> (добавить «''Tac. ann.''», и «''Amm. Marc.''»).
* Общеизвестные слова уже имеются в словарях, их включать не нужно. Добавление слов с единичным использованием
* Если выбрано несколько языков документа, то
* * Сокращения с точками
* Функция «обучение эталонам» и «распознавание с обучением» — потеря времени. Имеет смысл только на редких необычных шрифтах, и требует долгой тонкой настройки, иначе ошибки при обучении ухудшат распознавание.
После выбора языков и пополнения словаря можно запускать распознавание, которое займёт несколько часов.
|