Справка:Оцифровка: различия между версиями
[досмотренная версия] | [досмотренная версия] |
Содержимое удалено Содержимое добавлено
Vladis13 (обсуждение | вклад) |
Vladis13 (обсуждение | вклад) |
||
Строка 18:
=== Тип страниц в файле скана ===
Файлы pdf и djvu представляют собой пакет из изображений (в форматах jpeg, gif) постраничных сканов документа. В файле может присутствовать отдельный текстовый слой, который будет отображаться при публикации в Викитеке (в пространстве имён «Страница»). Если текстового слоя нет, то его необходимо сделать, в этом помогут программы распознавания текста. Реже, изображений страниц нет, а текст изначально хранится в особом формате (как в MS Word).
Формат файла выясняется при масштабировании текста сканированной страницы:<ref>[https://youtube.com/watch?v=O_-THfiYIt4&t=52 Видео: Разъяснения автора оболочки одного из конверторов pdf в djvu]</ref>▼
{| class="standard"▼
|-▼
|-▼
| width=11 % |Векторные шрифты▼
| Края букв ровные при любом увеличении, без «лесенки» из пикселей▼
| Хорошее сжатие без потери качества.▼
|-▼
| Растровое чёрно-белое изображение▼
| Видны точки пикселей▼
| Можно использовать опции типа «чёрно-белый режим» и сжатие.▼
|-▼
| Растровый jpg с градациями яркости▼
| Буквы состоят из точек разных оттенков▼
| Лучше включить «сохранить оригинальное изображение», оставить включённым «цветной» или «серый» режим, и выключить сжатие.▼
<small>Примечание:</small> В FineReader замечена особенность, что при выборе опции «сохранить исходное разрешение» по умолчанию включается «сжимать, с потерей качества до 80 %». Поэтому лучше выбирать «Пользовательское…» и явно запретить сжатие. <br />Однако, при этом визуально djvu выглядит также плохо, хотя размер файла увеличивается в 3 раза, становясь почти равным оригиналу. <br />Такая конвертация бессмысленна и вредна, из-за потери качества.▼
|}▼
=== Выбор языков документа ===
Строка 62 ⟶ 42 :
В обычном загрузчике лимит — 100 Мб.
▲Формат
{| class="standard"
|-
!
|-
▲| width=11 % |Векторные шрифты
| djvu▼
▲| Края букв ровные при любом увеличении, без «лесенки» из пикселей
| На обычном тексте даёт уменьшение размера документа без существенной потери качества. На книгах с мелким текстом применять с предварительным тестированием.▼
▲| Хорошее сжатие без потери качества.
▲|-
▲| Растровое чёрно-белое изображение
▲| Видны точки пикселей
▲|-
▲| Растровый jpg с градациями яркости
▲| Буквы состоят из точек разных оттенков
▲| Лучше включить «сохранить оригинальное изображение», оставить включённым «цветной» или «серый» режим, и выключить сжатие.
▲<small>Примечание:</small> В FineReader замечена особенность, что при выборе опции «сохранить исходное разрешение» по умолчанию включается «сжимать, с потерей качества до 80 %». Поэтому лучше выбирать «Пользовательское…» и явно запретить сжатие. <br />Однако, при этом визуально djvu выглядит также плохо, хотя размер файла увеличивается в 3 раза, становясь почти равным оригиналу. <br />Такая конвертация бессмысленна и вредна, из-за потери качества.
▲|}
; Формат выходного файла
▲{| class="standard"
▲|-
! Формат !! Рекомендации
|-
| pdf с опцией сохранения MRC<ref>[https://habrahabr.ru/company/abbyy/blog/119790/ Как технология MRC уменьшает размер PDF-документов]. Блог компании ABBYY</ref> (программы FineReader)
| По сравнению с djvu сжатие и качество лучше, при этом файл может открываться почти во всех [https://yandex.ru/search/?text=читалки%20книги&lr=2 читалках]. Режим заимствован из djvu. Если разница несущественная, рекомендуется эту опцию выключить.
|-
| pdf с опцией сохранения Precise Scan<ref>[http://help.abbyy.com/FineReader/FineReader12/Russian/SavingResults/SaveToPDF.htm Сохранение в формат PDF] Справка FineReader</ref> (FineReader)
| Сжатие меньше, но сглаживаются «лесенки пикселей» присутствующие в предыдущих форматах<ref>[http://www.ixbt.com/soft/abbyy-finereader-12.shtml Обзор Abbyy FineReader 12 Professional]</ref>.
▲|-
▲| djvu
▲| На обычном тексте даёт уменьшение размера документа без существенной потери качества. На книгах с мелким текстом применять с предварительным тестированием.
|}
Открытый и записанный в том же формате файл не идентичен оригиналу (обычно хуже). Поскольку при открытии файла он программно обрабатывается.
Строка 91 ⟶ 94 :
{{начало скрытого блока|Время обработки при сложном случае|Фон_заголовка=#efefef|Рамка=1px solid #aaa}}
Для книги из 1500 страниц ёмкого текста (энциклопедический словарь) размером 721 Мб на
* Анализ — до 4-7 часов.
* Распознавание — 8-12 часов.
Строка 101 ⟶ 104 :
{{важно|Ввиду длительности операций имеются риск потратить впустую десятки часов работы, получив некачественный документ из-за неточных настроек. Поэтому предварительно стоит тестировать настройки на отдельных страницах скана (опции «сохранить выбранные страницы как…» и в меню «Страница»).}}
== Сохранение только распознанного текста ==
|