Справка:Оцифровка: различия между версиями

[досмотренная версия][досмотренная версия]
Содержимое удалено Содержимое добавлено
Строка 18:
=== Тип страниц в файле скана ===
Файлы pdf и djvu представляют собой пакет из изображений (в форматах jpeg, gif) постраничных сканов документа. В файле может присутствовать отдельный текстовый слой, который будет отображаться при публикации в Викитеке (в пространстве имён «Страница»). Если текстового слоя нет, то его необходимо сделать, в этом помогут программы распознавания текста. Реже, изображений страниц нет, а текст изначально хранится в особом формате (как в MS Word).
 
Формат файла выясняется при масштабировании текста сканированной страницы:<ref>[https://youtube.com/watch?v=O_-THfiYIt4&t=52 Видео: Разъяснения автора оболочки одного из конверторов pdf в djvu]</ref>
 
{| class="standard"
|-
! Тип страниц в pdf !! Признаки !! Рекомендации по сжатию файла
|-
| width=11 % |Векторные шрифты
| Края букв ровные при любом увеличении, без «лесенки» из пикселей
| Хорошее сжатие без потери качества.
|-
| Растровое чёрно-белое изображение
| Видны точки пикселей
| Можно использовать опции типа «чёрно-белый режим» и сжатие.
|-
| Растровый jpg с градациями яркости
| Буквы состоят из точек разных оттенков
| Лучше включить «сохранить оригинальное изображение», оставить включённым «цветной» или «серый» режим, и выключить сжатие.
<small>Примечание:</small> В FineReader замечена особенность, что при выборе опции «сохранить исходное разрешение» по умолчанию включается «сжимать, с потерей качества до 80 %». Поэтому лучше выбирать «Пользовательское…» и явно запретить сжатие. <br />Однако, при этом визуально djvu выглядит также плохо, хотя размер файла увеличивается в 3 раза, становясь почти равным оригиналу. <br />Такая конвертация бессмысленна и вредна, из-за потери качества.
|}
 
=== Выбор языков документа ===
Строка 62 ⟶ 42 :
 
В обычном загрузчике лимит — 100 Мб.
 
Формат файлаизображения в файле выясняется при масштабировании текста сканированной страницы:<ref>[https://youtube.com/watch?v=O_-THfiYIt4&t=52 Видео: Разъяснения автора оболочки одного из конверторов pdf в djvu]</ref>
 
{| class="standard"
|-
! ФорматТип страниц в pdf !! Признаки !! Рекомендации по сжатию файла
|-
| width=11 % |Векторные шрифты
| djvu
| Края букв ровные при любом увеличении, без «лесенки» из пикселей
| На обычном тексте даёт уменьшение размера документа без существенной потери качества. На книгах с мелким текстом применять с предварительным тестированием.
| Хорошее сжатие без потери качества.
|-
| Растровое чёрно-белое изображение
| Видны точки пикселей
| Можно использовать опцииопцию типасканирования «чёрно-белый режим», и попробовать сжатие.
|-
| Растровый jpg с градациями яркости
| Буквы состоят из точек разных оттенков
| Лучше включить «сохранить оригинальное изображение», оставить включённым «цветной» или «серый» режим, и выключить сжатие.
<small>Примечание:</small> В FineReader замечена особенность, что при выборе опции «сохранить исходное разрешение» по умолчанию включается «сжимать, с потерей качества до 80 %». Поэтому лучше выбирать «Пользовательское…» и явно запретить сжатие. <br />Однако, при этом визуально djvu выглядит также плохо, хотя размер файла увеличивается в 3 раза, становясь почти равным оригиналу. <br />Такая конвертация бессмысленна и вредна, из-за потери качества.
|}
 
 
; Формат выходного файла
{| class="standard"
|-
! Формат !! Рекомендации
|-
| pdf с опцией сохранения MRC<ref>[https://habrahabr.ru/company/abbyy/blog/119790/ Как технология MRC уменьшает размер PDF-документов]. Блог компании ABBYY</ref> (программы FineReader)
| По сравнению с djvu сжатие и качество лучше, при этом файл может открываться почти во всех [https://yandex.ru/search/?text=читалки%20книги&lr=2 читалках]. Режим заимствован из djvu. Если разница несущественная, рекомендуется эту опцию выключить.
|-
| pdf с опцией сохранения Precise Scan<ref>[http://help.abbyy.com/FineReader/FineReader12/Russian/SavingResults/SaveToPDF.htm Сохранение в формат PDF] Справка FineReader</ref> (FineReader)
| Сжатие меньше, но сглаживаются «лесенки пикселей» присутствующие в предыдущих форматах<ref>[http://www.ixbt.com/soft/abbyy-finereader-12.shtml Обзор Abbyy FineReader 12 Professional]</ref>.
|-
| djvu
| На обычном тексте даёт уменьшение размера документа без существенной потери качества. На книгах с мелким текстом применять с предварительным тестированием.
|}
 
 
Открытый и записанный в том же формате файл не идентичен оригиналу (обычно хуже). Поскольку при открытии файла он программно обрабатывается.
Строка 91 ⟶ 94 :
 
{{начало скрытого блока|Время обработки при сложном случае|Фон_заголовка=#efefef|Рамка=1px solid #aaa}}
Для книги из 1500 страниц ёмкого текста (энциклопедический словарь) размером 721 Мб на нестаром новомпроцессоре компьютереAthlon сx64 2-ядерным2x2700 процессоромМГц 27002006 МГцгода (с загрузкой каждого ядра на ~40 %, и отключением ресурсозатратных процессов вроде антивируса и обновлений):
* Анализ — до 4-7 часов.
* Распознавание — 8-12 часов.
Строка 101 ⟶ 104 :
 
{{важно|Ввиду длительности операций имеются риск потратить впустую десятки часов работы, получив некачественный документ из-за неточных настроек. Поэтому предварительно стоит тестировать настройки на отдельных страницах скана (опции «сохранить выбранные страницы как…» и в меню «Страница»).}}
 
 
== Сохранение только распознанного текста ==