Викитека:Проект:OCR: различия между версиями

Содержимое удалено Содержимое добавлено
перенос в новые справки
Строка 8:
Технически работа по вычитке и сверке текстов со сканами происходит с помощью установленного расширения [[mw:Extension:Proofread Page|Proofread Page]] (обсуждение расширения см. в [[oldwikisource:Wikisource:ProofreadPage|oldwikisource]]).
 
== Руководства ==
== Последовательность действий ==
'''''{{см.Общее также|руководство: [[Справка:Вычитка}}''''']]
 
Специальные руководства:
=== Отсканируйте, распознайте, конвертируйте ===
* [[Справка:Оцифровка]]
Большие файлы сканов книг желательно конвертировать со сжатием, для ускорения их загрузки и упрощения использования. Также, существует лимит в 100 Мб на размер файла загружаемого на Викисклад или в Викитеку, поэтому большие файлы надо ещё и разделять.
* [[Справка:Индекс]]
 
* [[Справка:Включение]]
Конвертация файла обычно приводит к уменьшению его размера без существенной потери качества, поэтому в общем рекомендуется конвертировать все файлы. '''Разрешение''' лучше делать '''до 300—400 dpi''', а для текста с мелким кеглем — до 600 dpi<ref>[http://www.ixbt.com/soft/ocr-basis.shtml Основы распознавания изображений с помощью FineReader]</ref>. Конвертировать можно в формат djvu, или в pdf, с режимами MRC и Precise Scan программы FineReader, дающими лучше качество и/или сжатие, чем djvu (см. ниже).
 
Однако, не для всех книг рекомендуется конвертация. Например, в сканах словарей могут содержаться мелкие и тонкие шрифты (греческий алфавит), мелкие иллюстрации, рукописные надписи. Сжатие необратимо повредит их, ухудшив возможное последующее OCR-распознавание. Поэтому, при конвертировании лучше добавлять в файл распознанный текст оригинала, как резервный источник оригинальной информации, и в описании загруженного файла указывать ссылку на оригинал.
 
; Выбор программы
Обычно бесплатные конверторы<ref name="djvu tools"/> медленны, — используют только 1 ядро процессора и плохо оптимизированы. Поэтому по возможности лучше использовать профессиональные программы, из которых практически не имеет конкуренции коммерческий ''ABBYY FineReader''.
 
FineReader, перед ковертацией в djvu, требует распознавания текста. Итого потребуется 3 операции: 1) анализ книги — конвертация в формат FineReader, с разметкой областей текста и картинок; 2) распознавание; 3) запись в djvu.
 
; Время обработки файла
Открытие, распознавание, и запись могут занять до 1-2 часов машинного времени. Но в сложных случаях может три дня.
 
{{начало скрытого блока|Время обработки при сложном случае|Фон_заголовка=#efefef|Рамка=1px solid #aaa}}
Для книги из 1500 страниц ёмкого текста (энциклопедический словарь) размером 721 Мб на не новом компьютере с 2-ядерным процессором 2700 МГц (с загрузкой каждого ядра на ~40 %, и отключением ресурсозатратных процессов вроде антивируса и обновлений):
* Анализ — до 4-7 часов.
* Распознавание — 8-12 часов.
* Запись (программа использует 1 ядро CPU) с настройкой сохранения «Высокое качество (разрешение исходного изображения)»
** djvu — 19 часов, сжатие файла до 175 Мб, критичная утеря качества. Возможно такая длительность из-за описанной ниже особенности FineReader, что при настройке «Высокое качество (разрешение исходного изображения)» по умолчанию включается сжатие до 80 %. Для его избежания надо отключать сжатие вручную выбрав «Пользовательское…». Однако тогда файл получается в 3 раза больше, а результат визуально таким же, т.ч. конвертация кроме вреда ничего не даёт.
** pdf MRC — 1 час, сжатие до 202 Мб, режим «Пользовательское…» с отключением сжатия и с разрешением оригинала, качество заметно лучше чем у djvu в случае выше
** pdf Precise Scan — 1 час, сжатие до 333 Мб, настройки как выше
{{конец скрытого блока}}
 
{{важно|Ввиду длительности операций имеются риск потратить впустую десятки часов работы, получив некачественный документ из-за неточных настроек. Поэтому предварительно стоит тестировать настройки на отдельных страницах скана (опции «сохранить выбранные страницы как…» и в меню «Страница»).}}
 
==== Распознавание ====
* [https://www.youtube.com/watch?v=PNRiVq1p6a0&index=1&list=PLAngObgqXBVV2ZVKMnKTkMsdoyiKxdcVZ Видео по настройке и использованию FineReader].
* [[#Программы OCR|Список других программ OCR]].
 
; Тип страниц в файле скана
Файл pdf и djvu представляют собой пакет из изображений (в форматах jpeg, gif) постраничных сканов документа. В нём может присутствовать отдельный текстовый слой, который необходим для Викитеки, если его нет, то текст надо распознать. Реже, изображений страниц нет, а текст изначально хранится в особом формате (как в MS Word). Формат файла выясняется при масштабировании текста сканированной страницы<ref>[https://youtube.com/watch?v=O_-THfiYIt4&t=52 Видео: Разъяснения автора оболочки одного из конверторов pdf в djvu]</ref>:
 
{| class="standard"
|-
! Тип страниц в pdf !! Признаки !! Рекомендации
|-
| width=11 % |Векторные шрифты
| Края букв ровные при любом увеличении, без «лесенки» из пикселей
| Хорошее сжатие без потери качества.
|-
| Растровое чёрно-белое изображение
| Видны точки пикселей
| Можно использовать опции типа «чёрно-белый режим» и сжатие.
|-
| Растровый jpg с градациями яркости
| Буквы состоят из точек разных оттенков
| Лучше включить «сохранить оригинальное изображение», оставить включённым «цветной» или «серый» режим, и выключить сжатие.
<small>Примечание:</small> В FineReader замечена особенность, что при выборе опции «сохранить исходное разрешение» по умолчанию включается «сжимать, с потерей качества до 80 %». Поэтому лучше выбирать «Пользовательское…» и явно запретить сжатие. <br />Однако, при этом визуально djvu выглядит также плохо, хотя размер файла увеличивается в 3 раза, становясь почти равным оригиналу. <br />Такая конвертация бессмысленна и вредна, из-за потери качества.
|}
 
; Выбор языков документа
Для качественного распознавания надо уточнить языки документа в настройках FineReader.
* Если в книге лишь изредка встречаются иностранные слова, лучше оставить только поддержку русского языка. Иначе, половина текста ошибочно распознается как иностранные буквы<ref>Настройки приоритета языков нет. Следовательно: при выборе двух языков русский + иностранный → приоритет 50 % (½); если русский + 2 иностранных языка → выберется русский лишь в 33 % случаев (⅓).</ref>. К тому же, лишние словари замедляют работу.
* По возможности не включать редкие языки, они могут распознаются некачественно<ref>Из-за их малого словаря с ограниченным числом растровых масок.</ref>.
 
; Словари
FineReader использует словари, существенно улучшающие точность распознавания. Можно пополнить словарь часто используемыми в книге терминами — сокращениями, специальной терминологией.
{{начало скрытого блока|Пополнение словаря|Фон_заголовка=#efefef|Рамка=1px solid #aaa}}
Для добавления терминов в словарь: на странице нажать «Распознать страницу», затем в окне «Текст» исправить плохо распознанные термины, и выделяя мышкой, по правой её кнопке «добавлять их в словарь». Рекомендации:
* Часто списки используемых сокращений расположены в конце книги. В других случаях можно пополнить словарь на страницах, где термины часто встречаются.
* Если термин включает несколько коротких сокращений идущих всегда подряд, то лучше их включить вместе, а не по отдельности. Например: <code>см. ''Tac. ann.'' 2, 63. ''Amm. Marc.'' 17, 12</code> (добавить «''Tac. ann.''», и «''Amm. Marc.''»).
* Общеизвестные слова уже имеются в словарях, их включать не нужно. Добавление слов с единичным использованием — потеря времени.
* Если выбрано несколько языков документа, то учесть, что многие буквы в русском и иностранном языке выглядят идентично («с, е, у, к, р, А, Н» и т. д.). Чтобы избежать их последующего распознавания в ошибочной кодировке лучше заменять их на буквы соответствующего языка перед добавлением в словарь.
* Сохранять термины в их стиле шрифта (курсив, жирный).
* Сокращения с точками сохранять вместе с точкой, ибо она часть термина.
* Функция «обучение эталонам» и «распознавание с обучением» — потеря времени. Имеет смысл только на редких необычных шрифтах, и требует долгой тонкой настройки, иначе ошибки при обучении ухудшат распознавание.
{{конец скрытого блока}}
После выбора языков и пополнения словаря можно запускать распознавание, которое займёт до часа, или несколько часов в сложных случаях.
 
==== Сохранение файла ====
О сохранении только текстового слоя см. [[#Сохранение только распознанного текста|раздел ниже]].
 
; Выбор формата конвертации
{| class="standard"
|-
! Формат !! Рекомендации
|-
| djvu<ref name="djvu tools">Некоторые сайты с бесплатными утилитами для djvu: [http://djvu-spec.narod.ru/ Djvu-Spec Pdf 2 Djvu Converter], http://djvu-inf.narod.ru, http://djvu-info.ru</ref>
| На обычном тексте даёт уменьшение размера документа без существенной потери качества. На книгах с мелким текстом применять с предварительным тестированием.
|-
| pdf с опцией сохранения MRC<ref>[https://habrahabr.ru/company/abbyy/blog/119790/ Как технология MRC уменьшает размер PDF-документов]. Блог компании ABBYY</ref> (программы FineReader)
| По сравнению с djvu сжатие и качество лучше, при этом файл может открываться почти во всех [https://yandex.ru/search/?text=читалки%20книги&lr=2 читалках]. Режим заимствован из djvu.
|-
| pdf с опцией сохранения Precise Scan<ref>[http://help.abbyy.com/FineReader/FineReader12/Russian/SavingResults/SaveToPDF.htm Сохранение в формат PDF] Справка FineReader</ref> (FineReader)
| Сжатие меньше, но сглаживаются «лесенки пикселей» присутствующие в предыдущих форматах<ref>[http://www.ixbt.com/soft/abbyy-finereader-12.shtml Обзор Abbyy FineReader 12 Professional]</ref>.
|}
 
Открытый и записанный в том же формате файл не идентичен оригиналу (обычно хуже). Поскольку при открытии файла он программно обрабатывается.
 
=== Сохранение только распознанного текста ===
Бывает, что надо опубликовать только распознанный текст без скана. <small>(Например, это лучший вариант текста, и при этом не хочется переделывать уже загруженные сканы, в которых текстовый слой плохой или отсутствует).</small> Если в файле уже есть распознанный текстовый слой, можно по-быстрому экспортировать его программой ''[http://www.stduviewer.ru STDU Viewer]'', но обычно он заметно хуже<ref>Обычно распознавание предустановленного текстового слоя делается в библиотеках, с целью лишь добавления грубого текстового поиска по файлу. Делается это в массовом автоматическом режиме, бесплатными утилитами неизвестного качества.</ref>, чем делает FineReader, и имеет проблему с утерей абзацев и таблиц.
 
; Использование FineReader
Открыть файл скана в FineReader. <small>(Возможно он потребует [[#Распознавание|распознать текст]], даже если в файле уже есть плохо распознанный текстовый слой.)</small> Далее, в меню ''«Файл» → «Сохранить документ как»'' выбрать вариант:
 
==== OpenOffice.org Writer ====
<small>(предпочтительный вариант)</small> [[w:OpenOffice Writer|OpenOffice]] — это бесплатный аналог MS Office. [http://www.openoffice.org/ru/ Установив его] и [http://extensions.services.openoffice.org/project/wikipublisher плагин-конвертор], надо включить плагин (в меню ''«Сервис» → «Управление расширениями»''). Далее, открываем наш файл в формате .odt, выбираем ''«Файл» → «Экспорт…» → «Тип файла» → «MediaWiki (.txt)»'', сохраняем.
 
==== FictionBook (FB2) ====
Выбрать «Параметры сохранения», проверить опции:
* ''«Форматированный текст»'' — сохраняет тэги курсивного и др. выделения слов, и таблицы.
* ''«Сохранять картинки»'' — если в документе они есть и хочется сделать пометки о них на страницах. Обратите внимание, что сами картинки в Викитеке таким образом не разместить.
Нажав «Ок» сохраняем файл.
 
Теперь надо конвертировать fb2 в wiki-текст. Открываем файл в [[w:Текстовый редактор|текстовом редакторе]] (для Windows рекомендуется редактор [[w:Notepad++|Notepad++]]; текстовый процессор типа MS Word не подходит). Можно просто скопировать текст в редактор Викитеки, и убирать теги в нём, но он медленный, что ощутимо на больших файлах, и сравнительно примитивный.
* Удаляем тэги заголовков <small>(<code><nowiki><body>, <?xml>, <FictionBook></nowiki></code> и т. п.)</small>.
* Заменяем тэг <code><nowiki>emphasis</nowiki></code> на <code><nowiki>em</nowiki></code> (кнопка ctrl-h или в меню ''«Поиск» → «Замена», «Заменить всё»'').
* Конвертация таблиц из формата html в wiki:
** [http://tools.wmflabs.org/magnustools/html2wiki.php Конвертер]. (Выкл. в нём опцию ''«Replace other HTML tags if possible»'', иначе он некорректно убирает тэги <code><nowiki><p></nowiki></code>, не перевода стро́ки. И для таблиц с короткими значениями в ячейках можно установить ''«Use one-line position of cells in a row»'' в ''«yes»''.)
** Конвертацию может делать бот Pwb скриптом [https://www.mediawiki.org/wiki/Manual:Pywikibot/Compat/table2wiki.py table2wiki.py].
<!-- написание в планах
* Меняем тэг картинок:
** <tr><td><image l:href="#image1.png"/></td></tr>
 
Проверьте, чтобы в правом-нижнем углу редактора в статусной строке было написано «UTF-8», в иной кодировке в тексте могут быть потеряны специальные символы и буквы.
-->
В некоторых подверсиях FineReader есть особенность, что он может сохранять fb2 с разбивкой на страницы скана (в файле создаются отдельные тэге <code><nowiki><section></nowiki></code>). Такой файл с разделителями страниц удобно заливать в пространство имён «Страница:», а также высчитывать номера страниц, указывая их в графе «источник» текстовых произведений.
 
==== Текстовый документ ====
В формате txt сохраняются лишь текстовые символы, без оформления, разметки таблиц, картинок. Настройка «Параметров сохранения»:
* ''«Форматированный текст»'' — включить.
* ''«Сохранять деление на строки»'' — выключить.
* ''«Разделять страницы символом конца страницы (#12)»''. Включить, если нужны маркеры — разделители страниц. Они могут быть необходимы при заливке текста в пространство имён «Страница:», создании словника, при публикации.
* ''«Разделять абзацы пустыми строками»'' — включить.
* ''«Сохранять колонтитулы»''. Колонтитулы лишь мешают при размещении текста в основном пространстве. Однако они могут быть желательны в пространстве имён «Страница:», где текст приводится в соответствие оригиналу.
* ''«Кодировка»'' — UTF-8.
Нажать «Ок». Далее выбрать одно из:
* ''«Создавать один файл для всех страниц»''.
* ''«Создавать отдельный файл для каждой страницы»'' — если нужно сохранить нумерацию страниц. При выборе этой опции документ сохранится во множестве файлов, нумерованных по порядку страниц скана. Сохраняем их в пустой папке, чтобы избежать казусов. Далее, открываем командную консоль Windows и переходим в эту папку<ref>http://ru.wikihow.com/соединить-текстовые-(TXT)-файлы-при-помощи-командной-строки</ref>, вводим команды: <syntaxhighlight lang="dosbatch">
> chcp 65001
> for %f in (*.txt) do (echo ^<newpage n="%f"/^> && type «%f») >> output.lst
</syntaxhighlight> Это создаст файл output.lst, состоящий из склеенных страниц, разделённых маркерами с нумерацией этих страниц. (Обратите внимание, что если запустите команду дважды, то файл допишется, поэтому перед перезапуском рекомендуется удалять этот файл.)
 
=== Разместите сканы на Викискладе ===
 
[[Файл:Polyglotta rkz.djvu|page=133|200px|thumb|Рис. 1. Djvu-файл как изображение]]
; Авторские права
Сканы текстов, не охраняемых авторским правом, как найденные в сети, так и произведенные специально для Викитеки, следует размещать на Викискладе. При этом важно выяснить, перешло ли само произведение в общественное достояние (ОД) — см. [[Справка:Авторские права]].
 
Фотографические копии произведений, находящихся в ОД, не могут быть защищены авторским правом, потому что в них отсутствует новизна. Сканированный документ находится в ОД даже при наличии современного добавления в виде надписи, не имеющей существенной творческой составляющей, или «лицензионного соглашения» с необоснованными претензиями на исключительные авторские права в отношении этого документа<ref>См. [[w:Bridgeman Art Library против Corel|Bridgeman Art Library против Corel]].</ref>.
 
; Загрузка
Используйте [https://commons.wikimedia.org/wiki/Special:UploadWizard мастер загрузки], или [https://commons.wikimedia.org/wiki/Commons:Upload/ru другую форму загрузки].
Допустимы форматы djvu, pdf, jpg и gif. Сканированные книги предпочтительно загружать как djvu или pdf, эти компактные форматы также позволяют сделать индексные страницы для удобной вычитки (см. ниже). При этом djvu и pdf-файлы можно просматривать/вставлять в статьи как обычные изображения (см., напр., рис. 1).
 
После загрузки файлу следует добавить тематические категории по тематике и авторам, а также категорию [[commons:Category:Scanned Russian texts]].
 
Размещая в Викитеке текст, сканы которого имеются на Викискладе, дайте на него ссылку в графе ИСТОЧНИК шаблона {{tl|Отексте}}:
: <code><nowiki>|ИСТОЧНИК={{Источник|Имя файла.djvu|Описание}}</nowiki></code>
 
Если Вы не можете загрузить файл на Викисклад по тем или иным причинам, напишите об этом на [[ВТ:Ф|нашем форуме]], указав адрес нужного файла в интернете.
 
=== Разместите в Викитеке и оформите ===
 
==== Индексы ====
 
'''Цель''': создание навигации по сканам, в т. ч. и разрозненным<!--Не описано как сделать индекс для нескольких разрозненных страниц. Я этого тоже не знаю. ChVA-->.
 
Создайте страницу в пространстве имён Индекс с названием, совпадающим с названием файла.
 
'''Пример''': [[:Файл:Lexicon-01 (Pluchart).djvu]] → [[Индекс:Lexicon-01 (Pluchart).djvu]].
 
Чтобы создать индекс (список страниц) для файла '''Название.djvu''', загруженного на Викисклад, откройте ['''[Файл:Название.djvu]]''' в Викитеке (обратите внимание, что файл Вы загружали на сайт <nowiki>commons.wikimedia.org</nowiki>, а теперь нужно найти его на сайте Викитеки <nowiki>ru.wikisource.org/wiki/Файл:<имя файла></nowiki>) и перейдите по ссылке «Ссылка на страницу индекса» (размещается вверху страницы). Если Индекса ещё не существует, появится форма<ref>Список полей формы можно редактировать участникам с соответствующими полномочиями, изменив страницу сообщений интерфейса [[MediaWiki:Proofreadpage index attributes]]. Внешний вид индекса может изменить участник с соответствующими полномочиями, изменив страницу сообщений интерфейса [[MediaWiki:Proofreadpage index template]].</ref>, при заполнении которой Вы можете его создать.
 
В поле '''«Страниц:»''' нужно вставить команду '''<nowiki><pagelist/></nowiki>''', которая создаёт список всех страниц файла.
 
По умолчанию все страницы нумеруются арабскими цифрами, начиная с единицы. Часто нужно изменить порядок нумерации, т. к. в сканированном файле могут быть титульный лист (не нумеруется), блок предисловия (имеет отдельную нумерацию), вклейки (не нумеруются) и т. п. Для корректного отображения номеров страниц в индексе применяются параметры команды '''<nowiki><pagelist/></nowiki>''':
 
<pre><pagelist from=X to=Y Z=foo AtoB=bar /></pre>
 
Здесь X, Y, A, B и Z — номера страниц (имеются в виду фактические страницы файла), например '''from=1 to=100'''. Например, команда:
 
<pre><pagelist from=1 to=100 5="-"/></pre>
 
создаст список из ста страниц, пятая будет отображаться прочерком.
 
Если нужно вывести '''все''' страницы книги, то параметры '''from''' и '''to''' можно не указывать.
 
Для задания стиля отображения целому диапазону страниц используется параметр AtoB, например, '''20to30'''. Так, команда
 
<pre><pagelist 10to20="-"/></pre>
 
создаст список всех страниц файла, страницы с 10 по 20 будут отображены прочерком.
 
'''Чтобы создать нумерацию римскими цифрами''', используйте параметр «roman» или «highroman» (малые и большие римские цифры соответственно). Например, чтобы страница 4 выводилась римскими цифрами, нужно написать '''4=roman''', чтобы страницы с 10 по 20 выводились римскими цифрами, нужно написать 10to20=roman. Так, команда
 
<pre><pagelist 10to20=roman/></pre>
 
создаст список всех страниц файла, страницы с 10 по 20 будут отображены римскими цифрами.
 
'''Чтобы не отображать номера страниц''', используйте параметр «empty».
 
<pre><pagelist 10to20=empty/></pre>
 
'''Чтобы начать нумерацию заново''' с какой-то цифры, следует использовать параметр N=X, где N — номер физической страницы в файле, X — желаемый номер. Например, 3=1 — начиная с третьей страницы файла страницы будут нумероваться заново, начиная с единицы.
 
Рассмотрим конкретный пример с часто встречающейся ситуацией. Допустим, в отсканированном файле (djvu или pdf) 200 страниц, первые две — обложка и форзац (не нумеруются), дальше 10 страниц предисловия (нумеруется римскими цифрами), с тринадцатой страницы начинается основной текст, нумеруемый арабскими цифрами с единицы, в середине книги (начиная с 210-й страницы файла) находится 10 страниц вклеек (не нумеруются), последние две страницы файла (501 и 502) — скан заднего форзаца и обложки (не нумеруются). Чтобы описать такую ситуацию, используем команду
 
<pre><pagelist 1to2="-" 3to12=roman 3=1 13=1 210to219="-" 220=198 501to502="-"/></pre>
 
См. для примера [[Индекс:Spisok voennyh sudov 1688-1850.djvu]]
 
Все индексы собраны в [[:Категория:Индекс]].
 
В зависимости от уровня готовности ([[#Страницы|см. ниже]]) страницы в этом списке окрашиваются в один из цветов, соответствующих этому уровню.
 
Список индексов с уровнями их готовности можно посмотреть [[Служебная:IndexPages|здесь]].
 
==== Страницы ====
 
Создав документ [[Страница:Название.djvu/Номер страницы]] или просто нажав на красные ссылки в индексе, можно перейти на соответствующую страницу djvu-файла: при этом справа появится скан, который можно сохранить как jpg-рисунок, слева — окно для ввода текста.
 
В Викитеке нет встроенной возможности распознавания текста, но имеется возможность обратиться к другим участникам Викитеки с просьбой срочно распознать ту или иную страницу. Для этого следует разместить на соответствующей странице шаблон {{tl|OCR}}.
 
Среди кнопок, появляющихся над окном для ввода текста, следует обратить внимание на '''[+]'''. Нажав её, можно открыть ещё два окна — верхний и нижний колонтитулы.
 
Если нужно увеличить фрагмент изображения, достаточно кликнуть по нему мышкой и затем выделить прямоугольный фрагмент — этот фрагмент растянется на всё окно вывода изображения.
 
После редактирования текста нужно установить для него степень готовности.
 
Устанавливаются четыре уровня готовности текстов:
 
<center>
{|
|-
|colspan = 2, align=center| ↗ <span class=quality0>Без текста</span>
|
|-
|<span style="color:#C00000">''пустая страница'' </span>
|→ <span class=quality1>Не вычитана</span>
|→ <span class=quality3>Вычитана</span>
|→ <span class=quality4>Проверена</span>
|-
|
|colspan = 2, align=center| ↘ <span class=quality2>Проблемная</span> ↗
|}
</center>
 
Последний уровень готовности ('''Проверена''') можно установить только для страниц, которые уже имеют уровень готовности '''Вычитана''', причём установить его может только другой редактор. Таким образом, эта степень готовности требует работы над текстом не менее двух участников.
 
Все страницы по степени вычитки упорядочены в [[:Категория:Вычитка страниц]].
 
Викитека не претендует на полное сохранение оформления текстов (размер и гарнитура шрифта, точное положение на странице и т. п.). Достаточно разумного приближения к этому оформлению с обязательным сохранением самого текста в полном объёме (за исключением номеров страниц и типографских пометок).
 
===== Автоматическое извлечение текстового слоя =====
 
Форматы pdf и djvu могут содержать текстовый слой. В Викитеке реализовано и работает автоматическое извлечение текстового слоя для форматов djvu и pdf — он появится при первом редактировании страницы.
 
===== Особенности заполнения страницы со старой орфографией =====
 
# Если предполагается создавать текст в основном пространстве при помощи шаблона {{tl|Страница}} (см. ниже), то можно порекомендовать использовать удобный шаблон {{tl|ВАР}} — на каждой странице можно записать текст и в старой, и в новой орфографии (см. [[Страница:Lobachevsky (Syn otechestva).djvu/3|пример]]), а потом при создании страницы в основном пространстве имён будет автоматически выбран подходящий вариант в зависимости от того, имеется ли суффикс ДО («дореформенная орфография») или нет.
# Для текстов в ДО в верхний колонтитул (открывается кнопкой '''[+]''' вверху страницы) следует добавить <nowiki><div class="oldspell"></nowiki> или <nowiki><div class="oldspell-indent"></nowiki>, в нижний — <nowiki></div></nowiki> — это улучшит читаемость текста.
 
==== Тексты ====
 
Теперь нужно перенести текст из пространства имён Страница в основное пространство имён. Это можно сделать тремя способами.
 
===== Первый способ вставки (c помощью Labeled Section Transclusion extension) =====
 
Воспользоваться установленным для Викитеки расширением [http://www.mediawiki.org/wiki/Extension:Labeled_Section_Transclusion Labeled Section Transclusion]. Для того чтобы поместить текст страницы целиком, используется такой формат:
 
<pre>{{#lst:НАЗВАНИЕ_ СТРАНИЦЫ}}</pre>
 
Здесь НАЗВАНИЕ_ СТРАНИЦЫ — название страницы вместе с соответствующим обозначением пространства имён (например, '''Страница:Анна Каренина part 1-4.pdf/14'''). Пример оформления такого включения:
 
<pre>{{#lst:Страница:Страница:Анна Каренина part 1-4.pdf/14}}</pre>
 
Часто возникает ситуация, когда нужно включить только ''часть'' какой-то страницы (например, когда на одной странице находится и окончание предыдущей главы, и начало следующей). В этом случае на странице помечаются секции. Для этого нужно заключить нужную часть между тегами <nowiki><section begin=НАЗВАНИЕ_СЕКЦИИ /></nowiki> и <nowiki><section end=НАЗВАНИЕ_СЕКЦИИ /></nowiki>. Например, если на одной странице есть окончание третьей главы и начало четвёртой, следует оформить её так:
 
<pre>
<section begin=III />
Здесь текст окончания третьей главы.
<section end=III />
<section begin=IV />
Здесь текст начала четвертой главы.
<section end=IV />
</pre>
 
Для того чтобы вставить только текст из определенной секции, нужно написать
 
<pre>{{#lst:НАЗВАНИЕ_ СТРАНИЦЫ|НАЗВАНИЕ_СЕКЦИИ}}</pre>
 
Вы можете посмотреть реальный пример такого оформления на странице [[Страница:Анна Каренина part 1-4.pdf/14]]. Для этой страницы вставка будет выглядеть следующим образом:
 
а) чтобы ''вставить всю страницу целиком'' (конец третьей главы и начало четвёртой):
 
<pre>{{#lst:Страница:Анна Каренина part 1-4.pdf/14}}</pre>
 
б) чтобы ''вставить только конец третьей главы'':
 
<pre>{{#lst:Страница:Анна Каренина part 1-4.pdf/14|III}}</pre>
 
в) чтобы ''вставить только начало четвёртой главы'':
 
<pre>{{#lst:Страница:Анна Каренина part 1-4.pdf/14|IV}}</pre>
 
В качестве названия секции можно использовать любой набор символов. Однако названия, содержащие пробелы, диакритические знаки или русские буквы интерпретируются корректно, если брать их '''в кавычки'''. Напр., на стр. [[Страница:Annenkov1878 bot slovar.djvu/25]] словарная статья [[Ботанический словарь (Анненков)/Abrōma/ДО|Abrōma]] выделена след. образом:
<pre><section begin="Abrōma"/>{{Razr|{{langb|la|Abrōma}}}} ... <section end="Abrōma" /></pre>
Вместо набора тегов можно использовать сокращенную форму, напр.,
<pre>## "Agaricus conicus" ##
Текст секции Agaricus conicus
## "Agaricus deliciosus" ##
Текст секции Agaricus deliciosus</pre>
 
===== Второй способ вставки (c помощью шаблона {{tl|Страница}}) =====
 
Более удобный способ — использование шаблона {{tl|Страница}} (особенности применения шаблона см. на его странице описания). Этот шаблон позволяет не только вставить содержимое страницы, но и указать её номер слева от текста.
 
'''Важно'''. Для применения этого шаблона нужно указать достаточный отступ (поля страницы). Это можно сделать заключив текст между шаблонами {{tl|OCR-on}} и {{tl|OCR-off}} или указать стиль <nowiki><div style="margin:0 auto;text-align:justify;width:45em;" class="pagetext"></nowiki>.
 
Пример применения шаблона.
 
а) чтобы ''вставить всю страницу целиком'' (конец третьей главы и начало четвёртой) и при этом указать номер страницы (16-я):
 
<pre>{{OCR-on}}
{{Страница|Анна Каренина part 1-4.pdf/14|num=16}}
{{OCR-off}}</pre>
 
б) чтобы ''вставить только конец третьей главы'' (также указав при этом номер страницы):
 
<pre>{{OCR-on}}
{{Страница|Анна Каренина part 1-4.pdf/14|num=16|section=III}}
{{OCR-off}}</pre>
 
в) чтобы ''вставить только начало четвёртой главы'':
 
<pre>{{OCR-on}}
{{Страница|Анна Каренина part 1-4.pdf/14|num=16|section=IV}}
{{OCR-off}}</pre>
 
Содержимое колонтитулов страницы при этом игнорируется.
 
===== {{якорь|pages}}Третий способ вставки (c помощью команды &lt;pages/&gt;) =====
 
Команда <nowiki><pages/></nowiki> наиболее удобна, т. к. позволяет быстро включить целый диапазон страниц с уже заполненным верхним и нижним колонтитулами<ref>Содержание верхнего и нижнего колонтитулов устанавливается на страницах системных сообщений [[MediaWiki:Proofreadpage header template]] и [[MediaWiki:Proofreadpage footer template]] соответственно. Эти страницы может редактировать только участник с выделенными полномочиями</ref>, а также нумерацией страниц<ref>нумерация страниц используется непосредственно со страницы индексов (см. выше описание команды <nowiki><pagelist/></nowiki>), а внешний вид её устанавливается системным сообщением [[MediaWiki:Proofreadpage pagenum template]], это сообщение может редактировать только участник с выделенными полномочиями.</ref>. В русской Викитеке нижний колонтитул по умолчанию пустой, а для верхнего используется стандартный шаблон {{tl|Отексте}}, которому из индекса передаются параметры Автор книги, Название книги, Год публикации и Источник<ref>Список этих передающихся из индекса параметров устанавливается системным сообщением [[MediaWiki:Proofreadpage js attributes]]. Это сообщение может редактировать только участник с выделенными полномочиями.</ref>
 
Автоматически передаются также данные для следующей части, предыдущей и текущей. Чтобы эта функция работала, нужно соблюсти такие условия:
 
а) на странице индекса создать оглавление со ссылками на части (главы, разделы) в основном пространстве<br />
б) количество ссылок в основном пространстве должно быть равно числу частей (глав, разделов) + 1, при этом первая ссылка должна быть в поле индекса Заголовок (Название книги).
 
Если в индексе будут ещё ссылки в основном пространстве имён, то переходы корректно не будут работать. Чтобы сделать ссылку на каждой странице на страничку автора, просто напишите его имя в соответствующем поле индекса в полной форме (как называется страничка автора) или сделайте перенаправление с краткого имени.
 
Применение команды <nowiki><pages/></nowiki>:
 
<pre>
<pages index="НАЗВАНИЕ_ИНДЕКСА" from=СТРАНИЦА1 to=СТРАНИЦА2 />
</pre>
 
При такой записи команды вставляются только страницы со СТРАНИЦА1 по СТРАНИЦА2 включительно, при этом каждой странице предваряется её номер. В русской Викитеке номера отображаются слева от текста, поэтому, как и в случае с использованием шаблона {{tl|Страница}}, нужно задать достаточные поля, либо заключив команду между шаблонами {{tl|OCR-on}} и {{tl|OCR-off}}, либо указав стиль <nowiki><div style="margin:0 auto;text-align:justify;width:45em;" class="pagetext"></nowiki>, либо задав в качестве параметра '''header=2''' (см. ниже). Кликнув на номер, можно открыть страницу для редактирования.
 
Ещё удобнее применять команду <nowiki><pages/></nowiki> с параметром header. В этом случае автоматически подставляются верхний и нижний колонтитул, как указано в начале этого раздела.
 
<pre>
<pages header=1 index="НАЗВАНИЕ_ИНДЕКСА" from=СТРАНИЦА1 to=СТРАНИЦА2 />
</pre>
 
Параметр header определяет, как будет выглядеть текст
 
{|class="standard"
! Значение параметра header !! Что происходит с текстом
|-
| 1, 1001, 2001, 3001, 4001, 5001 || Выводится только заголовок. Поля и стиль текста нужно определять самостоятельно
|-
| 2, 1002, 2002, 3002, 4002, 5002 || Выводится заголовок и автоматически задаются поля при помощи шаблонов {{tl|OCR-on}} и {{tl|OCR-off}}
|-
| 3, 1003, 2003, 3003, 4003, 5003 || Выводится заголовок, автоматически задаются поля при помощи шаблонов {{tl|OCR-on}} и {{tl|OCR-off}}, текст оформляется стилем «indent»
|-
| 4, 1004, 2004, 3004, 4004, 5004 || Выводится заголовок, автоматически задаются поля при помощи шаблонов {{tl|OCR-on}} и {{tl|OCR-off}}, текст оформляется стилем «text»
|-
| 5, 1005, 2005, 3005, 4005, 5005 || Выводится заголовок, автоматически задаются поля при помощи шаблонов {{tl|OCR-on}} и {{tl|OCR-off}}, текст оформляется стилем «oldspell»
|-
| 6, 1006, 2006, 3006, 4006, 5006 || Выводится заголовок, автоматически задаются поля при помощи шаблонов {{tl|OCR-on}} и {{tl|OCR-off}}, текст оформляется стилем «oldspell-indent»
|-
| 7, 1007, 2007, 3007, 4007, 5007 || Выводится заголовок, автоматически задаются поля при помощи шаблонов {{tl|OCR-poem-on}} и {{tl|poem-off}} (для стихотворений)
|}
 
В этой записи число тысяч соответствует уровню качества текста, как принято кодировать в шаблоне {{tl|Отексте}} (то есть header=1004 и header=4004 выдадут одинаковое оформление, но в первом случае качество будет 1 (25 %), а во втором — 4 (100 %)). Уровень качества 5 (т. е. значения параметра header 5001, 5002, 5003, 5004 и 5005) подавляет вывод категории КАЧЕСТВО.
 
Чтобы указать, какие разделы (section) нужно включить, используйте параметры fromsection=СЕКЦИЯ1 и tosection=СЕКЦИЯ2.
 
'''Пример:'''
 
Чтобы включить текст третьей главы [[Индекс:Анна Каренина part 1-4.pdf|романа Л. Н. Толстого Анна Каренина издания 1903 года]] (страницы в книге 11—16, фактические страницы в индексе — 9—14) со вставкой колонтитула, нужно написать:
 
<pre>
{{OCR-on}}<div class="indent">
<pages header=1 index="Анна Каренина part 1-4.pdf" from=9 to=14 fromsection=III tosection=III/>
{{OCR-off}}</div>
</pre>
 
В этой записи:
* шаблоны '''{{tl|OCR-on}}''' и '''{{tl|OCR-off}}''' устанавливают поля
* определение класса '''<nowiki><div class="indent">...</div></nowiki>''' задаёт отступы для абзацев
* параметр '''header=1''' указывает, что надо выводить колонтитул (на базе шаблона {{tl|Отексте}} с указанием названия книги, автора, даты публикации и источника)
* параметры '''from=9''' и '''to=14''' указывает, какие страницы индекса нужно включать (обратите внимание, что указывать следует фактические страницы индекса, но нумерация страниц будет соответствовать нумерации книги, как это задано командой <nowiki><pagelist/></nowiki>)
* параметры '''fromsection=III''' и '''tosection=III''' указывают, какие именно секции (разделы) в первой и последней страницах диапазона нужно включать (в нашем случае для первой страницы — начало третьей главы, для последней — её окончание)
 
'''Пример:'''
 
Чтобы включить текст третьей главы [[Индекс:Анна Каренина part 1-4.pdf|романа Л. Н. Толстого Анна Каренина издания 1903 года]] (страницы в книге 11—16, фактические страницы в индексе — 9—14) со вставкой колонтитула, нужно написать:
 
<pre>
<div class="indent">
<pages header=2 index="Анна Каренина part 1-4.pdf" from=9 to=14 fromsection=III tosection=III/>
</div>
</pre>
 
Этот пример отличается от предыдущего только тем, что в нём не задаются поля при помощи шаблонов {{tl|OCR-on}} и {{tl|OCR-off}}, а добавляются автоматически (так как используется параметр header=2, а не header=1).
 
'''Пример:'''
 
Чтобы включить текст третьей главы [[Индекс:Анна Каренина part 1-4.pdf|романа Л. Н. Толстого Анна Каренина издания 1903 года]] (страницы в книге 11—16, фактические страницы в индексе — 9—14) со вставкой колонтитула, нужно написать:
 
<pre>
<pages header=3 index="Анна Каренина part 1-4.pdf" from=9 to=14 fromsection=III tosection=III/>
</pre>
 
Этот пример отличается от предыдущего только тем, что в нём не задаётся вручную оформление текста стилем «indent», это происходит автоматически, т. к. указан параметр header=3.
 
===== Соединение страниц =====
 
Все три упомянутых выше способа соединяют страницы, добавляя между ними пробел. Это полезно, когда на следующей странице идёт продолжение абзаца, начатого на предыдущей, но может быть вредным в двух случаях:
 
====== Перенос слова ======
а) На предыдущей странице находится слово, разорванное переносом и оканчивающееся на следующей странице.
 
В этом случае слово оборачивают в шаблон {{t|перенос}}: на первой странице пишется <code>{{nobr|<nowiki>{{перенос|сло|во}}</nowiki>}}</code>, на второй — <code>{{nobr|<nowiki>{{перенос2|сло|во}}</nowiki>}}</code>. Соответственно, на первой странице отобразится <code>сло-</code>, на второй — <code>во</code>.
 
Другой вариант: На странице печатают начало слова, до знака переноса, затем, в окружении тега '''includeonly''' остаток слова. На следующей странице в начале печатают окончание слова с последующим пробелом в окружении тега '''noinclude'''.
 
Пример, если в конце страницы разорванное слово «успешный» написано «успеш-ный», то оформление следует делать так:
 
В конце первой страницы:
 
<pre>
успеш<noinclude>-</noinclude><includeonly>ный</includeonly>
</pre>
 
В начале следующей страницы:
 
<pre>
<noinclude>ный </noinclude>
</pre>
 
Обратите внимание на пробел после «ный» внутри тега.
 
====== Новый абзац ======
б) Новая страница начинается новым абзацем. С этим можно бороться двумя путями.
 
'''Нерекомендованный''' способ (при использовании Labeled Section Transclusion и шаблона {{tl|Страница}}) — располагать строки не подряд, а с отступом на одну строку, например:
 
<pre>
{{#lst:Страница:Анна Каренина part 1-4.pdf/216}}
 
{{#lst:Страница:Анна Каренина part 1-4.pdf/217}}
 
</pre>
или
 
<pre>
{{Страница|Анна Каренина part 1-4.pdf/216|num=218}}
 
{{Страница|Анна Каренина part 1-4.pdf/217|num=219}}
</pre>
 
'''Рекомендованный''' способ — сразу при правке страницы, которая начинается новым абзацем, оставлять сверху одну строку отступа. Так как пустая строка отступа автоматически удаляется при сохранении, нужно поставить пустой комментарий (<nowiki><!----></nowiki>).
 
<pre>
<!---->
 
Начало нового абзаца.
</pre>
 
См. [[Страница:Анна Каренина part 1-4.pdf/13|пример]].
 
===== Цветовой индикатор =====
 
На каждой странице в основном пространстве, где есть включение текста из пространства Страница, вы можете видеть цветовой индикатор в верхней части страницы, под названием (см. [[Анна Каренина (Толстой)/Часть I/Глава III/ДО|пример]]). Этот индикатор позволяет кратко оценить качество подготовки страниц, использованных в этом тексте.
 
Например, если индикатор выглядит так:
 
<div title="Этот индикатор показывает степень подготовки текста. Зелёный цвет — проверенные страницы, жёлтый — вычитанные, красный — не вычитанные.">
<table style="line-height:40%;" border=0 cellpadding=0 cellspacing=0 ><tr>
<td align=center > </td>
<td align=center class='quality4' width="40">&nbsp;</td>
<td align=center class='quality3' width="30">&nbsp;</td>
<td align=center class='quality2' width="5">&nbsp;</td>
<td align=center class='quality1' width="25">&nbsp;</td>
<td align=center class='quality0' width="0">&nbsp;</td>
</tr></table></div>
 
В этом примере 40 % текста проверено, 30 % вычитано, 25 % не вычитано, 5 % — проблемные страницы. Он содержит также скрытую ссылку на индекс, которая может быть перехвачена локальным яваскриптом.
 
== Шаблоны ==
Строка 586 ⟶ 95 :
 
== Примечания ==
{{примечания}}
 
{{Навигация
|Викиучебник = Оцифровка печатных текстов
|Википедия = Оцифровка книг
|Викисклад = Category:Scanned Russian texts
}}
<references />
 
[[Категория:Викитека:Проекты]]