Задания для участников

Целью проекта является совместная работа по распознаванию и сверке отсканированных текстов. Сами сканы хранятся на Викискладе, для сверки текста и скана в Викитеке используются специальные пространства имен Индекс и Страница.

Технически работа по вычитке и сверке текстов со сканами происходит с помощью установленного расширения Proofread Page (обсуждение расширения см. в oldwikisource).

Последовательность действийПравить

Отсканируйте, распознайте, конвертируйтеПравить

Большие файлы сканов книг желательно конвертировать со сжатием, для ускорения их загрузки и упрощения использования. Также, существует лимит в 100 Мб на размер файла загружаемого на Викисклад или в Викитеку, поэтому большие файлы надо ещё и разделять.

Конвертация файла обычно приводит к уменьшению его размера без существенной потери качества, поэтому в общем рекомендуется конвертировать все файлы. Разрешение лучше делать до 300—400 dpi, а для текста с мелким кеглем — до 600 dpi[1]. Конвертировать можно в формат djvu, или в pdf, с режимами MRC и Precise Scan программы FineReader, дающими лучше качество и/или сжатие, чем djvu (см. ниже).

Однако, не для всех книг рекомендуется конвертация. Например, в сканах словарей могут содержаться мелкие и тонкие шрифты (греческий алфавит), мелкие иллюстрации, рукописные надписи. Сжатие необратимо повредит их, ухудшив возможное последующее OCR-распознавание. Поэтому, при конвертировании лучше добавлять в файл распознанный текст оригинала, как резервный источник оригинальной информации, и в описании загруженного файла указывать ссылку на оригинал.

Выбор программы

Обычно бесплатные конверторы[2] медленны, — используют только 1 ядро процессора и плохо оптимизированы. Поэтому по возможности лучше использовать профессиональные программы, из которых практически не имеет конкуренции коммерческий ABBYY FineReader.

FineReader, перед ковертацией в djvu, требует распознавания текста. Итого потребуется 3 операции: 1) анализ книги — конвертация в формат FineReader, с разметкой областей текста и картинок; 2) распознавание; 3) запись в djvu.

Время обработки файла

Открытие, распознавание, и запись могут занять до 1-2 часов машинного времени. Но в сложных случаях может три дня.

  Ввиду длительности операций имеются риск потратить впустую десятки часов работы, получив некачественный документ из-за неточных настроек. Поэтому предварительно стоит тестировать настройки на отдельных страницах скана (опции «сохранить выбранные страницы как…» и в меню «Страница»).

РаспознаваниеПравить

Тип страниц в файле скана

Файл pdf и djvu представляют собой пакет из изображений (в форматах jpeg, gif) постраничных сканов документа. В нём может присутствовать отдельный текстовый слой, который необходим для Викитеки, если его нет, то текст надо распознать. Реже, изображений страниц нет, а текст изначально хранится в особом формате (как в MS Word). Формат файла выясняется при масштабировании текста сканированной страницы[3]:

Тип страниц в pdf Признаки Рекомендации
Векторные шрифты Края букв ровные при любом увеличении, без «лесенки» из пикселей Хорошее сжатие без потери качества.
Растровое чёрно-белое изображение Видны точки пикселей Можно использовать опции типа «чёрно-белый режим» и сжатие.
Растровый jpg с градациями яркости Буквы состоят из точек разных оттенков Лучше включить «сохранить оригинальное изображение», оставить включённым «цветной» или «серый» режим, и выключить сжатие.

Примечание: В FineReader замечена особенность, что при выборе опции «сохранить исходное разрешение» по умолчанию включается «сжимать, с потерей качества до 80 %». Поэтому лучше выбирать «Пользовательское…» и явно запретить сжатие.
Однако, при этом визуально djvu выглядит также плохо, хотя размер файла увеличивается в 3 раза, становясь почти равным оригиналу.
Такая конвертация бессмысленна и вредна, из-за потери качества.

Выбор языков документа

Для качественного распознавания надо уточнить языки документа в настройках FineReader.

  • Если в книге лишь изредка встречаются иностранные слова, лучше оставить только поддержку русского языка. Иначе, половина текста ошибочно распознается как иностранные буквы[4]. К тому же, лишние словари замедляют работу.
  • По возможности не включать редкие языки, они могут распознаются некачественно[5].
Словари

FineReader использует словари, существенно улучшающие точность распознавания. Можно пополнить словарь часто используемыми в книге терминами — сокращениями, специальной терминологией.

После выбора языков и пополнения словаря можно запускать распознавание, которое займёт до часа, или несколько часов в сложных случаях.

Сохранение файлаПравить

О сохранении только текстового слоя см. раздел ниже.

Выбор формата конвертации
Формат Рекомендации
djvu[2] На обычном тексте даёт уменьшение размера документа без существенной потери качества. На книгах с мелким текстом применять с предварительным тестированием.
pdf с опцией сохранения MRC[6] (программы FineReader) По сравнению с djvu сжатие и качество лучше, при этом файл может открываться почти во всех читалках. Режим заимствован из djvu.
pdf с опцией сохранения Precise Scan[7] (FineReader) Сжатие меньше, но сглаживаются «лесенки пикселей» присутствующие в предыдущих форматах[8].

Открытый и записанный в том же формате файл не идентичен оригиналу (обычно хуже). Поскольку при открытии файла он программно обрабатывается.

Сохранение только распознанного текстаПравить

Бывает, что надо опубликовать только распознанный текст без скана. (Например, это лучший вариант текста, и при этом не хочется переделывать уже загруженные сканы, в которых текстовый слой плохой или отсутствует). Если в файле уже есть распознанный текстовый слой, можно по-быстрому экспортировать его программой STDU Viewer, но обычно он заметно хуже[9], чем делает FineReader, и имеет проблему с утерей абзацев и таблиц.

Использование FineReader

Открыть файл скана в FineReader. (Возможно он потребует распознать текст, даже если в файле уже есть плохо распознанный текстовый слой.) Далее, в меню «Файл» → «Сохранить документ как» выбрать вариант:

OpenOffice.org WriterПравить

(предпочтительный вариант) OpenOffice — это бесплатный аналог MS Office. Установив его и плагин-конвертор, надо включить плагин (в меню «Сервис» → «Управление расширениями»). Далее, открываем наш файл в формате .odt, выбираем «Файл» → «Экспорт…» → «Тип файла» → «MediaWiki (.txt)», сохраняем.

FictionBook (FB2)Править

Выбрать «Параметры сохранения», проверить опции:

  • «Форматированный текст» — сохраняет тэги курсивного и др. выделения слов, и таблицы.
  • «Сохранять картинки» — если в документе они есть и хочется сделать пометки о них на страницах. Обратите внимание, что сами картинки в Викитеке таким образом не разместить.

Нажав «Ок» сохраняем файл.

Теперь надо конвертировать fb2 в wiki-текст. Открываем файл в текстовом редакторе (для Windows рекомендуется редактор Notepad++; текстовый процессор типа MS Word не подходит). Можно просто скопировать текст в редактор Викитеки, и убирать теги в нём, но он медленный, что ощутимо на больших файлах, и сравнительно примитивный.

  • Удаляем тэги заголовков (<body>, <?xml>, <FictionBook> и т. п.).
  • Заменяем тэг emphasis на em (кнопка ctrl-h или в меню «Поиск» → «Замена», «Заменить всё»).
  • Конвертация таблиц из формата html в wiki:
    • Конвертер. (Выкл. в нём опцию «Replace other HTML tags if possible», иначе он некорректно убирает тэги <p>, не перевода стро́ки. И для таблиц с короткими значениями в ячейках можно установить «Use one-line position of cells in a row» в «yes».)
    • Конвертацию может делать бот Pwb скриптом table2wiki.py.

В некоторых подверсиях FineReader есть особенность, что он может сохранять fb2 с разбивкой на страницы скана (в файле создаются отдельные тэге <section>). Такой файл с разделителями страниц удобно заливать в пространство имён «Страница:», а также высчитывать номера страниц, указывая их в графе «источник» текстовых произведений.

Текстовый документПравить

В формате txt сохраняются лишь текстовые символы, без оформления, разметки таблиц, картинок. Настройка «Параметров сохранения»:

  • «Форматированный текст» — включить.
  • «Сохранять деление на строки» — выключить.
  • «Разделять страницы символом конца страницы (#12)». Включить, если нужны маркеры — разделители страниц. Они могут быть необходимы при заливке текста в пространство имён «Страница:», создании словника, при публикации.
  • «Разделять абзацы пустыми строками» — включить.
  • «Сохранять колонтитулы». Колонтитулы лишь мешают при размещении текста в основном пространстве. Однако они могут быть желательны в пространстве имён «Страница:», где текст приводится в соответствие оригиналу.
  • «Кодировка» — UTF-8.

Нажать «Ок». Далее выбрать одно из:

  • «Создавать один файл для всех страниц».
  • «Создавать отдельный файл для каждой страницы» — если нужно сохранить нумерацию страниц. При выборе этой опции документ сохранится во множестве файлов, нумерованных по порядку страниц скана. Сохраняем их в пустой папке, чтобы избежать казусов. Далее, открываем командную консоль Windows и переходим в эту папку[10], вводим команды:
    > chcp 65001
    > for %f in (*.txt) do (echo ^<newpage n="%f"/^> && type «%f») >> output.lst
    
    Это создаст файл output.lst, состоящий из склеенных страниц, разделённых маркерами с нумерацией этих страниц. (Обратите внимание, что если запустите команду дважды, то файл допишется, поэтому перед перезапуском рекомендуется удалять этот файл.)

Разместите сканы на ВикискладеПравить

 
Рис. 1. Djvu-файл как изображение
Авторские права

Сканы текстов, не охраняемых авторским правом, как найденные в сети, так и произведенные специально для Викитеки, следует размещать на Викискладе. При этом важно выяснить, перешло ли само произведение в общественное достояние (ОД) — см. Справка:Авторские права.

Фотографические копии произведений, находящихся в ОД, не могут быть защищены авторским правом, потому что в них отсутствует новизна. Сканированный документ находится в ОД даже при наличии современного добавления в виде надписи, не имеющей существенной творческой составляющей, или «лицензионного соглашения» с необоснованными претензиями на исключительные авторские права в отношении этого документа[11].

Загрузка

Используйте мастер загрузки, или другую форму загрузки. Допустимы форматы djvu, pdf, jpg и gif. Сканированные книги предпочтительно загружать как djvu или pdf, эти компактные форматы также позволяют сделать индексные страницы для удобной вычитки (см. ниже). При этом djvu и pdf-файлы можно просматривать/вставлять в статьи как обычные изображения (см., напр., рис. 1).

После загрузки файлу следует добавить тематические категории по тематике и авторам, а также категорию commons:Category:Scanned Russian texts.

Размещая в Викитеке текст, сканы которого имеются на Викискладе, дайте на него ссылку в графе ИСТОЧНИК шаблона {{Отексте}}:

|ИСТОЧНИК={{Источник|Имя файла.djvu|Описание}}

Если Вы не можете загрузить файл на Викисклад по тем или иным причинам, напишите об этом на нашем форуме, указав адрес нужного файла в интернете.

Разместите в Викитеке и оформитеПравить

ИндексыПравить

Цель: создание навигации по сканам, в т. ч. и разрозненным.

Создайте страницу в пространстве имён Индекс с названием, совпадающим с названием файла.

Пример: Файл:Lexicon-01 (Pluchart).djvuИндекс:Lexicon-01 (Pluchart).djvu.

Чтобы создать индекс (список страниц) для файла Название.djvu, загруженного на Викисклад, откройте [[Файл:Название.djvu]] в Викитеке (обратите внимание, что файл Вы загружали на сайт commons.wikimedia.org, а теперь нужно найти его на сайте Викитеки ru.wikisource.org/wiki/Файл:<имя файла>) и перейдите по ссылке «Ссылка на страницу индекса» (размещается вверху страницы). Если Индекса ещё не существует, появится форма[12], при заполнении которой Вы можете его создать.

В поле «Страниц:» нужно вставить команду <pagelist/>, которая создаёт список всех страниц файла.

По умолчанию все страницы нумеруются арабскими цифрами, начиная с единицы. Часто нужно изменить порядок нумерации, т. к. в сканированном файле могут быть титульный лист (не нумеруется), блок предисловия (имеет отдельную нумерацию), вклейки (не нумеруются) и т. п. Для корректного отображения номеров страниц в индексе применяются параметры команды <pagelist/>:

<pagelist from=X to=Y Z=foo AtoB=bar />

Здесь X, Y, A, B и Z — номера страниц (имеются в виду фактические страницы файла), например from=1 to=100. Например, команда:

<pagelist from=1 to=100 5="-"/>

создаст список из ста страниц, пятая будет отображаться прочерком.

Если нужно вывести все страницы книги, то параметры from и to можно не указывать.

Для задания стиля отображения целому диапазону страниц используется параметр AtoB, например, 20to30. Так, команда

<pagelist 10to20="-"/>

создаст список всех страниц файла, страницы с 10 по 20 будут отображены прочерком.

Чтобы создать нумерацию римскими цифрами, используйте параметр «roman» или «highroman» (малые и большие римские цифры соответственно). Например, чтобы страница 4 выводилась римскими цифрами, нужно написать 4=roman, чтобы страницы с 10 по 20 выводились римскими цифрами, нужно написать 10to20=roman. Так, команда

<pagelist 10to20=roman/>

создаст список всех страниц файла, страницы с 10 по 20 будут отображены римскими цифрами.

Чтобы не отображать номера страниц, используйте параметр «empty».

<pagelist 10to20=empty/>

Чтобы начать нумерацию заново с какой-то цифры, следует использовать параметр N=X, где N — номер физической страницы в файле, X — желаемый номер. Например, 3=1 — начиная с третьей страницы файла страницы будут нумероваться заново, начиная с единицы.

Рассмотрим конкретный пример с часто встречающейся ситуацией. Допустим, в отсканированном файле (djvu или pdf) 200 страниц, первые две — обложка и форзац (не нумеруются), дальше 10 страниц предисловия (нумеруется римскими цифрами), с тринадцатой страницы начинается основной текст, нумеруемый арабскими цифрами с единицы, в середине книги (начиная с 210-й страницы файла) находится 10 страниц вклеек (не нумеруются), последние две страницы файла (501 и 502) — скан заднего форзаца и обложки (не нумеруются). Чтобы описать такую ситуацию, используем команду

<pagelist 1to2="-" 3to12=roman 3=1 13=1 210to219="-" 220=198 501to502="-"/>

См. для примера Индекс:Spisok voennyh sudov 1688-1850.djvu

Все индексы собраны в Категория:Индекс.

В зависимости от уровня готовности (см. ниже) страницы в этом списке окрашиваются в один из цветов, соответствующих этому уровню.

Список индексов с уровнями их готовности можно посмотреть здесь.

СтраницыПравить

Создав документ Страница:Название.djvu/Номер страницы или просто нажав на красные ссылки в индексе, можно перейти на соответствующую страницу djvu-файла: при этом справа появится скан, который можно сохранить как jpg-рисунок, слева — окно для ввода текста.

В Викитеке нет встроенной возможности распознавания текста, но имеется возможность обратиться к другим участникам Викитеки с просьбой срочно распознать ту или иную страницу. Для этого следует разместить на соответствующей странице шаблон {{OCR}}.

Среди кнопок, появляющихся над окном для ввода текста, следует обратить внимание на [+]. Нажав её, можно открыть ещё два окна — верхний и нижний колонтитулы.

Если нужно увеличить фрагмент изображения, достаточно кликнуть по нему мышкой и затем выделить прямоугольный фрагмент — этот фрагмент растянется на всё окно вывода изображения.

После редактирования текста нужно установить для него степень готовности.

Устанавливаются четыре уровня готовности текстов:

Без текста
пустая страница Не вычитана Вычитана Проверена
Проблемная

Последний уровень готовности (Проверена) можно установить только для страниц, которые уже имеют уровень готовности Вычитана, причём установить его может только другой редактор. Таким образом, эта степень готовности требует работы над текстом не менее двух участников.

Все страницы по степени вычитки упорядочены в Категория:Вычитка страниц.

Викитека не претендует на полное сохранение оформления текстов (размер и гарнитура шрифта, точное положение на странице и т. п.). Достаточно разумного приближения к этому оформлению с обязательным сохранением самого текста в полном объёме (за исключением номеров страниц и типографских пометок).

Автоматическое извлечение текстового слояПравить

Форматы pdf и djvu могут содержать текстовый слой. В Викитеке реализовано и работает автоматическое извлечение текстового слоя для форматов djvu и pdf — он появится при первом редактировании страницы.

Особенности заполнения страницы со старой орфографиейПравить
  1. Если предполагается создавать текст в основном пространстве при помощи шаблона {{Страница}} (см. ниже), то можно порекомендовать использовать удобный шаблон {{ВАР}} — на каждой странице можно записать текст и в старой, и в новой орфографии (см. пример), а потом при создании страницы в основном пространстве имён будет автоматически выбран подходящий вариант в зависимости от того, имеется ли суффикс ДО («дореформенная орфография») или нет.
  2. Для текстов в ДО в верхний колонтитул (открывается кнопкой [+] вверху страницы) следует добавить <div class="oldspell"> или <div class="oldspell-indent">, в нижний — </div> — это улучшит читаемость текста.

ТекстыПравить

Теперь нужно перенести текст из пространства имён Страница в основное пространство имён. Это можно сделать тремя способами.

Первый способ вставки (c помощью Labeled Section Transclusion extension)Править

Воспользоваться установленным для Викитеки расширением Labeled Section Transclusion. Для того чтобы поместить текст страницы целиком, используется такой формат:

{{#lst:НАЗВАНИЕ_ СТРАНИЦЫ}}

Здесь НАЗВАНИЕ_ СТРАНИЦЫ — название страницы вместе с соответствующим обозначением пространства имён (например, Страница:Анна Каренина part 1-4.pdf/14). Пример оформления такого включения:

{{#lst:Страница:Страница:Анна Каренина part 1-4.pdf/14}}

Часто возникает ситуация, когда нужно включить только часть какой-то страницы (например, когда на одной странице находится и окончание предыдущей главы, и начало следующей). В этом случае на странице помечаются секции. Для этого нужно заключить нужную часть между тегами <section begin=НАЗВАНИЕ_СЕКЦИИ /> и <section end=НАЗВАНИЕ_СЕКЦИИ />. Например, если на одной странице есть окончание третьей главы и начало четвёртой, следует оформить её так:

<section begin=III />
Здесь текст окончания третьей главы.
<section end=III />
<section begin=IV />
Здесь текст начала четвертой главы.
<section end=IV />

Для того чтобы вставить только текст из определенной секции, нужно написать

{{#lst:НАЗВАНИЕ_ СТРАНИЦЫ|НАЗВАНИЕ_СЕКЦИИ}}

Вы можете посмотреть реальный пример такого оформления на странице Страница:Анна Каренина part 1-4.pdf/14. Для этой страницы вставка будет выглядеть следующим образом:

а) чтобы вставить всю страницу целиком (конец третьей главы и начало четвёртой):

{{#lst:Страница:Анна Каренина part 1-4.pdf/14}}

б) чтобы вставить только конец третьей главы:

{{#lst:Страница:Анна Каренина part 1-4.pdf/14|III}}

в) чтобы вставить только начало четвёртой главы:

{{#lst:Страница:Анна Каренина part 1-4.pdf/14|IV}}

В качестве названия секции можно использовать любой набор символов. Однако названия, содержащие пробелы, диакритические знаки или русские буквы интерпретируются корректно, если брать их в кавычки. Напр., на стр. Страница:Annenkov1878 bot slovar.djvu/25 словарная статья Abrōma выделена след. образом:

<section begin="Abrōma"/>{{Razr|{{langb|la|Abrōma}}}} ... <section end="Abrōma" />

Вместо набора тегов можно использовать сокращенную форму, напр.,

## "Agaricus conicus" ##
Текст секции Agaricus conicus
## "Agaricus deliciosus" ##
Текст секции Agaricus deliciosus
Второй способ вставки (c помощью шаблона {{Страница}})Править

Более удобный способ — использование шаблона {{Страница}} (особенности применения шаблона см. на его странице описания). Этот шаблон позволяет не только вставить содержимое страницы, но и указать её номер слева от текста.

Важно. Для применения этого шаблона нужно указать достаточный отступ (поля страницы). Это можно сделать заключив текст между шаблонами {{OCR-on}} и {{OCR-off}} или указать стиль <div style="margin:0 auto;text-align:justify;width:45em;" class="pagetext">.

Пример применения шаблона.

а) чтобы вставить всю страницу целиком (конец третьей главы и начало четвёртой) и при этом указать номер страницы (16-я):

{{OCR-on}}
{{Страница|Анна Каренина part 1-4.pdf/14|num=16}}
{{OCR-off}}

б) чтобы вставить только конец третьей главы (также указав при этом номер страницы):

{{OCR-on}}
{{Страница|Анна Каренина part 1-4.pdf/14|num=16|section=III}}
{{OCR-off}}

в) чтобы вставить только начало четвёртой главы:

{{OCR-on}}
{{Страница|Анна Каренина part 1-4.pdf/14|num=16|section=IV}}
{{OCR-off}}

Содержимое колонтитулов страницы при этом игнорируется.

Третий способ вставки (c помощью команды <pages/>)Править

Команда <pages/> наиболее удобна, т. к. позволяет быстро включить целый диапазон страниц с уже заполненным верхним и нижним колонтитулами[13], а также нумерацией страниц[14]. В русской Викитеке нижний колонтитул по умолчанию пустой, а для верхнего используется стандартный шаблон {{Отексте}}, которому из индекса передаются параметры Автор книги, Название книги, Год публикации и Источник[15]

Автоматически передаются также данные для следующей части, предыдущей и текущей. Чтобы эта функция работала, нужно соблюсти такие условия:

а) на странице индекса создать оглавление со ссылками на части (главы, разделы) в основном пространстве
б) количество ссылок в основном пространстве должно быть равно числу частей (глав, разделов) + 1, при этом первая ссылка должна быть в поле индекса Заголовок (Название книги).

Если в индексе будут ещё ссылки в основном пространстве имён, то переходы корректно не будут работать. Чтобы сделать ссылку на каждой странице на страничку автора, просто напишите его имя в соответствующем поле индекса в полной форме (как называется страничка автора) или сделайте перенаправление с краткого имени.

Применение команды <pages/>:

<pages index="НАЗВАНИЕ_ИНДЕКСА" from=СТРАНИЦА1 to=СТРАНИЦА2 />

При такой записи команды вставляются только страницы со СТРАНИЦА1 по СТРАНИЦА2 включительно, при этом каждой странице предваряется её номер. В русской Викитеке номера отображаются слева от текста, поэтому, как и в случае с использованием шаблона {{Страница}}, нужно задать достаточные поля, либо заключив команду между шаблонами {{OCR-on}} и {{OCR-off}}, либо указав стиль <div style="margin:0 auto;text-align:justify;width:45em;" class="pagetext">, либо задав в качестве параметра header=2 (см. ниже). Кликнув на номер, можно открыть страницу для редактирования.

Ещё удобнее применять команду <pages/> с параметром header. В этом случае автоматически подставляются верхний и нижний колонтитул, как указано в начале этого раздела.

<pages header=1 index="НАЗВАНИЕ_ИНДЕКСА" from=СТРАНИЦА1 to=СТРАНИЦА2 />

Параметр header определяет, как будет выглядеть текст

Значение параметра header Что происходит с текстом
1, 1001, 2001, 3001, 4001, 5001 Выводится только заголовок. Поля и стиль текста нужно определять самостоятельно
2, 1002, 2002, 3002, 4002, 5002 Выводится заголовок и автоматически задаются поля при помощи шаблонов {{OCR-on}} и {{OCR-off}}
3, 1003, 2003, 3003, 4003, 5003 Выводится заголовок, автоматически задаются поля при помощи шаблонов {{OCR-on}} и {{OCR-off}}, текст оформляется стилем «indent»
4, 1004, 2004, 3004, 4004, 5004 Выводится заголовок, автоматически задаются поля при помощи шаблонов {{OCR-on}} и {{OCR-off}}, текст оформляется стилем «text»
5, 1005, 2005, 3005, 4005, 5005 Выводится заголовок, автоматически задаются поля при помощи шаблонов {{OCR-on}} и {{OCR-off}}, текст оформляется стилем «oldspell»
6, 1006, 2006, 3006, 4006, 5006 Выводится заголовок, автоматически задаются поля при помощи шаблонов {{OCR-on}} и {{OCR-off}}, текст оформляется стилем «oldspell-indent»
7, 1007, 2007, 3007, 4007, 5007 Выводится заголовок, автоматически задаются поля при помощи шаблонов {{OCR-poem-on}} и {{poem-off}} (для стихотворений)

В этой записи число тысяч соответствует уровню качества текста, как принято кодировать в шаблоне {{Отексте}} (то есть header=1004 и header=4004 выдадут одинаковое оформление, но в первом случае качество будет 1 (25 %), а во втором — 4 (100 %)). Уровень качества 5 (т. е. значения параметра header 5001, 5002, 5003, 5004 и 5005) подавляет вывод категории КАЧЕСТВО.

Чтобы указать, какие разделы (section) нужно включить, используйте параметры fromsection=СЕКЦИЯ1 и tosection=СЕКЦИЯ2.

Пример:

Чтобы включить текст третьей главы романа Л. Н. Толстого Анна Каренина издания 1903 года (страницы в книге 11—16, фактические страницы в индексе — 9—14) со вставкой колонтитула, нужно написать:

{{OCR-on}}<div class="indent">
<pages header=1 index="Анна Каренина part 1-4.pdf" from=9 to=14 fromsection=III tosection=III/>
{{OCR-off}}</div>

В этой записи:

  • шаблоны {{OCR-on}} и {{OCR-off}} устанавливают поля
  • определение класса <div class="indent">...</div> задаёт отступы для абзацев
  • параметр header=1 указывает, что надо выводить колонтитул (на базе шаблона {{Отексте}} с указанием названия книги, автора, даты публикации и источника)
  • параметры from=9 и to=14 указывает, какие страницы индекса нужно включать (обратите внимание, что указывать следует фактические страницы индекса, но нумерация страниц будет соответствовать нумерации книги, как это задано командой <pagelist/>)
  • параметры fromsection=III и tosection=III указывают, какие именно секции (разделы) в первой и последней страницах диапазона нужно включать (в нашем случае для первой страницы — начало третьей главы, для последней — её окончание)

Пример:

Чтобы включить текст третьей главы романа Л. Н. Толстого Анна Каренина издания 1903 года (страницы в книге 11—16, фактические страницы в индексе — 9—14) со вставкой колонтитула, нужно написать:

<div class="indent">
<pages header=2 index="Анна Каренина part 1-4.pdf" from=9 to=14 fromsection=III tosection=III/>
</div>

Этот пример отличается от предыдущего только тем, что в нём не задаются поля при помощи шаблонов {{OCR-on}} и {{OCR-off}}, а добавляются автоматически (так как используется параметр header=2, а не header=1).

Пример:

Чтобы включить текст третьей главы романа Л. Н. Толстого Анна Каренина издания 1903 года (страницы в книге 11—16, фактические страницы в индексе — 9—14) со вставкой колонтитула, нужно написать:

<pages header=3 index="Анна Каренина part 1-4.pdf" from=9 to=14 fromsection=III tosection=III/>

Этот пример отличается от предыдущего только тем, что в нём не задаётся вручную оформление текста стилем «indent», это происходит автоматически, т. к. указан параметр header=3.

Соединение страницПравить

Все три упомянутых выше способа соединяют страницы, добавляя между ними пробел. Это полезно, когда на следующей странице идёт продолжение абзаца, начатого на предыдущей, но может быть вредным в двух случаях:

Перенос словаПравить

а) На предыдущей странице находится слово, разорванное переносом и оканчивающееся на следующей странице.

В этом случае слово оборачивают в шаблон {{перенос}}: на первой странице пишется {{перенос|сло|во}}, на второй — {{перенос2|сло|во}}. Соответственно, на первой странице отобразится сло-, на второй — во.

Другой вариант: На странице печатают начало слова, до знака переноса, затем, в окружении тега includeonly остаток слова. На следующей странице в начале печатают окончание слова с последующим пробелом в окружении тега noinclude.

Пример, если в конце страницы разорванное слово «успешный» написано «успеш-ный», то оформление следует делать так:

В конце первой страницы:

успеш<noinclude>-</noinclude><includeonly>ный</includeonly>

В начале следующей страницы:

<noinclude>ный </noinclude>

Обратите внимание на пробел после «ный» внутри тега.

Новый абзацПравить

б) Новая страница начинается новым абзацем. С этим можно бороться двумя путями.

Нерекомендованный способ (при использовании Labeled Section Transclusion и шаблона {{Страница}}) — располагать строки не подряд, а с отступом на одну строку, например:

{{#lst:Страница:Анна Каренина part 1-4.pdf/216}}

{{#lst:Страница:Анна Каренина part 1-4.pdf/217}}

или

{{Страница|Анна Каренина part 1-4.pdf/216|num=218}}

{{Страница|Анна Каренина part 1-4.pdf/217|num=219}}

Рекомендованный способ — сразу при правке страницы, которая начинается новым абзацем, оставлять сверху одну строку отступа. Так как пустая строка отступа автоматически удаляется при сохранении, нужно поставить пустой комментарий (<!---->).

<!---->

Начало нового абзаца.

См. пример.

Цветовой индикаторПравить

На каждой странице в основном пространстве, где есть включение текста из пространства Страница, вы можете видеть цветовой индикатор в верхней части страницы, под названием (см. пример). Этот индикатор позволяет кратко оценить качество подготовки страниц, использованных в этом тексте.

Например, если индикатор выглядит так:

         

В этом примере 40 % текста проверено, 30 % вычитано, 25 % не вычитано, 5 % — проблемные страницы. Он содержит также скрытую ссылку на индекс, которая может быть перехвачена локальным яваскриптом.

ШаблоныПравить

Шаблон Для чего служит
{{Страница}} Для включения текста страницы (или секции страницы)
{{OCR-on}} и {{OCR-off}} Для задания полей при включения текста страницы с использованием шаблона {{Страница}} или команды <pages/>
{{OCR-poem-old}}
{{OCR}} Можно устанавливать на страницах, для которых требуется распознавание орфографии
{{ВАР}} и {{ВАР2}} Удобный способ включения текстов в обеих орфографиях (новой и дореформенной) при использовании шаблона {{Страница}}
{{DO-on}} и {{DO-off}}
{{NO-on}} и {{NO-off}}
Способ включения текстов, содержащих таблицы, в обеих орфографиях (новой и дореформенной) при использовании шаблона {{Страница}}
{{DO-ref}} и {{NO-ref}} Способ добавления сносок в тексты, оформленные с помощью шаблонов {{DO-on}}{{DO-off}} и {{NO-on}}{{NO-off}}

Системные сообщения и специальные шаблоны (могут редактироваться только участниками с соответствующими полномочиями)Править

Системное сообщение или специальный шаблон по викитекам Для чего служит
Русскоязычная Англоязычная Немецкоязычная Франкоязычная
{{Index}} Proofreadpage index template Proofreadpage index template Proofreadpage index template Отображение информации на странице индекса
Proofreadpage index attributes Proofreadpage index attributes Proofreadpage index attributes Proofreadpage index attributes Расположение полей при редактировании страницы индексов, подписи этих полей
Proofreadpage js attributes Proofreadpage js attributes Proofreadpage js attributes Proofreadpage js attributes Список полей, передающихся из индекса при использовании команды <pages/>
Proofreadpage header template Proofreadpage header template Proofreadpage header template Proofreadpage header template Верхний колонтитул, автоматически создающийся при использовании команды <pages/> с параметром header.
Proofreadpage footer template Proofreadpage footer template Proofreadpage footer template Proofreadpage footer template Нижний колонтитул, автоматически создающийся при использовании команды <pages/> с параметром header.
Proofreadpage_pagenum_template Proofreadpage_pagenum_template Proofreadpage_pagenum_template Proofreadpage_pagenum_template Номер страницы, который автоматически выводится при использовании команды <pages/> (номер страницы берётся из индекса, где должен быть определён командой <pagelist/>)

Используемые расширения (установлены в русскоязычной Викитеке)Править

Расширение Для чего служит
Proofread Page Расширение для работы со сканами бумажных книг в Викитеке
а) Страница расширения
б) Страница с описанием расширения на multilingual Wikisource
в) Обсуждение расширения на multilingual Wikisource
Labeled Section Transclusion Включение текста из одной страницы в другую (описано как первый способ включения из пространства имён Страница в основное пространство имён — см. выше)

СсылкиПравить

  • Shared Scripts — интересный набор скриптов, улучшающий, облегчающий работу со сканами и добавляющий новые возможности. Как минимум часть будет установлена в русскоязычной Викитеке.

Программы OCRПравить

РаспознаваниеПравить

Windows
  • FineReader — коммерческий и самый качественный инструмент. С 11-12 версии имеет словари распознавания дореволюционной орфографии и ударений в словах.
Linux
Online-сервисы

Извлечение текстового слоя в файлПравить

Программы, способные извлекать текстовый OCR-слой, если он имеется в сканированном файле. Эту функцию имеют все программы распознавания, но лишь некоторые из программ просмотра.

Windows

ПримечанияПравить

  1. Основы распознавания изображений с помощью FineReader
  2. а б Некоторые сайты с бесплатными утилитами для djvu: Djvu-Spec Pdf 2 Djvu Converter, http://djvu-inf.narod.ru, http://djvu-info.ru
  3. Видео: Разъяснения автора оболочки одного из конверторов pdf в djvu
  4. Настройки приоритета языков нет. Следовательно: при выборе двух языков русский + иностранный → приоритет 50 % (½); если русский + 2 иностранных языка → выберется русский лишь в 33 % случаев (⅓).
  5. Из-за их малого словаря с ограниченным числом растровых масок.
  6. Как технология MRC уменьшает размер PDF-документов. Блог компании ABBYY
  7. Сохранение в формат PDF Справка FineReader
  8. Обзор Abbyy FineReader 12 Professional
  9. Обычно распознавание предустановленного текстового слоя делается в библиотеках, с целью лишь добавления грубого текстового поиска по файлу. Делается это в массовом автоматическом режиме, бесплатными утилитами неизвестного качества.
  10. http://ru.wikihow.com/соединить-текстовые-(TXT)-файлы-при-помощи-командной-строки
  11. См. Bridgeman Art Library против Corel.
  12. Список полей формы можно редактировать участникам с соответствующими полномочиями, изменив страницу сообщений интерфейса MediaWiki:Proofreadpage index attributes. Внешний вид индекса может изменить участник с соответствующими полномочиями, изменив страницу сообщений интерфейса MediaWiki:Proofreadpage index template.
  13. Содержание верхнего и нижнего колонтитулов устанавливается на страницах системных сообщений MediaWiki:Proofreadpage header template и MediaWiki:Proofreadpage footer template соответственно. Эти страницы может редактировать только участник с выделенными полномочиями
  14. нумерация страниц используется непосредственно со страницы индексов (см. выше описание команды <pagelist/>), а внешний вид её устанавливается системным сообщением MediaWiki:Proofreadpage pagenum template, это сообщение может редактировать только участник с выделенными полномочиями.
  15. Список этих передающихся из индекса параметров устанавливается системным сообщением MediaWiki:Proofreadpage js attributes. Это сообщение может редактировать только участник с выделенными полномочиями.