Обсуждение Викитеки:Проект:OCR

Архив

Юности честное зерцало

Последнее сообщение: 5 лет назад4 сообщения3 человека в обсуждении

Юности честное зерцало или Показаніе къ жітеіскому обхожденію. Собранное отъ разныхъ Авторовъ. Напечатася повелѣніемъ Царскаго Велічества. Въ Санктпітербурхѣ лѣта Господня 1717
Одним словом, рекомендую! --Максим Пе (обсуждение) 15:46, 30 ноября 2018 (UTC)Ответить

@Lozman, Vladis13, VadimVMog, Silberrus, Averaver --Максим Пе (обсуждение) 11:08, 26 апреля 2019 (UTC)Ответить

Собрание разных авторов без их указания. Не возьмусь. --Averaver (обсуждение) 13:34, 26 апреля 2019 (UTC)Ответить

@Максим Пе а сами-то что? — Lozman (talk) 13:42, 26 апреля 2019 (UTC)Ответить

Распознавание шрифтов российской гражданской печати XVIII века

Последнее сообщение: 4 года назад2 сообщения2 человека в обсуждении

На каком софте обычно это делают? У нас в ВТ очень приличная библиотека вычитанных книжек XVIII века, можно было бы использовать их для тренировки модели Tesseract (см. [1], [2], [3] и др.), если в этом есть необходимость. Или все пользуются программой ABBYY Lingvo, которая и так отлично натренирована на подобных шрифтах? Ain92 (обсуждение) 11:46, 17 июня 2020 (UTC)Ответить

Есть только две передовые программы распознавания — это упомянутые ABBYY FineReader и Tesseract. Первая передовая, коммерческая, только под Windows. Вторая — бесплатная, в основном расчитана на Linux, поэтому имеются сайты, являющиеся веб-интерфейсами Tessercat.

Тессеракт имеет массу сложностей — плоховато распознаёт русский, дореформенный не распознает вообще, а также ударения и вёрстку страниц (колонки, колонтитулы, текст в примечаниях внизу страниц, текст на полях). Тессеракт v4, вышедший в последние годы, сделан на основе нейросети, обучение языкам его было долгим, несколько лет для основных языков, добавлен только современный русский. Самим обучать — я право не знаю, тогда это лучше перейти в проект Тессеракта, поскольку человеческое и машинное время участника будут полностью занято.

Так что я бы посоветовал использовать FineReader, он великолепно распознаёт шрифт 19 века, и в течении 1-2 дней его можно подучить под петровский шрифт (просто более старые книги не имеют однотипного шрифта и правописания, поэтому будет больше ошибок распознавания). К тому же, править орфографию по всему тексту удобней в нём. Единственно пожалуй недостаток, что после него размер сканов увеличивается на десятки процентов.

Для примера, если не ошибаюсь, этот скан с петровским шрифтом я распознавал в FineReader. С коррекцией грубых ошибок OCR, и вроде с обучением ряду букв. (В этом шрифте постоянная проблема OCR с путаницей "ш" и "т".) --Vladis13 (обсуждение) 17:22, 17 июня 2020 (UTC)Ответить

П. Дм. Брянцевъ — Очеркъ паденiя Польши (1895). .docx -> Викитека

Последнее сообщение: 3 года назад1 сообщение1 человек в обсуждении

Источник: https://dlib.rsl.ru/01003669686 , также легко находятся варианты в более «чистом и опрятном» .djvu.

Давно распознал сей очерк. Есть оформленный документ в формате .docx — сохранена орфография оригинала, работают сноски + текст ёфицирован. Не осилил вики-разметку и местные порядки, поэтому если есть желающие перенести очерк из документа Word в ВТ, пожалуйста, отпишитесь в теме. --У меня всегда так (обсуждение) 18:57, 8 июля 2021 (UTC)Ответить

Добавить тему