Обсуждение Викитеки:Проект:OCR
Юности честное зерцало
правитьЮности честное зерцало или Показаніе къ жітеіскому обхожденію. Собранное отъ разныхъ Авторовъ. Напечатася повелѣніемъ Царскаго Велічества. Въ Санктпітербурхѣ лѣта Господня 1717
Одним словом, рекомендую! --Максим Пе (обсуждение) 15:46, 30 ноября 2018 (UTC)
- @Lozman, Vladis13, VadimVMog, Silberrus, Averaver --Максим Пе (обсуждение) 11:08, 26 апреля 2019 (UTC)
- Собрание разных авторов без их указания. Не возьмусь. --Averaver (обсуждение) 13:34, 26 апреля 2019 (UTC)
- @Максим Пе а сами-то что? — Lozman (talk) 13:42, 26 апреля 2019 (UTC)
- Собрание разных авторов без их указания. Не возьмусь. --Averaver (обсуждение) 13:34, 26 апреля 2019 (UTC)
Распознавание шрифтов российской гражданской печати XVIII века
правитьНа каком софте обычно это делают? У нас в ВТ очень приличная библиотека вычитанных книжек XVIII века, можно было бы использовать их для тренировки модели Tesseract (см. [1], [2], [3] и др.), если в этом есть необходимость. Или все пользуются программой ABBYY Lingvo, которая и так отлично натренирована на подобных шрифтах? Ain92 (обсуждение) 11:46, 17 июня 2020 (UTC)
- Есть только две передовые программы распознавания — это упомянутые ABBYY FineReader и Tesseract. Первая передовая, коммерческая, только под Windows. Вторая — бесплатная, в основном расчитана на Linux, поэтому имеются сайты, являющиеся веб-интерфейсами Tessercat.
- Тессеракт имеет массу сложностей — плоховато распознаёт русский, дореформенный не распознает вообще, а также ударения и вёрстку страниц (колонки, колонтитулы, текст в примечаниях внизу страниц, текст на полях). Тессеракт v4, вышедший в последние годы, сделан на основе нейросети, обучение языкам его было долгим, несколько лет для основных языков, добавлен только современный русский. Самим обучать — я право не знаю, тогда это лучше перейти в проект Тессеракта, поскольку человеческое и машинное время участника будут полностью занято.
- Так что я бы посоветовал использовать FineReader, он великолепно распознаёт шрифт 19 века, и в течении 1-2 дней его можно подучить под петровский шрифт (просто более старые книги не имеют однотипного шрифта и правописания, поэтому будет больше ошибок распознавания). К тому же, править орфографию по всему тексту удобней в нём. Единственно пожалуй недостаток, что после него размер сканов увеличивается на десятки процентов.
- Для примера, если не ошибаюсь, этот скан с петровским шрифтом я распознавал в FineReader. С коррекцией грубых ошибок OCR, и вроде с обучением ряду букв. (В этом шрифте постоянная проблема OCR с путаницей "ш" и "т".) --Vladis13 (обсуждение) 17:22, 17 июня 2020 (UTC)
П. Дм. Брянцевъ — Очеркъ паденiя Польши (1895). .docx -> Викитека
правитьИсточник: https://dlib.rsl.ru/01003669686 , также легко находятся варианты в более «чистом и опрятном» .djvu.
Давно распознал сей очерк. Есть оформленный документ в формате .docx — сохранена орфография оригинала, работают сноски + текст ёфицирован. Не осилил вики-разметку и местные порядки, поэтому если есть желающие перенести очерк из документа Word в ВТ, пожалуйста, отпишитесь в теме. --У меня всегда так (обсуждение) 18:57, 8 июля 2021 (UTC)