Викитека:Форум: различия между версиями

Содержимое удалено Содержимое добавлено
Свободное OCR для старой орфографии
Строка 1:
{{/Шапка|Ф}}__TOC__
<!-- Оставьте эту строчку и строчку выше. Пишите ниже, с новой строки ↓ -->
 
== Свободное OCR для старой орфографии ==
Как известно, единственной платформой распознавания текста, поддерживающей русский язык в дореформенной орфографии, является коммерческая и недешёвая система FineReader. При этом скачка демо-версии на каждые 50 страниц весьма утомительна, а онлайн-клиент со старой орфографией не работает. Между тем, недавно появилась (точнее, была допилена до относительно приемлемой поддержки не-латинской графики) свободная система [[w:Tesseract|Tesseract]]. В отличие от всем известной Cuneiform, эта система обучаема и теоретически легко может выучить и русскій языкъ. Вопрос, пытался ли кто-нибудь её ему учить и если да, то каковы результаты? Сегодня пробовал натаскать на странице шрифта Old Standard TT, но при реальных дореволюционных шрифтах и обычном для сканов из DjVu-файлов качестве все буквы сливаются в ряд «''т''» и «ш». [[Участник:Ignatus|Ignatus]] ([[Обсуждение участника:Ignatus|обсуждение]]) 23:03, 8 ноября 2014 (UTC)
 
== При создании PDF не обрабатывается шаблон Poemx ==