Викитека:Форум: различия между версиями

Содержимое удалено Содержимое добавлено
Строка 34:
Как известно, единственной платформой распознавания текста, поддерживающей русский язык в дореформенной орфографии, является коммерческая и недешёвая система FineReader. При этом скачка демо-версии на каждые 50 страниц весьма утомительна, а онлайн-клиент со старой орфографией не работает. Между тем, недавно появилась (точнее, была допилена до относительно приемлемой поддержки не-латинской графики) свободная система [[w:Tesseract|Tesseract]]. В отличие от всем известной Cuneiform, эта система обучаема и теоретически легко может выучить и русскій языкъ. Вопрос, пытался ли кто-нибудь её ему учить и если да, то каковы результаты? Сегодня пробовал натаскать на странице шрифта Old Standard TT, но при реальных дореволюционных шрифтах и обычном для сканов из DjVu-файлов качестве все буквы сливаются в ряд «''т''» и «ш». [[Участник:Ignatus|Ignatus]] ([[Обсуждение участника:Ignatus|обсуждение]]) 23:03, 8 ноября 2014 (UTC)
* Я с ним игрался где-то с год-полтора-два назад. Попробовал потренировать на дореформенную орфографию (по какой-то статье, описывающей, как это делать). Что-то у меня совсем никаких близких даже к положительным результатов не было. Не помню уже деталей. Возможно -- дело в версии, которая в то время была еще далекой от той, которая может хорошо тренироваться на нелатинице... [[Участник:Hinote|Hinote]] ([[Обсуждение участника:Hinote|обсуждение]]) 23:34, 8 ноября 2014 (UTC)
** Прогнал алгоритм на тестовой странице Old Standard TT обычного и курсива, на стихотворении в Bookman Old Style и одном реальном скане «[[user:Ignatus/О царе Горохе/ДО|Царя Гороха]]». Два дня жуткой маеты дали результат с ятями, фитами и даже ударением на «что́» (файлы могу выслать, кто заинтересуется), однако вот все остальные буквы (особенно н/и/к/м/п/в) различаются из рук вон плохо, так что особой разницы с Cuneiform в трудоёмкости нет, хотя конкретно разница старой и новой орфографии видна лучше. [[Участник:Ignatus|Ignatus]] ([[Обсуждение участника:Ignatus|обсуждение]]) 22:49, 10 ноября 2014 (UTC)
 
== При создании PDF не обрабатывается шаблон Poemx ==