Викитека:Форум: различия между версиями
Содержимое удалено Содержимое добавлено
VadimVMog (обсуждение | вклад) →Апулей. Золотой осёл: дополнение |
Ignatus (обсуждение | вклад) |
||
Строка 44:
Как известно, единственной платформой распознавания текста, поддерживающей русский язык в дореформенной орфографии, является коммерческая и недешёвая система FineReader. При этом скачка демо-версии на каждые 50 страниц весьма утомительна, а онлайн-клиент со старой орфографией не работает. Между тем, недавно появилась (точнее, была допилена до относительно приемлемой поддержки не-латинской графики) свободная система [[w:Tesseract|Tesseract]]. В отличие от всем известной Cuneiform, эта система обучаема и теоретически легко может выучить и русскій языкъ. Вопрос, пытался ли кто-нибудь её ему учить и если да, то каковы результаты? Сегодня пробовал натаскать на странице шрифта Old Standard TT, но при реальных дореволюционных шрифтах и обычном для сканов из DjVu-файлов качестве все буквы сливаются в ряд «''т''» и «ш». [[Участник:Ignatus|Ignatus]] ([[Обсуждение участника:Ignatus|обсуждение]]) 23:03, 8 ноября 2014 (UTC)
* Я с ним игрался где-то с год-полтора-два назад. Попробовал потренировать на дореформенную орфографию (по какой-то статье, описывающей, как это делать). Что-то у меня совсем никаких близких даже к положительным результатов не было. Не помню уже деталей. Возможно -- дело в версии, которая в то время была еще далекой от той, которая может хорошо тренироваться на нелатинице... [[Участник:Hinote|Hinote]] ([[Обсуждение участника:Hinote|обсуждение]]) 23:34, 8 ноября 2014 (UTC)
** Прогнал алгоритм на тестовой странице Old Standard TT обычного и курсива, на стихотворении в Bookman Old Style и одном реальном скане «[[
*** У меня была мысль заняться обучением Tesseract старой орфографии, но руки так и не дошли ввиду предполагаемой большой величины объема работ -- я решил, что в одиночку с этим не справиться. <br/>Вопрос: а словарик словоформ в старой орфографии Вы сделали для Tesseract? -- [[Участник:Badger M.|Badger M.]] ([[Обсуждение участника:Badger M.|обсуждение]]) 22:57, 10 ноября 2014 (UTC)
**** Очень небольшой. Если у вас есть на чём поставить Hunspell (точнее, нужна утилита unmunch, чтобы перевести добытые из архива .dic и .aff файлы в простой список слов и скормить wordlist2dawg), то словарь качать [http://lingvoforum.net/index.php/topic,31977.0.html здесь].
|