Распознавание почерка - Handwriting recognition

Подпись кантри-звезды Текса Уильямса.

Распознавание рукописного ввода ( HWR ), также известное как распознавание рукописного текста ( HTR ), - это способность компьютера получать и интерпретировать понятный рукописный ввод из таких источников, как бумажные документы, фотографии , сенсорные экраны и другие устройства. Изображение написанного текста может быть распознано "офлайн" с листа бумаги с помощью оптического сканирования ( оптического распознавания символов ) или интеллектуального распознавания слов . В качестве альтернативы, движения кончика пера могут восприниматься «в режиме реального времени», например, с помощью поверхности экрана компьютера на основе пера, что в целом более простая задача, поскольку доступно больше подсказок. Система распознавания рукописного ввода обрабатывает форматирование, выполняет правильную сегментацию на символы и находит наиболее правдоподобные слова.

Автономное распознавание

Автономное распознавание рукописного ввода включает автоматическое преобразование текста на изображении в буквенные коды, которые можно использовать в компьютерах и приложениях для обработки текста. Данные, полученные с помощью этой формы, рассматриваются как статическое представление почерка. Распознавание рукописного ввода в автономном режиме сравнительно сложно, так как у разных людей разные стили почерка. И на сегодняшний день механизмы OCR в первую очередь ориентированы на машинно-напечатанный текст, а ICR - для «напечатанного» вручную (написанного заглавными буквами) текста.

Традиционные техники

Извлечение персонажа

Автономное распознавание символов часто включает сканирование формы или документа. Это означает, что необходимо будет извлечь отдельные символы, содержащиеся в отсканированном изображении. Существуют инструменты, способные выполнить этот шаг. Однако на этом этапе есть несколько общих недостатков. Чаще всего это когда связанные символы возвращаются в виде одного фрагмента изображения, содержащего оба символа. Это вызывает серьезную проблему на этапе распознавания. Тем не менее, доступно множество алгоритмов, снижающих риск подключения персонажей.

Распознавание персонажей

После извлечения отдельных символов используется механизм распознавания для идентификации соответствующего компьютерного символа. В настоящее время доступно несколько различных методов распознавания.

Извлечение признаков

Извлечение признаков работает аналогично распознавателям нейронных сетей. Однако программисты должны вручную определять свойства, которые они считают важными. Такой подход дает распознавателю больший контроль над свойствами, используемыми при идентификации. Однако любая система, использующая этот подход, требует значительно больше времени на разработку, чем нейронная сеть, поскольку свойства не изучаются автоматически.

Современные техники

В то время как традиционные методы сосредоточены на сегментировании отдельных символов для распознавания, современные методы сосредоточены на распознавании всех символов в сегментированной строке текста. В частности, они сосредоточены на методах машинного обучения , которые могут изучать визуальные функции, избегая ранее использовавшейся ограничивающей разработки функций. Современные методы используют сверточные сети для извлечения визуальных характеристик в нескольких перекрывающихся окнах изображения текстовой строки, которые рекуррентная нейронная сеть использует для получения вероятностей символов.

Онлайн признание

Распознавание рукописного ввода онлайн включает автоматическое преобразование текста, написанного на специальном дигитайзере или КПК , где датчик улавливает движения кончика пера, а также переключение пера вверх / вниз. Этот вид данных известен как цифровые чернила и может рассматриваться как цифровое представление почерка. Полученный сигнал преобразуется в буквенные коды, которые можно использовать в компьютерах и приложениях для обработки текста.

Элементы онлайн-интерфейса распознавания рукописного ввода обычно включают в себя:

  • ручка или стилус, которыми пользователь может писать.
  • сенсорная поверхность, которая может быть интегрирована с выходным дисплеем или рядом с ним.
  • программное приложение, которое интерпретирует движения стилуса по поверхности письма, переводя полученные штрихи в цифровой текст.

Процесс распознавания рукописного ввода в Интернете можно разбить на несколько общих этапов:

  • предварительная обработка,
  • извлечение функций и
  • классификация

Цель предварительной обработки - отбросить во входных данных нерелевантную информацию, которая может негативно повлиять на распознавание. Это касается скорости и точности. Предварительная обработка обычно состоит из бинаризации, нормализации, дискретизации, сглаживания и удаления шума. Второй шаг - извлечение признаков. Из двумерного или многомерного векторного поля, полученного от алгоритмов предварительной обработки, извлекаются многомерные данные. Цель этого шага - выделить важную информацию для модели распознавания. Эти данные могут включать такую ​​информацию, как давление пера, скорость или изменение направления письма. Последний большой шаг - классификация. На этом этапе используются различные модели, чтобы сопоставить извлеченные объекты с разными классами и таким образом идентифицировать символы или слова, которые представляют объекты.

Аппаратное обеспечение

Коммерческие продукты, включающие распознавание рукописного ввода в качестве замены ввода с клавиатуры, были представлены в начале 1980-х годов. Примеры включают терминалы для рукописного ввода, такие как Pencept Penpad и терминал для точек продаж Inforite. С появлением большого потребительского рынка персональных компьютеров было представлено несколько коммерческих продуктов для замены клавиатуры и мыши на персональном компьютере с единой системой указателя / рукописного ввода, например, от Pencept, CIC и других. Первым коммерчески доступным портативным компьютером планшетного типа был GRiDPad от GRiD Systems , выпущенный в сентябре 1989 года. Его операционная система была основана на MS-DOS .

В начале 1990 - х годов, производители оборудования , включая NCR , IBM и EO выпущенных планшетных компьютеров , работающих под управлением электронная ручка операционной системы , разработанной GO Corp. . PenPoint повсюду использовала распознавание рукописного ввода и жесты, а также предоставляла возможности стороннему программному обеспечению. Планшетный компьютер IBM был первым, кто использовал имя ThinkPad и распознавал почерк IBM. Эта система распознавания была позже перенесена на Microsoft Windows для Pen Computing и IBM Pen для OS / 2 . Ни один из них не имел коммерческого успеха.

Достижения в области электроники позволили вычислительной мощности, необходимой для распознавания рукописного ввода, уместиться в меньшем форм-факторе, чем планшетные компьютеры, а распознавание рукописного ввода часто используется в качестве метода ввода для карманных КПК . Первым КПК, обеспечивающим ввод данных в письменном виде, был Apple Newton , который представил публике преимущество упрощенного пользовательского интерфейса. Однако это устройство не имело коммерческого успеха из-за ненадежности программного обеспечения, которое пыталось изучить шаблоны письма пользователя. К моменту выпуска Newton OS 2.0, в которой распознавание рукописного ввода было значительно улучшено, включая уникальные функции, до сих пор не встречающиеся в современных системах распознавания, такие как немодальное исправление ошибок, первое впечатление было в значительной степени отрицательным. После прекращения поддержки Apple Newton эта функция была включена в Mac OS X 10.2 и позже как Inkwell .

Позже Palm выпустила успешную серию КПК на базе системы распознавания граффити . Граффити повысило удобство использования, определив для каждого персонажа набор «однотонных штрихов» или однотонных форм. Это сузило возможность ошибочного ввода, хотя запоминание рисунков штрихов действительно увеличило кривую обучения для пользователя. Было обнаружено, что распознавание рукописного ввода Graffiti нарушает патент, принадлежащий Xerox, и Palm заменила Graffiti лицензированной версией распознавания рукописного ввода CIC, которая, одновременно поддерживая формы unistroke, предшествовала патенту Xerox. Решение суда о нарушении было отменено при рассмотрении апелляции, а затем снова отменено при рассмотрении более поздней апелляции. Впоследствии участвующие стороны договорились об урегулировании этого и других патентов.

Tablet PC является ноутбуком с дигитайзером планшетом и стилусом, что позволяет пользователь Рукописного тексту на экране устройства. Операционная система распознает почерк и преобразует его в текст. Windows Vista и Windows 7 включают в себя функции персонализации, которые изучают шаблоны письма или словарный запас пользователя для английского, японского, китайского традиционного, китайского упрощенного и корейского языков. Эти функции включают «мастер персонализации», который запрашивает образцы почерка пользователя и использует их для переобучения системы для более точного распознавания. Эта система отличается от менее совершенной системы распознавания рукописного ввода, используемой в ее ОС Windows Mobile для КПК.

Хотя распознавание рукописного ввода - это форма ввода, к которой привыкла публика, она не получила широкого распространения ни на настольных компьютерах, ни на портативных компьютерах. По-прежнему считается общепризнанным, что ввод с клавиатуры быстрее и надежнее. По состоянию на 2006 год многие КПК предлагают рукописный ввод, иногда даже естественный рукописный ввод, но точность все еще остается проблемой, и некоторые люди по-прежнему считают даже простую экранную клавиатуру более эффективной.

Программное обеспечение

Раннее программное обеспечение могло понимать печатный почерк, где символы были разделены; однако скорописный почерк со связанными символами представлял парадокс Сейра , трудность, связанную с сегментацией символов. В 1962 году Шелия Губерман , тогда еще жившая в Москве, написала первую прикладную программу распознавания образов. Коммерческие примеры поступили от таких компаний, как Communications Intelligence Corporation и IBM.

В начале 1990-х две компании - ParaGraph International и Lexicus - разработали системы, способные распознавать скорописный почерк. ParaGraph был основан в России специалистом по информатике Степаном Пачиковым, а Lexicus - студентами Стэнфордского университета Ронджоном Нагом и Крисом Кортге. Система ParaGraph CalliGrapher была развернута в системах Apple Newton, а система Lexicus Longhand стала коммерчески доступной для операционных систем PenPoint и Windows. Lexicus была приобретена Motorola в 1993 году и продолжила разработку систем распознавания китайского рукописного ввода и интеллектуального ввода текста для Motorola. В 1997 году компания ParaGraph была приобретена SGI, а ее команда по распознаванию рукописного ввода сформировала подразделение P&I, которое позже было приобретено у SGI компанией Vadem. Microsoft приобрела распознавание рукописного ввода CalliGrapher и другие технологии цифровых чернил, разработанные P&I у Vadem в 1999 году.

Wolfram Mathematica (8.0 или новее) также предоставляет функцию распознавания рукописного ввода или текста TextRecognize.

Исследовать

Метод, используемый для использования контекстной информации в первой системе интерпретации рукописных адресов, разработанной Саргуром Шрихари и Джонатаном Халлом.

Распознавание почерка имеет активное сообщество ученых, изучающих его. Крупнейшими конференциями по распознаванию рукописного ввода являются Международная конференция по проблемам распознавания рукописного ввода (ICFHR), проводимая в четные годы, и Международная конференция по анализу и распознаванию документов (ICDAR), проводимая в нечетные годы. Обе эти конференции одобрены IEEE и IAPR . В 2021 году материалы ICDAR будут опубликованы LNCS , Springer.

Активные области исследований включают:

Результаты с 2009 г.

С 2009 года повторяющиеся нейронные сети и нейронные сети с прямой связью, разработанные исследовательской группой Юргена Шмидхубера в швейцарской лаборатории искусственного интеллекта IDSIA , выиграли несколько международных конкурсов почерка. В частности, двунаправленная и многомерная долгосрочная краткосрочная память (LSTM) Alex Graves et al. выиграл три конкурса по распознаванию связного почерка на Международной конференции по анализу и распознаванию документов (ICDAR) в 2009 году, не имея каких-либо предварительных знаний о трех разных языках (французском, арабском, персидском ), которые необходимо выучить. Недавно разработанные Дэном Чиресаном и его коллегами из IDSIA методы глубокого обучения на основе графических процессоров для сетей с прямой связью победили в конкурсе ICDAR 2011 по распознаванию китайского почерка в автономном режиме; их нейронные сети также были первыми искусственными распознавателями образов, которые достигли конкурентоспособности человека в известной задаче рукописных цифр MNIST Яна ЛеКуна и его коллег из Нью-Йоркского университета .

Смотрите также

Списки

использованная литература

внешние ссылки