Морфологический разбор - Morphological parsing

Морфологический синтаксический анализ при обработке естественного языка - это процесс определения морфем, из которых построено данное слово. Он должен уметь различать орфографические и морфологические правила. Например, слово «лисы» можно разложить на «лиса» (стебель) и «эс» (суффикс, указывающий на множественность).

Общепринятый подход к морфологическому синтаксическому анализу заключается в использовании преобразователя конечного состояния (FST), который вводит слова и выводит их основу и модификаторы. Первоначально FST создается путем алгоритмического разбора некоторого источника слова, такого как словарь, с разметкой модификаторов.

Другой подход заключается в использовании метода индексированного поиска, который использует построенное дерево счисления . Это не часто используемый путь, потому что он не подходит для морфологически сложных языков.

С развитием нейронных сетей в обработке естественного языка стало реже использовать FST для морфологического анализа, особенно для языков, для которых имеется много доступных обучающих данных . Для таких языков можно строить языковые модели на уровне символов без явного использования морфологического синтаксического анализатора.

Орфографический

Орфографические правила - это общие правила, используемые при разбиении слова на его основу и модификаторы . Например, английские слова в единственном числе, оканчивающиеся на -y, во множественном числе заканчиваются на -ies. Сравните это с морфологическими правилами, которые содержат угловые случаи этих общих правил. Оба этих типа правил используются для создания систем, которые могут выполнять морфологический синтаксический анализ.

Морфологический

Морфологические правила - это исключения из правил орфографии, используемых при разбиении слова на его основу и модификаторы. Например, в английском языке слово «рыба» обычно множественное число, добавляя «s» в качестве суффикса, но слово «рыба» не изменяется при множественном числе. Сравните это с орфографическими правилами, которые содержат общие правила. Оба этих типа правил используются для создания систем, которые могут выполнять морфологический синтаксический анализ.

Предложены различные модели естественной морфологической обработки. Некоторые экспериментальные исследования предполагают, что одноязычные носители обрабатывают слова как единое целое, слушая их, в то время как их поздние двуязычные сверстники разбивают слова на соответствующие им морфемы, потому что их лексические представления не так специфичны, и потому что лексическая обработка на втором языке может быть менее частой. чем обработка родного языка.

Приложения морфологической обработки включают машинный перевод, проверку орфографии и поиск информации.

использованная литература