Мелкий разбор - Shallow parsing
Мелкий синтаксический анализ (также разбиение на части или легкий синтаксический анализ ) - это анализ предложения, который сначала определяет составные части предложения (существительные, глаголы, прилагательные и т. Д.), А затем связывает их с единицами более высокого порядка, которые имеют дискретное грамматическое значение ( группы существительных или фразы. , группы глаголов и т. д.). В то время как наиболее элементарные алгоритмы фрагментирования просто связывают составные части на основе элементарных шаблонов поиска (например, как указано в регулярных выражениях ), подходы, использующие методы машинного обучения (классификаторы, тематическое моделирование и т. Д.), Могут учитывать контекстную информацию и, таким образом, составлять куски таким образом, чтобы они лучше отражали семантические отношения между основными составляющими. То есть эти более продвинутые методы позволяют решить проблему, состоящую в том, что комбинации элементарных составляющих могут иметь разные значения более высокого уровня в зависимости от контекста предложения.
Это метод, широко используемый при обработке естественного языка . Это похоже на концепцию лексического анализа для компьютерных языков. Под названием «гипотеза неглубокой структуры» она также используется в качестве объяснения того, почему изучающие второй язык часто не могут правильно разобрать сложные предложения.
использованная литература
Цитаты
Источники
- «Н.П. Чанкинг (Современное состояние)» . Ассоциация компьютерной лингвистики . Проверено 30 января 2016 .
- Эбни, Стивен (1991). «Разбор по частям | Разбор на основе принципов» (PDF) . www.vinartus.net . С. 257–278.
внешние ссылки
- Apache OpenNLP OpenNLP включает чанкер.
- Общая архитектура GATE для текстовой инженерии GATE включает блокировщик.
- НЛТК фрагментирование
- Демонстрация мелкого парсера Illinois Shallow Parser
Смотрите также