Разрешение имен (семантика и извлечение текста) - Name resolution (semantics and text extraction)

В семантике и извлечении текста разрешение имен относится к способности программного обеспечения интеллектуального анализа текста определять, к какому фактическому человеку, действующему лицу или объекту относится конкретное использование имени. Это также может называться разрешением объекта .

Разрешение имени в простом тексте

Например, в области интеллектуального анализа текста программному обеспечению часто требуется интерпретировать следующий текст:

Джон дал Эдварду книгу. Затем он встал и позвал Джона вернуться в комнату.

В этих предложениях программа должна определить, относится ли местоимение «он» к «Джону» или «Эдварду» из первого предложения. Программное обеспечение также должно определить, является ли «Джон», упомянутый во втором предложении, тем же, что и «Джон» в первом предложении, или третьим лицом, имя которого также оказывается «Джон». Такие примеры применимы практически ко всем языкам, а не только к английскому.

Разрешение имен в документах

Часто этот тип разрешения имен также используется во всех документах, например, чтобы определить, является ли " Джордж Буш ", упоминаемый в старой газетной статье как президент Соединенных Штатов ( Джордж Буш-старший ), тем же человеком, что и "Джордж Буш". лет спустя в отдельной новостной статье упоминается о человеке, баллотирующемся в президенты ( Джордж Буш ). Поскольку у многих людей может быть одно и то же имя, аналитики и программное обеспечение должны принимать во внимание значительно больше информации, чем просто имя, чтобы определить, насколько идентичные ссылки («Джордж Буш») на самом деле относятся к одному и тому же конкретному лицу или лицу.

Разрешение имени / сущности при извлечении текста и семантике - общеизвестно трудная проблема, отчасти потому, что во многих случаях недостаточно информации для точного определения. Существует множество частичных решений, основанных на конкретных контекстных подсказках, обнаруженных в данных, но в настоящее время нет известного общего решения.

Проблема иногда упоминается как устранение неоднозначности имени, а для электронных библиотек - устранение неоднозначности автора.

Примеры программного обеспечения, которое может обеспечить преимущества разрешения имен, см. Также:

Смотрите также

Ссылки