Устранение смысловой неоднозначности - Word-sense disambiguation

Слово смысла неоднозначности ( WSD ) является открытой проблемой в компьютерной лингвистике касается определения того, какие чувства из слова используется в предложении . Решение этой проблемы влияет на другие виды компьютерного письма, такие как дискурс , повышение релевантности поисковых систем , разрешение анафор , согласованность и логический вывод .

В связи с тем, что естественный язык требует отражения неврологической реальности, определяемой способностями, предоставляемыми нейронными сетями мозга , компьютерная наука столкнулась с долгосрочной проблемой в развитии способности компьютеров выполнять обработку естественного языка и машинное обучение .

Были исследованы многие методы, в том числе методы на основе словаря, которые используют знания, закодированные в лексических ресурсах, методы контролируемого машинного обучения, в которых классификатор обучается для каждого отдельного слова в корпусе примеров с ручной смысловой аннотацией, и полностью неконтролируемые методы, объединяющие появления слов, тем самым вызывая чувство слова. Среди них подходы к обучению с учителем на сегодняшний день являются наиболее успешными алгоритмами .

Трудно заявить о точности существующих алгоритмов без множества оговорок. На английском языке точность на уровне крупнозернистого ( омографа ) обычно превышает 90%, а некоторые методы на определенных омографах достигают более 96%. Что касается более тонких различий чувств, максимальная точность от 59,1% до 69,0% была зафиксирована в оценочных упражнениях (SemEval-2007, Senseval-2), где базовая точность простейшего возможного алгоритма выбора всегда наиболее частого смысла составила 51,4%. и 57% соответственно.

О разрешении смысловой неоднозначности

Disambiguation требует два жестких входов: а словарных указать чувства , которые должны быть снята неоднозначностью и корпус из языковых данных для многозначных (в некоторых методах, обучение корпус примеров языка также требуется). Задача WSD имеет два варианта: «лексический образец» (устранение неоднозначности вхождения небольшой выборки целевых слов, которые были ранее выбраны) и задача «все слова» (устранение неоднозначности всех слов в текущем тексте). Задача «Все слова» обычно считается более реалистичной формой оценки, но создание корпуса обходится дороже, потому что аннотаторы-люди должны читать определения для каждого слова в последовательности каждый раз, когда им нужно сделать оценку тегов, а не один раз. для блока экземпляров одного и того же целевого слова.

История

WSD был впервые сформулирован как отдельная вычислительная задача на заре машинного перевода в 1940-х годах, что сделало его одной из старейших проблем компьютерной лингвистики. Уоррен Уивер впервые представил проблему в вычислительном контексте в своем меморандуме 1949 года о переводе. Позже Бар-Хиллель (1960) утверждал, что WSD не может быть решена с помощью «электронного компьютера» из-за необходимости в целом моделировать все мировые знания.

В 1970-х WSD была подзадачей систем семантической интерпретации, разработанной в области искусственного интеллекта, начиная с семантики предпочтений Уилкса . Однако, поскольку системы WSD в то время в основном основывались на правилах и кодировались вручную, они были склонны к узким местам в получении знаний.

К 1980-м годам стали доступны крупномасштабные лексические ресурсы, такие как Oxford Advanced Learner's Dictionary of Current English (OALD): ручное кодирование было заменено знаниями, автоматически извлекаемыми из этих ресурсов, но устранение неоднозначности по-прежнему основывалось на знаниях или словарях. .

В 1990-х годах статистическая революция продвинула вычислительную лингвистику, и WSD превратилась в парадигму проблемы, к которой можно было применить методы контролируемого машинного обучения.

В 2000-х годах контролируемые методы достигли плато в точности, и поэтому внимание переключилось на более грубые смыслы, адаптацию предметной области , полу-контролируемые и неконтролируемые системы на основе корпусов, комбинации различных методов и возвращение систем, основанных на знаниях, через графы. -основные методы. Тем не менее, контролируемые системы продолжают работать лучше всего.

Трудности

Различия между словарями

Одна из проблем, связанных с устранением неоднозначности смысла слова, состоит в том, чтобы решить, что такое смыслы, поскольку разные словари и тезаурусы будут обеспечивать различное деление слов на смыслы. Некоторые исследователи предложили выбрать конкретный словарь и использовать его набор смыслов для решения этой проблемы. Однако в целом результаты исследований с использованием широких различий в чувствах были намного лучше, чем результаты исследований с использованием узких. Большинство исследователей продолжают работать над детализированным WSD.

Большинство исследований в области WSD выполняется с использованием WordNet в качестве справочного материала для английского языка. WordNet - это вычислительный лексикон, который кодирует понятия как наборы синонимов (например, понятие автомобиля кодируется как {автомобиль, авто, автомобиль, машина, автомобиль}). Другие ресурсы, используемые для устранения неоднозначности, включают Тезаурус Роджера и Википедию . Совсем недавно для многоязычного WSD использовался многоязычный энциклопедический словарь BabelNet .

Пометка части речи

В любом реальном тесте было доказано, что тегирование части речи и смысловое тегирование очень тесно связаны друг с другом, потенциально создавая ограничения для другого. Вопрос о том, должны ли эти задачи быть вместе или разделены, все еще не решен единогласно, но в последнее время ученые склонны тестировать эти вещи по отдельности (например, в соревнованиях Senseval / SemEval части речи предоставляются в качестве входных данных для устранения неоднозначности текста).

Обе части речи WSM включают устранение неоднозначности или тегирование словами. Однако алгоритмы, используемые для одного, не работают хорошо для другого, в основном потому, что часть речи слова в первую очередь определяется непосредственно соседними от одного до трех слов, тогда как смысл слова может определяться более удаленными словами. . Уровень успеха для алгоритмов тегирования части речи в настоящее время намного выше, чем для WSD, при этом точность современного уровня техники составляет около 96% или лучше, по сравнению с точностью менее 75% в устранении неоднозначности слов при обучении с учителем. . Эти цифры типичны для английского языка и могут сильно отличаться от данных для других языков.

Дисперсия между судьями

Другая проблема - это расхождения между судьями . Системы WSD обычно тестируются путем сравнения результатов выполнения задачи с результатами человека. Однако, несмотря на то, что связать части речи с текстом относительно легко, оказалось, что научить людей помечать чувства гораздо сложнее. В то время как пользователи могут запоминать все возможные части речи, которые может принимать слово, люди часто не могут запомнить все смыслы, которые может принимать слово. Более того, люди не согласны с поставленной задачей - приведите список смыслов и предложений, и люди не всегда согласятся, какое слово в каком смысле принадлежит.

Поскольку производительность человека является стандартом, это верхний предел производительности компьютера. Человек производительность, однако, гораздо лучше крупнозернистый , чем мелкозернистых различий, так это опять почему исследования крупнозернистых различий был поставлен на испытания в последнее время упражнений по оценке WSD.

Прагматика

Некоторые исследователи ИИ, такие как Дуглас Ленат, утверждают, что нельзя анализировать значения слов без какой-либо онтологии здравого смысла . Этот лингвистический вопрос называется прагматикой . По мнению исследователей, для правильного определения смысла слов необходимо знать факты здравого смысла. Более того, иногда требуется здравый смысл, чтобы устранить неоднозначность таких слов, как местоимения, в случае наличия в тексте анафор или катафор .

Смысловой инвентарь и зависимость алгоритмов от задач

Независимая от задачи инвентаризация смысла не является согласованной концепцией: каждая задача требует своего собственного разделения значения слова на смыслы, относящиеся к задаче. Кроме того, для разных приложений могут потребоваться совершенно разные алгоритмы. В машинном переводе проблема заключается в выборе целевого слова. «Смыслы» - это слова на целевом языке, которые часто соответствуют значительным различиям значений в исходном языке («банк» может переводиться с французского «banque» - то есть «финансовый банк» или «рив»), т. Е. «край реки»). При поиске информации инвентаризация смысла не обязательно требуется, потому что достаточно знать, что слово используется в одном и том же смысле в запросе и в извлеченном документе; какой это смысл, неважно.

Дискретность чувств

Наконец, само понятие « смысл слова » скользкое и противоречивое. Большинство людей могут согласиться в различиях на уровне грубого омографа (например, ручка как пишущий инструмент или корпус), но спускаются на один уровень вниз до мелкозернистой многозначности , и возникают разногласия. Например, в Senseval-2, в котором использовались тонкие смысловые различия, аннотаторы-люди соглашались только в 85% случаев появления слов. Значение слова в принципе бесконечно вариативно и зависит от контекста. Его нелегко разделить на отдельные или отдельные подзначения. Лексикографы часто обнаруживают в корпусах нечеткие и частично совпадающие значения слов, а также стандартные или общепринятые значения, расширяемые, модулируемые и используемые поразительным разнообразием способов. Искусство лексикографии состоит в том, чтобы делать обобщения от корпуса до определений, которые вызывают и объясняют весь диапазон значений слова, создавая впечатление, что слова имеют хорошее семантическое поведение. Однако совсем не ясно, применимы ли эти же различия значений в вычислительных приложениях , поскольку решения лексикографов обычно основываются на других соображениях. В 2009 году в качестве возможного решения проблемы смысловой дискретности была предложена задача - лексическая подстановка . Задача состоит в предоставлении замены для слова в контексте, сохраняющей значение исходного слова (потенциально, замены могут быть выбраны из полного лексикона целевого языка, таким образом преодолевая дискретность).

Подходы и методы

Есть два основных подхода к WSD - глубокие подходы и поверхностные подходы.

Глубинные подходы предполагают доступ к обширной совокупности мировых знаний . Эти подходы обычно не считаются очень успешными на практике, главным образом потому, что такая совокупность знаний не существует в машиночитаемом формате за пределами очень ограниченных областей. Кроме того, из-за давней традиции в компьютерной лингвистике пробовать такие подходы с точки зрения закодированных знаний, и в некоторых случаях бывает трудно провести различие между знаниями, связанными с лингвистическим или мировым знанием. Первая попытка была предпринята Маргарет Мастерман и ее коллегами из Кембриджского отделения языковых исследований в Англии в 1950-х годах. Эта попытка использовала в качестве данных перфокарточную версию Тезауруса Роджера и пронумерованные «заголовки» в качестве индикатора тем и искала повторы в тексте, используя заданный алгоритм пересечения. Он не был очень успешным, но имел прочные связи с более поздними работами, особенно с оптимизацией тезауруса методом машинного обучения Яровским в 1990-х годах.

Поверхностные подходы не пытаются понять текст, а вместо этого учитывают окружающие слова. Эти правила могут быть автоматически выведены компьютером с использованием обучающего корпуса слов, помеченных их смыслами слов. Этот подход, хотя теоретически и не так эффективен, как глубокие подходы, дает превосходные результаты на практике из-за ограниченного знания компьютера о мире.

Существует четыре стандартных подхода к WSD:

Словарные и основанные на знаниях методы: они полагаются в первую очередь на словари, тезаурусы и лексические базы знаний , без использования каких-либо доказательств.
Полу-контролируемые или минимально контролируемые методы : они используют вторичный источник знаний, такой как небольшой аннотированный корпус в качестве исходных данных в процессе начальной загрузки или выровненный по словам двуязычный корпус.
Контролируемые методы : они используют аннотированные тела для обучения.
Неконтролируемые методы : они избегают (почти) полностью внешней информации и работают непосредственно из необработанных неаннотированных корпусов. Эти методы также известны под названием распознавания смысла слов .

Почти все эти подходы работают путем определения окна из n слов содержания вокруг каждого слова, которое необходимо устранить в корпусе, и статистического анализа этих n окружающих слов. Два неглубоких подхода, используемых для обучения и устранения неоднозначности, - это наивные байесовские классификаторы и деревья решений . В недавних исследованиях методы на основе ядра, такие как машины опорных векторов , показали превосходную производительность при обучении с учителем . Подходы, основанные на графах, также привлекли большое внимание исследовательского сообщества и в настоящее время достигают производительности, близкой к современной.

Методы, основанные на словарях и знаниях

Метод леска является семенным словарем метода. Он основан на гипотезе о том, что слова, используемые вместе в тексте, связаны друг с другом и что эту связь можно наблюдать в определениях слов и их значений. Два (или более) слова устраняются путем нахождения пары словарных значений с наибольшим перекрытием слов в их словарных определениях. Например, при устранении неоднозначности слов в слове «сосновая шишка» определения соответствующих смыслов включают в себя слова «вечнозеленое растение» и «дерево» (по крайней мере, в одном словаре). Подобный подход ищет кратчайший путь между двумя словами: второе слово итеративно ищется среди определений каждого семантического варианта первого слова, затем среди определений каждого семантического варианта каждого слова в предыдущих определениях и так далее. Наконец, первое слово устраняется путем выбора семантического варианта, который минимизирует расстояние от первого до второго слова.

Альтернативой использованию определений является рассмотрение общего смыслового родства слов и вычисление семантического сходства каждой пары смыслов слова на основе данной лексической базы знаний, такой как WordNet . Графические методы, напоминающие распространяющиеся исследования активации первых дней исследований ИИ, применялись с некоторым успехом. Было показано, что более сложные подходы на основе графов работают почти так же хорошо, как контролируемые методы, или даже превосходят их в определенных областях. Недавно сообщалось, что простые меры связности графов , такие как степень , позволяют выполнять WSD по последнему слову техники при наличии достаточно богатой лексической базы знаний. Кроме того, было показано , что автоматическая передача знаний в форме семантических отношений из Википедии в WordNet способствует развитию простых методов, основанных на знаниях, позволяя им конкурировать с лучшими контролируемыми системами и даже превосходить их в параметрах предметной области.

Использование предпочтений выбора (или ограничений выбора) также полезно, например, зная, что обычно готовят еду, можно устранить неоднозначность слова «бас» в слове «Я готовлю басы» (т. Е. Это не музыкальный инструмент).

Контролируемые методы

Контролируемые методы основаны на предположении, что контекст сам по себе может предоставить достаточно доказательств, чтобы устранить неоднозначность слов (следовательно, здравый смысл и рассуждения считаются ненужными). Вероятно, каждый алгоритм машинного обучения был применен к WSD, включая связанные методы, такие как выбор функций , оптимизация параметров и ансамблевое обучение . Машины опорных векторов и обучение на основе памяти оказались на сегодняшний день наиболее успешными подходами, вероятно, потому, что они могут справиться с высокой размерностью пространства функций. Однако у этих контролируемых методов возникает новое узкое место в получении знаний, поскольку для обучения они полагаются на значительное количество корпусов, помеченных вручную сенсорными метками, создание которых трудоемко и дорого.

Полу-контролируемые методы

Из-за нехватки обучающих данных многие алгоритмы устранения неоднозначности слов используют полу-контролируемое обучение , которое позволяет использовать как помеченные, так и немаркированные данные. Алгоритм Yarowsky был ранним примером такого алгоритма с. Он использует свойства человеческих языков «Один смысл на словосочетание» и «Один смысл на дискурс» для устранения неоднозначности слов. По наблюдениям, слова имеют тенденцию проявлять только один смысл в большинстве данных дискурса и в данном словосочетании.

В самонастройки подход начинается с небольшого количества данных семян для каждого слова: либо вручную меченых обучающих примеров или небольшого числа решающих правил SUREFIRE (например, «играть» в контексте «баса» почти всегда указывает на музыкальном инструменте). Семена используются для обучения начального классификатора с использованием любого контролируемого метода. Затем этот классификатор используется в непомеченной части корпуса для извлечения большего обучающего набора, в который включены только самые надежные классификации. Процесс повторяется, каждый новый классификатор обучается на последовательно увеличивающемся учебном корпусе, пока не будет израсходован весь корпус или пока не будет достигнуто заданное максимальное количество итераций.

Другие полу-контролируемые методы используют большие количества непомеченных корпусов для предоставления информации о совместном появлении, которая дополняет помеченные корпуса. Эти методы могут помочь в адаптации контролируемых моделей к различным областям.

Кроме того, неоднозначное слово на одном языке часто переводится на разные слова на другом языке в зависимости от смысла слова. Word-выровненные двуязычные корпуса были использованы для вывода кросс-лингвальных смысловые различий, своего рода полуобучаемой системы.

Неконтролируемые методы

Обучение без учителя - самая большая проблема для исследователей WSD. Основное предположение состоит в том, что похожие смыслы возникают в аналогичных контекстах, и, таким образом, смыслы могут быть вызваны из текста путем кластеризации вхождений слов с использованием некоторой меры сходства контекста, задача, называемая индукцией или различением смысла слова . Затем новые вхождения слова можно классифицировать по ближайшим индуцированным группам / смыслам. Производительность была ниже, чем у других методов, описанных выше, но сравнения затруднены, поскольку индуцированные чувства должны отображаться в известном словаре значений слов. Если отображение на набор значений словаря нежелательно, могут быть выполнены оценки на основе кластеров (включая меры энтропии и чистоты). В качестве альтернативы, методы индукции смысла слова могут быть протестированы и сравнены в приложении. Например, было показано, что индукция смысла слов улучшает кластеризацию результатов веб-поиска за счет повышения качества кластеров результатов и степени диверсификации списков результатов. Есть надежда, что обучение без учителя преодолеет узкое место в получении знаний, поскольку оно не зависит от ручных усилий.

Представление слов с учетом их контекста через плотные векторы фиксированного размера ( вложения слов ) стало одним из самых фундаментальных блоков в нескольких системах НЛП. Несмотря на то, что большинство традиционных методов встраивания слов объединяют слова с несколькими значениями в одно векторное представление, их все же можно использовать для улучшения WSD. В дополнение к методам встраивания слов лексические базы данных (например, WordNet , ConceptNet , BabelNet ) также могут помочь неконтролируемым системам отображать слова и их значения в качестве словарей. Некоторые методы, сочетающие лексические базы данных и вложения слов, представлены в AutoExtend и наиболее подходящей смысловой аннотации (MSSA). В AutoExtend они представляют метод, который разделяет входное представление объекта на его свойства, такие как слова и их значения слов. AutoExtend использует структуру графа для сопоставления слов (например, текста) и объектов, не являющихся словами (например, синсеты в WordNet ), как узлов, а отношения между узлами как ребер. Отношения (ребра) в AutoExtend могут выражать сложение или сходство между его узлами. Первый отражает интуицию, лежащую в основе расчета смещения, а второй определяет сходство между двумя узлами. В MSSA неконтролируемая система устранения неоднозначности использует сходство между смыслами слов в фиксированном контекстном окне для выбора наиболее подходящего смысла слова с помощью предварительно обученной модели встраивания слов и WordNet . Для каждого контекстного окна MSSA вычисляет центроид определения смысла каждого слова путем усреднения векторов слов его слов в глоссах WordNet (т. Е. Кратком определяющем блеске и одном или нескольких примерах использования) с использованием предварительно обученной модели встраивания слов. Эти центроиды позже используются для выбора смысла слова с наибольшим сходством целевого слова с его непосредственно соседними соседями (т. Е. Словами-предшественниками и словами-преемниками). После того, как все слова аннотированы и устранены неоднозначности, их можно использовать в качестве обучающего корпуса в любой стандартной технике встраивания слов. В своей улучшенной версии MSSA может использовать вложения смысла слова для итеративного повторения процесса устранения неоднозначности.

Другие подходы

Другие подходы могут различаться по своим методам:

Устранение неоднозначности на основе предметной области;
Выявление доминирующих смыслов слова;
WSD с использованием кросс-языковых доказательств.
Решение WSD в независимом от языка NLU Джона Болла, сочетающем в себе теорию патома [1] и RRG (грамматику ролей и справочников)
Вывод типа в грамматиках на основе ограничений

Другие языки

Хинди : Отсутствие лексических ресурсов на хинди препятствует работе контролируемых моделей WSD, в то время как неконтролируемые модели страдают из-за обширной морфологии. Возможное решение этой проблемы - создание модели WSD с помощью параллельных корпусов . Создание хинди WordNet проложило путь для нескольких контролируемых методов, которые, как было доказано, обеспечивают более высокую точность при устранении неоднозначности существительных.

Местные препятствия и резюме

Узкое место в получении знаний, возможно, является основным препятствием на пути решения проблемы WSD. Неконтролируемые методы полагаются на знания о значениях слов, которые очень редко сформулированы в словарях и лексических базах данных. Контролируемые методы в решающей степени зависят от наличия вручную аннотированных примеров для каждого смысла слова, требование, которое пока может быть выполнено только для нескольких слов в целях тестирования, как это делается в упражнениях Senseval .

Одна из самых многообещающих тенденций в исследованиях WSD - использование крупнейшего когда-либо доступного корпуса , всемирной паутины , для автоматического получения лексической информации. WSD традиционно понимается как технология разработки промежуточного языка, которая может улучшить такие приложения, как поиск информации (IR). В этом случае, однако, верно и обратное: поисковые машины реализуют простые и надежные методы IR, которые могут успешно добывать в Интернете информацию для использования в WSD. Исторически сложившаяся нехватка обучающих данных спровоцировала появление некоторых новых алгоритмов и методов, как описано в разделе « Автоматическое получение корпусов, помеченных смысловыми метками» .

Источники внешних знаний

Знания - фундаментальный компонент WSD. Источники знаний предоставляют данные, которые необходимы для связи смыслов со словами. Они могут варьироваться от корпусов текстов, как без надписей, так и с аннотациями слов, до машиночитаемых словарей, тезаурусов, глоссариев, онтологий и т. Д. Их можно классифицировать следующим образом:

Структурированный:

Неструктурированный:

Ресурсы для коллокации
Другие ресурсы (например, список частот слов , stoplists , метки доменных и т.д.)
Корпуса : необработанные корпуса и корпуса с сенсорными комментариями.

Оценка

Сравнивать и оценивать разные системы WSD чрезвычайно сложно из-за различных наборов тестов, аналитических обзоров и используемых ресурсов знаний. Перед организацией конкретных кампаний по оценке большинство систем оценивались на внутренних, часто небольших, наборах данных . Чтобы проверить свой алгоритм, разработчики должны тратить свое время на аннотирование всех вхождений слов. И сравнение методов даже в одном и том же корпусе недопустимо, если есть разные смысловые инвентаризации.

Для определения общих наборов данных и процедур оценки были организованы общественные оценочные кампании. Senseval (теперь переименованный в SemEval ) - это международный конкурс по устранению неоднозначности, который проводится каждые три года с 1998 года: Senseval-1 (1998 г.), Senseval-2 (2001 г.), Senseval-3 (2004 г.) и его преемник SemEval (2007 г.) . Целью конкурса является организация различных лекций, подготовка и ручное аннотирование корпуса для тестовых систем, проведение сравнительной оценки систем WSD в нескольких видах задач, включая полнословные и лексические образцы WSD для разных языков, а в последнее время , новые задачи, такие как обозначение семантических ролей , глянец WSD, лексическая замена и т. д. Системы, представленные для оценки на эти соревнования, обычно объединяют различные методы и часто сочетают контролируемые и основанные на знаниях методы (особенно для предотвращения плохой работы при отсутствии обучающих примеров) .

В последние годы ^{2007-2012 гг.} Количество вариантов оценочных задач WSD увеличилось, и критерий оценки WSD резко изменился в зависимости от варианта оценочной задачи WSD. Ниже перечислены различные задачи WSD:

Выбор дизайна задачи

По мере развития технологий задачи устранения неоднозначности слов (WSD) становятся все более разнообразными в разных направлениях исследований и для большего количества языков:

Классические одноязычные оценочные задачи WSD
используют WordNet в качестве инвентаризации смысла и в значительной степени основаны на контролируемой / полууправляемой классификации с аннотированными корпусами вручную:
- Классический английский WSD использует Princeton WordNet, поскольку он учитывает инвентаризацию, а входные данные первичной классификации обычно основываются на корпусе
SemCor .
Классический WSD для других языков использует соответствующие WordNet в качестве смысловых инвентаризаций и смысловых аннотированных корпусов, помеченных на их соответствующих языках. Часто исследователи также обращаются к корпусу SemCor и выравнивают битексты с английским в качестве исходного языка.

Задача кросс-языковой оценки WSD также сосредоточена на WSD одновременно на 2 или более языках. В отличие от многоязычных задач WSD, вместо того, чтобы предоставлять вручную смысловые примеры для каждого смысла многозначного существительного, смысловой инвентарь строится на основе параллельных корпусов, например корпуса Europarl.

Задачи оценки многоязычного WSD были сосредоточены на WSD на 2 или более языках одновременно с использованием их соответствующих WordNets в качестве своего смыслового инвентаря или BabelNet в качестве многоязычного смыслового инвентаря. Он возник на основе оценочных задач Translation WSD, которые выполнялись в Senseval-2. Популярным подходом является выполнение одноязычного WSD с последующим отображением смыслов исходного языка в соответствующие переводы целевого слова.

Слово Чувство Индукция и задача Disambiguation представляет собой комбинированная оценку задачи , где инвентаризация смысла первые индуцированная из фиксированных обучающей выборки данных, состоящие из многозначных слов и фраз , что они произошли в, то WSD выполняется на другой наборе данных испытаний .

Программное обеспечение

Babelfy, единая современная система для многоязычного устранения неоднозначности слов и связывания сущностей
BabelNet API, Java API для многоязычного устранения неоднозначности Word Sense на 6 различных языках с использованием семантической сети BabelNet
WordNet :: SenseRelate, проект, который включает бесплатные системы с открытым исходным кодом для устранения неоднозначности смысла слов и устранения неоднозначности с точки зрения лексических образцов.
UKB: Graph Base WSD, набор программ для устранения неоднозначности слов и лексического сходства / родства на основе графов с использованием уже существующей базы лексических знаний.
pyWSD, Python реализации технологий Word Sense Disambiguation (WSD)

Смотрите также

Примечания

Процитированные работы

Agirre, E .; Lopez de Lacalle, A .; Сороа, А. (2009). «WSD, основанный на знаниях, в определенных доменах: более эффективный, чем общий контролируемый WSD» (PDF) . Proc. IJCAI .
Agirre, E .; М. Стивенсон. 2006. Источники знаний для WSD. В устранении неоднозначности смысла слов: алгоритмы и приложения , Э. Агирре и П. Эдмондс, ред. Спрингер, Нью-Йорк, штат Нью-Йорк.
Бар-Гилель Ю. (1964). Язык и информация . Ридинг, Массачусетс: Эддисон-Уэсли.
Buitelaar, P .; Б. Маньини, К. Страппарава и П. Фоссен. 2006. Доменно-ориентированный WSD. В устранении неоднозначности смысла слов: алгоритмы и приложения, Э. Агирре и П. Эдмондс, ред. Спрингер, Нью-Йорк, штат Нью-Йорк.
Чан, Ю.С.; HT Ng. 2005. Расширение масштабов устранения неоднозначности слов с помощью параллельных текстов. В материалах 20-й Национальной конференции по искусственному интеллекту (AAAI, Питтсбург, Пенсильвания).
Эдмондс, П. 2000. Разработка задачи для СЕНСЕВАЛ-2 . Tech. Примечание. Брайтонский университет, Брайтон. Соединенное Королевство
Феллбаум, Кристиана (1997). «Анализ рукописного задания». Proc. семинара ANLP-97 по тегированию текста с помощью лексической семантики: почему, что и как? Вашингтон, округ Колумбия, США .
Gliozzo, A .; Б. Маньини и К. Страппарава. 2004. Неконтролируемая оценка релевантности предметной области для разрешения смысловой неоднозначности . В материалах конференции 2004 г. по эмпирическим методам обработки естественного языка (EMNLP, Барселона, Испания).
Ide, N .; Т. Эрджавец, Д. Туфис. 2002. Смысловая дискриминация с параллельными телами . В материалах семинара ACL по устранению неоднозначности слов: недавние успехи и будущие направления (Филадельфия, Пенсильвания).
Килгаррифф, А. 1997. Я не верю в смысл слов . Comput. Человек. 31 (2), стр. 91–113.
Килгаррифф, А .; Г. Грефенштетте. 2003. Введение в специальный выпуск в Интернете в виде корпуса . Компьютерная лингвистика 29 (3), стр. 333–347.
Килгаррифф, Адам; Джозеф Розенцвейг, English Senseval: отчет и результаты, май – июнь 2000 г., Брайтонский университет
Лапата, М .; и Ф. Келлер. 2007. Информационно-поисковый подход к смысловому ранжированию . В материалах конференции по технологиям человеческого языка Североамериканского отделения Ассоциации компьютерной лингвистики (HLT-NAACL, Рочестер, штат Нью-Йорк).
Ленат Д. Компьютеры против здравого смысла . Проверено 10 декабря 2008 . (GoogleTachTalks на YouTube)
Ленат, Д .; RV Guha. 1989. Построение больших систем, основанных на знаниях, Аддисон-Уэсли.
Леск; М. 1986. Автоматическое устранение неоднозначности с использованием машиночитаемых словарей: Как отличить сосновую шишку от рожка мороженого . В Proc. SIGDOC-86: 5-я Международная конференция по системной документации, Торонто, Канада.
Литковски, KC 2005. Вычислительные лексиконы и словари. В Энциклопедии языка и лингвистики (2-е изд.), KR Brown, Ed. Издательство Elsevier, Оксфорд, Великобритания
Magnini, B; Г. Кавалья. 2000. Интеграция кодов предметных полей в WordNet. В материалах 2-й конференции по языковым ресурсам и оценке (LREC, Афины, Греция).
McCarthy, D .; Р. Кёлинг, Дж. Уидс, Дж. Кэрролл. 2007. Неконтролируемое приобретение преобладающих значений слов . Компьютерная лингвистика 33 (4): 553–590.
McCarthy, D .; Р. Навильи. 2009. Задача лексической замены английского языка, языковые ресурсы и оценка, 43 (2), Springer.
Михалча, Р. 2007. Использование Википедии для автоматического устранения неоднозначности слов . В Proc. Североамериканского отделения Ассоциации компьютерной лингвистики (NAACL 2007), Рочестер, апрель 2007 г.
Мохаммад, S; Г. Херст. 2006. Определение доминирования смысла слова с помощью тезауруса . В материалах 11-й конференции Европейского отделения Ассоциации компьютерной лингвистики (EACL, Тренто, Италия).
Навильи, Р. 2006. Значимая кластеризация смыслов помогает повысить эффективность устранения неоднозначности смысла слов . Proc. 44-го ежегодного собрания Ассоциации компьютерной лингвистики совместно с 21-й Международной конференцией по компьютерной лингвистике (COLING-ACL 2006), Сидней, Австралия.
Navigli, R .; А. Ди Марко. Кластеризация и диверсификация результатов веб-поиска с помощью Word Sense Induction на основе графиков . Компьютерная лингвистика, 39 (3), MIT Press, 2013, стр. 709–754.
Navigli, R .; Г. Крисафулли. Побуждение к пониманию слов для улучшения кластеризации результатов веб-поиска . Proc. конференции 2010 г. по эмпирическим методам обработки естественного языка (EMNLP 2010), MIT Stata Center, Массачусетс, США.
Navigli, R .; М. Лапата. Экспериментальное исследование связности графов для устранения неоднозначности словесного смысла без учителя . IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 32 (4), IEEE Press, 2010.
Navigli, R .; К. Литковски, О. Харгрейвс. 2007. СемЭвал-2007 Задание 07: Общее задание по английскому языку . Proc. семинара Semeval-2007 ( SemEval ) на 45-м ежегодном собрании Ассоциации компьютерной лингвистики (ACL 2007), Прага, Чешская Республика.
Навильи, Р.; П. Веларди. 2005. Структурные семантические взаимосвязи: основанный на знаниях подход к устранению смысловой неоднозначности . IEEE Transactions по анализу шаблонов и машинному анализу (TPAMI), 27 (7).
Palmer, M .; О. Бабко-Малая и Х. Т. Данг. 2004. Различная степень детализации для разных приложений . В материалах 2-го семинара по масштабируемым системам понимания естественного языка в HLT / NAACL (Бостон, Массачусетс).
Понцетто, ИП; Р. Навильи. Богатый знаниями Word Sense Disambiguation, конкурирующий с контролируемыми системами . В Proc. 48-го ежегодного собрания Ассоциации компьютерной лингвистики (ACL), 2010 г.
Pradhan, S .; Э. Лопер, Д. Длигач, М. Палмер. 2007. SemEval-2007 Задание 17: Лексический образец английского языка, SRL и все слова . Proc. семинара Semeval-2007 (SEMEVAL) на 45-м ежегодном собрании Ассоциации компьютерной лингвистики (ACL 2007), Прага, Чешская Республика.
Шютце, Х. 1998. Автоматическое распознавание смысла слова . Компьютерная лингвистика, 24 (1): 97–123.
Snow, R .; С. Пракаш, Д. Джурафски, AY Ng. 2007. Обучение объединению смыслов слов , материалы совместной конференции 2007 года по эмпирическим методам обработки естественного языка и компьютерному изучению естественного языка (EMNLP-CoNLL).
Снайдер, Б .; М. Палмер. 2004. Задание на все слова на английском языке . В Proc. 3-го Международного семинара по оценке систем семантического анализа текста (Senseval-3), Барселона, Испания.
Уивер, Уоррен (1949). «Перевод» (PDF) . В Локке, WN; Бут, AD (ред.). Машинный перевод языков: четырнадцать эссе . Кембридж, Массачусетс: MIT Press.
Wilks, Y .; Б. Слатор, Л. Гатри. 1996. Электрические слова: словари, компьютеры и значения. Кембридж, Массачусетс: MIT Press.
Яровски, Д. Устранение смысловой неоднозначности с использованием статистических моделей категорий Роже, обученных на больших корпусах . В Proc. 14-й конференции по компьютерной лингвистике (COLING), 1992.
Яровский, Д. 1995. Неконтролируемое устранение неоднозначности, соперничающее с контролируемыми методами . В Proc. 33-го ежегодного собрания Ассоциации компьютерной лингвистики.

Внешние ссылки и рекомендуемая литература

Специальный выпуск компьютерной лингвистики по устранению неоднозначности слов (1998)
Упражнения по оценке смысловой неоднозначности . Де-факто стандартные тесты для систем WSD.
Роберто Навильи. Устранение неоднозначности слов: обзор , ACM Computing Surveys, 41 (2), 2009, стр. 1–69. Актуальное состояние дел в этой области.
Устранение неоднозначности в словах, как это определено в Scholarpedia
Устранение неоднозначности в словах : современное состояние (PDF) Всесторонний обзор Проф. Нэнси Ид и Жан Веронис (1998).
Учебное пособие по устранению неоднозначности в словах, написанное Радой Михалча и Тедом Педерсеном (2005).
Ну, ну, ну ... Устранение неоднозначности в словах с помощью Google n-Grams , Крейг Трим (2013).
Устранение неоднозначности словесного смысла: алгоритмы и приложения , под редакцией Энеко Агирре и Филиппа Эдмондса (2006), Springer. Охватывает всю область с главами, написанными ведущими исследователями. www.wsdbook.org сайт книги
Бар-Гилель, Иегошуа. 1964. Язык и информация. Нью-Йорк: Эддисон-Уэсли.
Эдмондс, Филип и Адам Килгаррифф. 2002. Введение в специальный выпуск об оценке систем устранения многозначности слов. Журнал инженерии естественного языка, 8 (4): 279-291.
Эдмондс, Филипп. 2005. Лексическая неоднозначность. Энциклопедия языка и лингвистики Elsevier, 2-е изд., Изд. Кит Браун, 607–23. Оксфорд: Эльзевир.
Иде, Нэнси и Жан Веронис. 1998. Значение слова: современное состояние. Компьютерная лингвистика, 24 (1): 1-40.
Джурафски, Дэниел и Джеймс Х. Мартин. 2000. Обработка речи и языка. Нью-Джерси, США: Прентис Холл.
Литковски, KC 2005. Вычислительные лексиконы и словари. В Энциклопедии языка и лингвистики (2-е изд.), KR Brown, Ed. Издательство Elsevier, Оксфорд, Великобритания, 753–761.
Мэннинг, Кристофер Д. и Хинрих Шютце. 1999. Основы статистической обработки естественного языка. Кембридж, Массачусетс: MIT Press. Основы статистической обработки естественного языка
Михалча, Рада. 2007. Значение слова. Энциклопедия машинного обучения. Springer-Verlag.
Резник, Филипп и Давид Яровски. 2000. Различительные системы и различающие смыслы: новые методы оценки для устранения неоднозначности смысла слов, Natural Language Engineering, 5 (2): 113-133. [2]
Яровский, Дэвид. 2001. Значение слова. Справочник по обработке естественного языка, под ред. Дейл и др., 629–654. Нью-Йорк: Марсель Деккер.

Languages

In other projects