Изучение онтологий - Ontology learning

Онтология обучения ( онтология добычи , онтология поколения , или приобретения онтологии ) является автоматическим или полуавтоматическим созданием онтологий , включая извлечение соответствуя домен терминов и отношений между понятиями , что эти термины представляют из корпуса естественного текста языка и кодировок их с помощью языка онтологий для облегчения поиска. Поскольку создание онтологий вручную чрезвычайно трудоемко и требует много времени, есть большая мотивация для автоматизации процесса.

Обычно процесс начинается с извлечения терминов и понятий или словосочетаний из простого текста с помощью лингвистических процессоров, таких как теги частей речи и фрагменты фраз . Затем для извлечения сигнатур отношений используются статистические или символьные методы , часто основанные на методах извлечения гиперонимов на основе шаблонов или определений.

Процедура

Обучение онтологий (OL) используется для (полу) автоматического извлечения целых онтологий из текста на естественном языке. Процесс обычно разбивается на следующие восемь задач, которые не обязательно применяются в каждой системе обучения онтологии.

Извлечение терминологии домена

На этапе извлечения терминологии предметной области извлекаются специфические для предметной области термины, которые используются на следующем шаге (обнаружение концепций) для получения концепций. Соответствующие термины могут быть определены, например, вычислением значений TF / IDF или применением метода C-значение / NC-значение. Полученный список терминов должен быть отфильтрован экспертом в предметной области. На следующем этапе, аналогично разрешению кореферентности при извлечении информации , OL-система определяет синонимы, поскольку они имеют одно и то же значение и, следовательно, соответствуют одному и тому же понятию. Поэтому наиболее распространенными методами являются кластеризация и применение показателей статистического сходства.

Открытие концепции

На этапе открытия концепции термины сгруппированы по смысловым единицам, которые соответствуют абстракции мира и, следовательно, концепциям . Сгруппированные термины - это термины, относящиеся к предметной области, и их синонимы, которые были идентифицированы на этапе извлечения терминологии предметной области.

Вывод иерархии понятий

На этапе создания иерархии концептов система OL пытается упорядочить извлеченные концепции в таксономическую структуру. В основном это достигается с помощью неконтролируемых иерархических методов кластеризации . Поскольку результат таких методов часто зашумлен, добавляется этап контроля, например оценка пользователем. Еще один метод вывода иерархии понятий заключается в использовании нескольких шаблонов, которые должны указывать на отношения суб- или суперпредположения . Такие шаблоны, как «X, то есть Y» или «X is a Y», указывают на то, что X является подклассом Y. Такой шаблон можно эффективно проанализировать, но они часто возникают слишком редко, чтобы выделить достаточно взаимосвязей под- или надпредприятий. Вместо этого разрабатываются методы начальной загрузки, которые автоматически изучают эти шаблоны и, следовательно, обеспечивают более широкий охват.

Изучение не таксономических отношений

На этапе изучения не-таксономических отношений извлекаются отношения, которые не выражают каких-либо под- или надпредположений. Такие отношения, например, связаны с местом работы или местонахождением. Есть два общих подхода к решению этой подзадачи. Первый основан на извлечении анонимных ассоциаций, которым на втором этапе присваиваются соответствующие имена. Второй подход извлекает глаголы, которые указывают на отношения между сущностями, представленными окружающими словами. Результат обоих подходов должен быть оценен онтологом для обеспечения точности.

Открытие правил

Во время открытия правил для извлеченных концептов генерируются аксиомы (формальное описание концептов). Это может быть достигнуто, например, путем анализа синтаксической структуры определения естественного языка и применения правил преобразования к результирующему дереву зависимостей. Результатом этого процесса является список аксиом, который затем сводится к описанию концепта. Затем этот результат оценивается онтологом.

Население онтологий

На этом этапе онтология дополняется экземплярами концепций и свойств. Для пополнения экземплярами концептов используются методы, основанные на сопоставлении лексико-синтаксических шаблонов. Экземпляры свойств добавляются с помощью методов начальной загрузки , которые собирают кортежи отношений.

Расширение иерархии понятий

На этом этапе система OL пытается расширить таксономическую структуру существующей онтологии дополнительными концепциями. Это может быть выполнено контролируемым образом с помощью обученного классификатора или неконтролируемым образом посредством применения мер сходства .

Обнаружение кадров и событий

Во время обнаружения кадра / события OL-система пытается извлечь из текста сложные взаимосвязи, например, кто отправился, откуда, в какое место и когда. Подходы варьируются от применения SVM с методами ядра до маркировки семантических ролей (SRL) и методов глубокого семантического анализа .

Инструменты

Dog4Dag (Дрезденский генератор онтологий для направленных ациклических графов) - это плагин для создания онтологий для Protégé 4.1 и OBOEdit 2.1. Это позволяет генерировать термины, братья и сестры, генерировать определения и индукцию отношений. DOG4DAG, интегрированный в Protégé 4.1 и OBO-Edit 2.1, позволяет расширять онтологию для всех распространенных форматов онтологий (например, OWL и OBO). В основном ограничивается расширениями службы поиска EBI и Bio Portal.

Смотрите также

Библиография

использованная литература