Извлечение информации - Information extraction

Извлечение информации ( IE ) - это задача автоматического извлечения структурированной информации из неструктурированных и / или полуструктурированных машиночитаемых документов и других источников, представленных в электронном виде. В большинстве случаев эта деятельность касается обработки текстов на человеческом языке посредством обработки естественного языка (NLP). Недавние действия по обработке мультимедийных документов, такие как автоматическое добавление аннотаций и извлечение контента из изображений / аудио / видео / документов, можно рассматривать как извлечение информации.

Из-за сложности проблемы современные подходы к IE сосредоточены на узко ограниченных областях. Примером может служить извлечение из новостной ленты отчетов о корпоративных слияниях, например, обозначенных формальным отношением:

,

из предложения онлайн-новостей, например:

«Вчера компания Foo Inc., базирующаяся в Нью-Йорке, объявила о приобретении Bar Corp.»

Основная цель IE - позволить выполнять вычисления на ранее неструктурированных данных. Более конкретная цель - позволить логическим рассуждениям делать выводы на основе логического содержания входных данных. Структурированные данные - это семантически четко определенные данные из выбранного целевого домена, интерпретированные с учетом категории и контекста .

Извлечение информации - это часть большой головоломки, которая связана с проблемой разработки автоматических методов управления текстом, помимо его передачи, хранения и отображения. Дисциплина поиска информации (IR) разработала автоматические методы, обычно статистического характера, для индексации больших коллекций документов и классификации документов. Другим дополнительным подходом является метод обработки естественного языка (НЛП), который со значительным успехом решил проблему моделирования обработки человеческого языка, если принять во внимание масштабность задачи. С точки зрения сложности и акцента IE решает задачи между IR и NLP. Что касается ввода, IE предполагает наличие набора документов, в котором каждый документ следует шаблону, т. Е. Описывает одну или несколько сущностей или событий способом, аналогичным таковым в других документах, но отличающимся в деталях. В качестве примера рассмотрим группу новостных статей о терроризме в Латинской Америке, каждая из которых предположительно основана на одном или нескольких террористических актах. Мы также определяем для любой данной задачи IE шаблон, который представляет собой (или набор) фрейм (ы) для хранения информации, содержащейся в одном документе. В примере с терроризмом в шаблоне должны быть слоты, соответствующие исполнителю, жертве и оружию террористического акта, а также дате, когда произошло событие. Система IE для решения этой проблемы требуется, чтобы «понять» статью об атаке настолько, чтобы найти данные, соответствующие слотам в этом шаблоне.

История

Извлечение информации восходит к концу 1970-х годов, на заре НЛП. Ранней коммерческой системой середины 1980-х годов была JASPER, созданная для Reuters компанией Carnegie Group Inc с целью предоставления финансовых новостей финансовым трейдерам в режиме реального времени .

Начиная с 1987 года, IE был стимулирован серией конференций по пониманию сообщений . MUC - это конференция, основанная на соревнованиях, которая фокусируется на следующих областях:

  • MUC-1 (1987), MUC-2 (1989): сообщения о морских операциях.
  • MUC-3 (1991), MUC-4 (1992): Терроризм в странах Латинской Америки.
  • MUC-5 (1993): Совместные предприятия и область микроэлектроники.
  • MUC-6 (1995): новостные статьи об изменениях в руководстве.
  • MUC-7 (1998): отчеты о запуске спутников.

Значительную поддержку оказало Агентство перспективных исследовательских проектов Министерства обороны США ( DARPA ), которое хотело автоматизировать рутинные задачи, выполняемые правительственными аналитиками, например сканирование газет на предмет возможных связей с терроризмом.

Настоящее значение

Современное значение IE связано с растущим объемом информации, доступной в неструктурированной форме. Тим Бернерс-Ли , изобретатель всемирной паутины , называет существующий Интернет сетью документов и выступает за то, чтобы большая часть контента была доступна в виде сети данных . Пока это не выяснится, Интернет в основном состоит из неструктурированных документов без семантических метаданных . Знания, содержащиеся в этих документах, можно сделать более доступными для машинной обработки посредством преобразования в реляционную форму или разметки с помощью тегов XML . Интеллектуальный агент, отслеживающий поток данных новостей, требует, чтобы IE преобразовывал неструктурированные данные во что-то, с чем можно было бы договориться. Типичное применение IE - сканирование набора документов, написанных на естественном языке, и заполнение базы данных извлеченной информацией.

Задачи и подзадачи

Применение извлечения информации к тексту связано с проблемой упрощения текста для создания структурированного представления информации, представленной в свободном тексте. Общая цель - создать более легко читаемый машинами текст для обработки предложений. Типичные задачи и подзадачи IE включают в себя:

  • Заполнение шаблона: извлечение фиксированного набора полей из документа, например извлечение преступников, жертв, времени и т. Д. Из газетной статьи о террористической атаке.
    • Извлечение событий: для входящего документа выведите ноль или более шаблонов событий. Например, газетная статья может описывать несколько террористических атак.
  • Пополнение базы знаний : Заполните базу данных фактами с помощью набора документов. Обычно база данных имеет форму троек (объект 1, отношение, объект 2), например ( Барак Обама , супруга, Мишель Обама )
    • Распознавание именованных сущностей : распознавание известных имен сущностей (для людей и организаций), географических названий, временных выражений и определенных типов числовых выражений путем использования существующих знаний о предметной области или информации, извлеченной из других предложений. Обычно задача распознавания включает присвоение уникального идентификатора извлеченному объекту. Более простая задача называется обнаружением сущностей , которая направлена ​​на обнаружение сущностей без каких-либо существующих знаний об экземплярах сущностей. Например, при обработке предложения «М. Смит любит рыбалку» обнаружение именованного объекта означало бы обнаружение того, что фраза «М. Смит» действительно относится к человеку, но без обязательного наличия (или использования) каких-либо знаний об определенном М. Смит, который является (или «может быть») конкретным человеком, о котором говорится в этом предложении.
    • Кореферентности разрешение: обнаружение кореферентности и анафорических связей между текстовыми структурами. В задачах IE это обычно ограничивается поиском связей между ранее извлеченными именованными объектами. Например, «International Business Machines» и «IBM» относятся к одному и тому же реальному объекту. Если мы возьмем два предложения «М. Смит любит рыбалку. Но он не любит ездить на велосипеде», было бы полезно определить, что «он» относится к ранее обнаруженному человеку «М. Смит».
    • Извлечение отношений : идентификация отношений между объектами, такими как:
      • ПЕРСОН работает на ОРГАНИЗАЦИЮ (извлечено из предложения «Билл работает на IBM»).
      • PERSON, расположенный в LOCATION (извлечено из предложения «Bill is in France.»)
  • Извлечение полуструктурированной информации, которое может относиться к любому IE, который пытается восстановить какую-либо информационную структуру, которая была потеряна в результате публикации, например:
    • Извлечение таблиц: поиск и извлечение таблиц из документов.
    • Извлечение информации из таблиц: извлечение информации из таблиц в структурированном виде. Это более сложная задача, чем извлечение таблицы, поскольку извлечение таблицы - это только первый шаг, в то время как понимание ролей ячеек, строк, столбцов, связывание информации внутри таблицы и понимание информации, представленной в таблице, являются дополнительными задачами, необходимыми для таблицы извлечение информации.
    • Извлечение комментариев: извлечение комментариев из фактического содержания статьи для восстановления связи между авторами каждого предложения
  • Анализ языка и словарного запаса
  • Аудио извлечение
    • Извлечение музыки на основе шаблонов: поиск соответствующей характеристики в звуковом сигнале, взятом из заданного репертуара; например, временные индексы появления ударных звуков могут быть извлечены, чтобы представить существенный ритмический компонент музыкального произведения.

Обратите внимание, что этот список не является исчерпывающим и что точное значение действий IE не является общепринятым, и что многие подходы объединяют несколько подзадач IE для достижения более широкой цели. В IE часто используются машинное обучение, статистический анализ и / или обработка естественного языка.

IE для нетекстовых документов становится все более интересной темой в исследованиях, и информация, извлеченная из мультимедийных документов, теперь может быть выражена в структуре высокого уровня, как это делается в тексте. Это, естественно, приводит к слиянию информации, извлеченной из различных документов и источников.

Приложения World Wide Web

IE был в центре внимания конференций MUC. Однако распространение Интернета усилило потребность в разработке систем IE, которые помогают людям справляться с огромным объемом данных , доступных в Интернете. Системы, которые выполняют IE из онлайн-текста, должны отвечать требованиям низкой стоимости, гибкости в разработке и легкой адаптации к новым доменам. Системы MUC не соответствуют этим критериям. Более того, лингвистический анализ, выполняемый для неструктурированного текста, не использует теги HTML / XML и форматы разметки, доступные в онлайн-текстах. В результате для IE в Интернете были разработаны менее лингвистические подходы с использованием оболочек , которые представляют собой наборы высокоточных правил, извлекающих содержимое конкретной страницы. Ручная разработка оболочек оказалась трудоемкой задачей, требующей высокого уровня знаний. Методы машинного обучения , контролируемые или неконтролируемые , используются для автоматического установления таких правил.

Оболочки обычно обрабатывают сильно структурированные коллекции веб-страниц, такие как каталоги продуктов и телефонные справочники. Однако они терпят неудачу, если тип текста менее структурирован, что также часто встречается в Интернете. Недавние усилия по адаптивному извлечению информации мотивируют разработку систем IE, которые могут обрабатывать различные типы текста, от хорошо структурированного до почти свободного текста, где обычные оболочки терпят неудачу, включая смешанные типы. Такие системы могут использовать поверхностное знание естественного языка и, таким образом, также могут применяться к менее структурированным текстам.

Недавняя разработка - это визуальное извлечение информации, которое основывается на отображении веб-страницы в браузере и создании правил на основе близости регионов на отображаемой веб-странице. Это помогает извлекать из сложных веб-страниц объекты, которые могут демонстрировать визуальный узор, но не имеют заметного шаблона в исходном коде HTML.

Подходы

В настоящее время широко распространены следующие стандартные подходы:

Для IE существует множество других подходов, включая гибридные подходы, которые объединяют некоторые из стандартных подходов, перечисленных ранее.

Бесплатное или открытое программное обеспечение и услуги

  • Общая архитектура для текстовой инженерии (GATE) поставляется в комплекте с бесплатной системой извлечения информации.
  • Apache OpenNLP - это набор инструментов машинного обучения Java для обработки естественного языка.
  • OpenCalais - это веб-сервис автоматического извлечения информации от Thomson Reuters (бесплатная ограниченная версия)
  • Machine Learning for Language Toolkit (Mallet) - это пакет на основе Java для множества задач обработки естественного языка, включая извлечение информации.
  • DBpedia Spotlight - это инструмент с открытым исходным кодом на Java / Scala (и бесплатный веб-сервис), который можно использовать для распознавания именованных сущностей и разрешения имен .
  • Natural Language Toolkit - это набор библиотек и программ для символьной и статистической обработки естественного языка (NLP) для языка программирования Python.
  • См. Также реализации CRF

Смотрите также

использованная литература

  1. ^ FREITAG, ДЭЙН. «Машинное обучение для извлечения информации в неформальных областях» (PDF) . 2000 Kluwer Academic Publishers. Отпечатано в Нидерландах .
  2. ^ Андерсен, Пегги М .; Hayes, Филип Дж .; Huettner, Alison K .; Schmandt, Linda M .; Ниренбург, Ирэн Б.; Вайнштейн, Стивен П. (1992). «Автоматическое извлечение фактов из пресс-релизов для создания новостей» . Труды третьей конференции по прикладной обработке естественного языка - . С. 170–177. CiteSeerX  10.1.1.14.7943 . DOI : 10.3115 / 974499.974531 . S2CID  14746386 .
  3. ^ Коуи, Джим; Уилкс, Йорик (1996). Извлечение информации (PDF) . п. 3. CiteSeerX  10.1.1.61.6480 . S2CID  10237124 . Архивировано из оригинального (PDF) 20 февраля 2019 года.
  4. ^ Марко Костантино, Паоло Колетти, Извлечение информации в финансах, Wit Press, 2008. ISBN  978-1-84564-146-7
  5. ^ «Связанные данные - история до сих пор» (PDF) .
  6. ^ «Тим Бернерс-Ли в следующей сети» .
  7. ^ RK Srihari , W. Li, C. Niu и T. Cornell, «InfoXtract: настраиваемый механизм извлечения информации промежуточного уровня», Journal of Natural Language Engineering , Cambridge U. Press, 14 (1), 2008, pp.33- 69.
  8. ^ a b Дат Куок Нгуен и Карин Верспур (2019). «Сквозное извлечение нейронных отношений с использованием глубокого биаффинного внимания». Труды 41-й Европейской конференции по поиску информации (ECIR) . arXiv : 1812.11275 . DOI : 10.1007 / 978-3-030-15712-8_47 .
  9. Перейти ↑ Milosevic N, Gregson C, Hernandez R, Nenadic G (февраль 2019). «Структура для извлечения информации из таблиц в биомедицинской литературе». Международный журнал анализа и распознавания документов (IJDAR) . 22 (1): 55–78. arXiv : 1902.10031 . Bibcode : 2019arXiv190210031M . DOI : 10.1007 / s10032-019-00317-0 . S2CID  62880746 .
  10. ^ Милошевич, Никола (2018). Многоуровневый подход к извлечению информации из таблиц в биомедицинских документах (PDF) (PhD). Манчестерский университет.
  11. Перейти ↑ Milosevic N, Gregson C, Hernandez R, Nenadic G (февраль 2019). «Структура для извлечения информации из таблиц в биомедицинской литературе». Международный журнал анализа и распознавания документов (IJDAR) . 22 (1): 55–78. arXiv : 1902.10031 . Bibcode : 2019arXiv190210031M . DOI : 10.1007 / s10032-019-00317-0 . S2CID  62880746 .
  12. Перейти ↑ Milosevic N, Gregson C, Hernandez R, Nenadic G (июнь 2016). «Распутывание структуры таблиц в научной литературе» . 21-я Международная конференция по приложениям естественного языка к информационным системам . Конспект лекций по информатике. 21 : 162–174. DOI : 10.1007 / 978-3-319-41754-7_14 . ISBN 978-3-319-41753-0.
  13. ^ Милошевич, Никола (2018). Многоуровневый подход к извлечению информации из таблиц в биомедицинских документах (PDF) (PhD). Манчестерский университет.
  14. ^ A.Zils, F.Pachet, O.Delerue и Ф. Gouyon, Автоматическое извлечение барабанных треков с полифонической музыки сигналов , Труды WedelMusic, Дармштадт, Германия, 2002.
  15. ^ Chenthamarakshan, Vijil; Desphande, Prasad M; Кришнапурам, Рагху; Варадараджан, Рамакришнан; Штольце, Кнут (2015). «WYSIWYE: алгебра для выражения пространственных и текстовых правил для извлечения информации». arXiv : 1506.08454 [ cs.CL ].
  16. ^ Баумгартнер, Роберт; Флеска, Серджио; Готтлоб, Георг (2001). «Извлечение визуальной информации из Интернета с помощью Lixto»: 119–128. CiteSeerX  10.1.1.21.8236 . Цитировать журнал требует |journal=( помощь )
  17. ^ Пэн, Ф .; МакКаллум, А. (2006). «Извлечение информации из исследовательских работ с использованием условных случайных полей ☆». Обработка информации и управление . 42 (4): 963. DOI : 10.1016 / j.ipm.2005.09.002 .
  18. Симидзу, Нобуюки; Хасс, Эндрю (2006). «Извлечение представления знаний на основе фреймов из инструкций по маршруту» (PDF) . Архивировано из оригинального (PDF) 01.09.2006 . Проверено 27 марта 2010 .

внешние ссылки