Извлечение данных - Data extraction

Извлечение данных - это действие или процесс извлечения данных из (обычно неструктурированных или плохо структурированных) источников данных для дальнейшей обработки или хранения данных ( миграция данных ). Таким образом, за импортом в промежуточную систему извлечения обычно следует преобразование данных и, возможно, добавление метаданных перед экспортом на другой этап рабочего процесса данных .

Обычно термин «извлечение данных» применяется, когда ( экспериментальные ) данные сначала импортируются в компьютер из первичных источников, таких как измерительные или записывающие устройства . Современные электронные устройства обычно имеют электрический разъем (например, USB ), через который « необработанные данные » могут передаваться в персональный компьютер .

Источники данных

Типичные источники неструктурированных данных включают веб-страницы , электронную почту , документы, PDF-файлы , отсканированный текст, отчеты мэйнфрейма, файлы спула, объявления и т. Д., Которые в дальнейшем используются для потенциальных клиентов по продажам или маркетингу. Извлечение данных из этих неструктурированных источников превратилось в серьезную техническую проблему, поскольку, поскольку исторически извлечение данных приходилось иметь дело с изменениями в физических аппаратных форматах, большая часть текущего извлечения данных связана с извлечением данных из этих неструктурированных источников данных и из различных форматов программного обеспечения. . Этот растущий процесс извлечения данных из Интернета называется «извлечением данных из Интернета» или «извлечением данных из Интернета ».

Впечатляющая структура

Процесс добавления структуры к неструктурированным данным принимает несколько форм.

  • Использование сопоставления текстовых шаблонов, таких как регулярные выражения, для идентификации небольших или крупномасштабных структур, например записей в отчете и связанных с ними данных из верхних и нижних колонтитулов;
  • Использование табличного подхода для определения общих разделов в пределах ограниченной области, например, в резюме по электронной почте, определение навыков, предыдущего опыта работы, квалификации и т. Д. С использованием стандартного набора часто используемых заголовков (они будут отличаться от языка к языку), например, образование может находится в разделе "Образование / Квалификация / Курсы";
  • Использование текстовой аналитики, чтобы попытаться понять текст и связать его с другой информацией

Смотрите также

Ссылки