Метаданные - Metadata

В 21 веке метаданные обычно относятся к цифровым формам, но традиционные карточные каталоги содержат метаданные, причем карточки содержат информацию о книгах в библиотеке (автор, название, тема и т. Д.).

Метаданные - это « данные, которые предоставляют информацию о других данных», но не их содержимое, например текст сообщения или само изображение. Есть много различных типов метаданных, в том числе:

  • Описательные метаданные - описательная информация о ресурсе. Он используется для обнаружения и идентификации. Он включает такие элементы, как заголовок, аннотация, автор и ключевые слова.
  • Структурные метаданные - метаданные о контейнерах данных и указывают, как составные объекты объединяются, например, как страницы упорядочены для формирования глав. В нем описаны типы, версии, взаимосвязи и другие характеристики цифровых материалов.
  • Административные метаданные - информация, которая помогает управлять ресурсом, например тип ресурса, разрешения, а также время и способ его создания.
  • Справочные метаданные - информация о содержании и качестве статистических данных.
  • Статистические метаданные , также называемые данными процесса, могут описывать процессы, которые собирают, обрабатывают или производят статистические данные.
  • Юридические метаданные - предоставляют информацию о создателе, правообладателе и публичном лицензировании, если таковое имеется.

Метаданные не строго привязаны к одной из этих категорий, поскольку они могут описывать часть данных многими другими способами.

История

Метаданные имеют разные цели. Это может помочь пользователям находить нужную информацию и находить ресурсы. Он также может помочь организовать электронные ресурсы, обеспечить цифровую идентификацию, а также архивировать и сохранять ресурсы. Метаданные позволяют пользователям получать доступ к ресурсам, «позволяя находить ресурсы по соответствующим критериям, идентифицируя ресурсы, объединяя аналогичные ресурсы, выделяя разнородные ресурсы и предоставляя информацию о местоположении». Метаданные о телекоммуникационной деятельности, включая Интернет- трафик, очень широко собираются различными национальными правительственными организациями. Эти данные используются для анализа трафика и могут быть использованы для массового наблюдения .

Метаданные не традиционно используются в карточных каталогов в библиотеках до 1980 - х годов, когда библиотеки превращают свои данные каталога цифровых баз данных. В 2000-х годах, когда данные и информация все чаще хранились в цифровом виде, эти цифровые данные описывались с использованием стандартов метаданных .

Первое описание "метаданных" для компьютерных систем якобы отмечено экспертами Центра международных исследований Массачусетского технологического института Дэвидом Гриффелем и Стюартом Макинтошем в 1967 году: данные. У нас также есть утверждения на метаязыке, описывающие отношения данных и преобразования, и отношения «должно / есть» между нормой и данными ».

Существуют уникальные стандарты метаданных для различных дисциплин (например, музейные коллекции, цифровые аудиофайлы , веб-сайты и т. Д.). Описание содержимого и контекста данных или файлов данных увеличивает их полезность. Например, веб-страница может включать в себя метаданные, определяющие, на каком программном языке написана страница (например, HTML), какие инструменты использовались для ее создания, о каких предметах страница и где найти дополнительную информацию о предмете. Эти метаданные могут автоматически улучшить впечатление читателя и упростить пользователям поиск веб-страницы в Интернете. CD может включать в себя метаданные , предоставляющей информации о музыкантах, певцах и композиторах , чьи работа появится на диске.

Во многих странах правительственные организации обычно хранят метаданные об электронной почте, телефонных звонках, веб-страницах, видеотрафике, IP-соединениях и местонахождении сотовых телефонов.

Определение

Метаданные означают «данные о данных». Хотя префикс «мета» означает «после» или «за», в эпистемологии он используется для обозначения «примерно». Метаданные определяются как данные, предоставляющие информацию об одном или нескольких аспектах данных; он используется для обобщения основной информации о данных, которая может упростить отслеживание и работу с конкретными данными. Вот некоторые примеры:

  • Средства создания данных
  • Назначение данных
  • Время и дата создания
  • Создатель или автор данных
  • Местоположение в компьютерной сети, где были созданы данные
  • Используемые стандарты
  • Размер файла
  • Качество данных
  • Источник данных
  • Процесс, используемый для создания данных

Например, цифровое изображение может включать в себя метаданные, которые описывают размер изображения, его глубину цвета, разрешение, время создания, выдержку и другие данные. Метаданные текстового документа могут содержать информацию о том, как долго документ, кто его автор, когда документ был написан, а также краткое изложение документа. Метаданные на веб-страницах могут также содержать описания содержимого страницы, а также ключевые слова, связанные с содержимым. Эти ссылки часто называют «метатегами», которые использовались в качестве основного фактора при определении порядка поиска в Интернете до конца 1990-х годов. Использование метатегов в поиске в Интернете снизилось в конце 1990-х годов из-за "переполнения ключевыми словами". Метатеги в основном использовались неправильно, чтобы заставить поисковые системы думать, что некоторые веб-сайты имеют большую релевантность в поиске, чем они есть на самом деле.

Метаданные могут храниться и управляться в базе данных , часто называемой реестром метаданных или репозиторием метаданных . Однако без контекста и точки отсчета может быть невозможно идентифицировать метаданные, просто взглянув на них. Например: сама по себе база данных, содержащая несколько чисел, все 13 цифр могут быть результатами вычислений или списком чисел для включения в уравнение - без какого-либо другого контекста сами числа могут восприниматься как данные. Но если учесть контекст, что эта база данных представляет собой журнал коллекции книг, эти 13-значные числа теперь могут быть идентифицированы как ISBN - информация, которая относится к книге, но сама по себе не является информацией в книге. Термин «метаданные» был введен в 1968 году Филипом Бэгли в его книге «Расширение концепций языка программирования», где ясно, что он использует термин в «традиционном» смысле ISO 11179, то есть «структурные метаданные», то есть «данные». о контейнерах данных »; вместо альтернативного смысла «содержание об отдельных экземплярах содержимого данных» или метаконтента, тип данных, который обычно встречается в каталогах библиотек. С тех пор этот термин получил широкое распространение в областях управления информацией, информатики, информационных технологий, библиотечного дела и ГИС . В этих полях слово « метаданные» определяется как «данные о данных». Хотя это общепринятое определение, различные дисциплины приняли свое собственное более конкретное объяснение и использование этого термина.

В 2013 году Slate сообщил, что правительство США может толковать термин «метаданные» в широком смысле и включать в себя содержание сообщения, например темы электронных писем.

Типы

Хотя приложение метаданных является разнообразным, охватывающим большое количество полей, существуют специализированные и общепринятые модели для определения типов метаданных. Бретертон & Singley (1994) различает два различных классов: метаданные управления / структурные и направляющие метаданные. Структурные метаданные описывают структуру объектов базы данных, таких как таблицы, столбцы, ключи и индексы. Справочные метаданные помогают людям находить определенные элементы и обычно выражаются в виде набора ключевых слов на естественном языке. По словам Ральфа Кимбалла, метаданные можно разделить на 2 похожие категории: технические метаданные и бизнес-метаданные. Технические метаданные соответствуют внутренним метаданным, а бизнес-метаданные соответствуют внешним метаданным. Кимбалл добавляет третью категорию - метаданные процесса . С другой стороны, NISO различает три типа метаданных: описательные, структурные и административные.

Описательные метаданные обычно используются для обнаружения и идентификации, в качестве информации для поиска и определения местоположения объекта, такого как заголовок, автор, темы, ключевые слова, издатель. Структурные метаданные описывают, как организованы компоненты объекта. Примером структурных метаданных может служить порядок страниц для формирования глав книги. Наконец, административные метаданные предоставляют информацию, которая помогает управлять источником. Административные метаданные относятся к технической информации, включая тип файла или время и способ создания файла. Двумя подтипами административных метаданных являются метаданные управления правами и метаданные сохранения. Метаданные управления правами объясняют права интеллектуальной собственности, а метаданные сохранения содержат информацию для сохранения и сохранения ресурса.

У хранилищ статистических данных есть свои собственные требования к метаданным, чтобы описать не только источник и качество данных, но и то, какие статистические процессы использовались для создания данных, что имеет особое значение для статистического сообщества, чтобы как проверить, так и улучшить процесс производства статистических данных.

Дополнительный тип метаданных, который становится все более развитым, - это метаданные доступности . Метаданные доступности - не новая концепция для библиотек; однако достижения в области универсального дизайна повысили его значимость. Такие проекты, как Cloud4All и GPII, определили отсутствие общей терминологии и моделей для описания потребностей и предпочтений пользователей и информации, которая соответствует этим потребностям, как серьезный пробел в предоставлении решений универсального доступа. Эти типы информации являются метаданными доступности. Schema.org включает несколько свойств доступности, основанных на спецификации элементов данных IMS Global Access for All Information Model. На вики-странице WebSchemas / Accessibility перечислены несколько свойств и их значения.

В то время как усилия по описанию и стандартизации разнообразных потребностей в доступности для соискателей информации начинают становиться все более надежными, их внедрение в установленные схемы метаданных не было должным образом развито. Например, в то время как «аудитория» Dublin Core (DC) и «уровень чтения» MARC 21 могут использоваться для определения ресурсов, подходящих для пользователей с дислексией, а «формат» DC может использоваться для определения ресурсов, доступных в шрифте Брайля, аудио или большие форматы печати, впереди еще много работы.

Структуры

Метаданные (metacontent) или, более правильно, словари используются для сборки метаданных (metacontent) отчетность, как правило , структурированы в соответствии с стандартизированной концепции с использованием четко определенной схемы метаданных, в том числе: метаданных стандартов и метаданных моделей . Такие инструменты, как контролируемые словари , таксономии , тезаурусы , словари данных и реестры метаданных, могут использоваться для дальнейшей стандартизации метаданных. Общность структурных метаданных также имеет первостепенное значение при разработке моделей данных и проектировании баз данных .

Синтаксис

Синтаксис метаданных (метаконтента) относится к правилам, созданным для структурирования полей или элементов метаданных (метаконтента). Единая схема метаданных может быть выражена на нескольких разных языках разметки или программирования, для каждого из которых требуется свой синтаксис. Например, Dublin Core может быть выражен в виде обычного текста, HTML , XML и RDF .

Типичным примером метаконтента (руководства) является библиографическая классификация, предмет, номер класса Дьюи Десятичный . В любой «классификации» какого-либо объекта всегда есть подразумеваемое утверждение. Чтобы классифицировать объект, например, как класс Дьюи номер 514 (Топология) (т.е. книги, имеющие номер 514 на корешке), подразумевается следующее утверждение: «<книга> <предметный заголовок> <514>». Это тройка субъект-предикат-объект или, что более важно, тройка «класс-атрибут-значение». Первые два элемента тройки (класс, атрибут) являются частями некоторых структурных метаданных, имеющих определенную семантику. Третий элемент - это значение, предпочтительно из некоторого контролируемого словаря, некоторые справочные (основные) данные. Комбинация элементов метаданных и основных данных приводит к утверждению, которое является утверждением метаконтента, то есть «метаконтент = метаданные + основные данные». Все эти элементы можно рассматривать как «словарь». И метаданные, и основные данные - это словари, которые можно собрать в операторы метаконтента. Существует множество источников этих словарей, как метаданных, так и основных данных: UML, EDIFACT, XSD, Dewey / UDC / LoC, SKOS, ISO-25964, Pantone, биномиальная номенклатура Линнея и т. Д. Использование контролируемых словарей для компонентов операторов метаконтента, будь то для индексации или поиска, это одобрено ISO 25964 : «Если и индексатор, и искатель направляются к выбору одного и того же термина для одной и той же концепции, тогда будут извлечены соответствующие документы». Это особенно актуально при рассмотрении поисковых систем в Интернете, таких как Google. Процесс индексирует страницы, затем сопоставляет текстовые строки, используя свой сложный алгоритм; не происходит никакого интеллекта или «умозаключений», только их иллюзия.

Иерархические, линейные и плоские схемы

Схемы метаданных могут быть иерархическими по своей природе, когда между элементами метаданных существуют отношения, а элементы являются вложенными, так что между элементами существуют родительско-дочерние отношения. Примером иерархической схемы метаданных является схема IEEE LOM , в которой элементы метаданных могут принадлежать родительскому элементу метаданных. Схемы метаданных также могут быть одномерными или линейными, где каждый элемент полностью отделен от других элементов и классифицируется только по одному измерению. Примером линейной схемы метаданных является схема Dublin Core , которая является одномерной. Схемы метаданных часто бывают двухмерными или плоскими, где каждый элемент полностью отделен от других элементов, но классифицируется в соответствии с двумя ортогональными измерениями.

Гранулярность

Степень структурирования данных или метаданных называется их «степенью детализации» . «Степень детализации» означает, насколько подробно предоставляется информация. Метаданные с высокой степенью детализации позволяют получать более глубокую, подробную и более структурированную информацию и обеспечивают более высокий уровень технических манипуляций. Более низкий уровень детализации означает, что метаданные могут быть созданы со значительно меньшими затратами, но не будут предоставлять подробную информацию. Основное влияние гранулярности не только на создание и захват, но, более того, на затраты на обслуживание. Как только структуры метаданных устаревают, также становится доступным доступ к указанным данным. Следовательно, детализация должна учитывать усилия по созданию метаданных, а также усилия по их поддержке.

Гипермаппинг

Во всех случаях, когда схемы метаданных превышают планарное изображение, требуется некоторый тип гиперотображения, чтобы обеспечить отображение и просмотр метаданных в соответствии с выбранным аспектом и для обслуживания специальных представлений. Гипермаппинг часто применяется для наложения слоев географической и геологической информации.

Стандарты

К метаданным применяются международные стандарты. В национальных и международных сообществах по стандартизации, особенно в ANSI (Американский национальный институт стандартов) и ISO (Международная организация по стандартизации), проводится большая работа по достижению консенсуса по стандартизации метаданных и реестров. Основным стандартом реестра метаданных является ISO / IEC 11179 Metadata Registries (MDR), структура стандарта описана в ISO / IEC 11179-1: 2004. Новое издание Части 1 находится на заключительной стадии для публикации в 2015 году или в начале 2016 года. Оно было пересмотрено, чтобы привести его в соответствие с текущей редакцией Части 3, ISO / IEC 11179-3: 2013, которая расширяет MDR для поддержки регистрации Концепции. Системы. (см. ИСО / МЭК 11179 ). Этот стандарт определяет схему для записи как значения, так и технической структуры данных для однозначного использования людьми и компьютерами. Стандарт ISO / IEC 11179 относится к метаданным как к информационным объектам о данных или «данным о данных». В ISO / IEC 11179 Часть-3 информационные объекты - это данные об элементах данных, областях значений и других повторно используемых семантических и репрезентативных информационных объектах, которые описывают значение и технические детали элемента данных. Этот стандарт также предписывает детали для реестра метаданных, а также для регистрации и администрирования информационных объектов в реестре метаданных. ИСО / МЭК 11179 Часть 3 также содержит положения для описания составных структур, которые являются производными других элементов данных, например, посредством вычислений, коллекций одного или нескольких элементов данных или других форм производных данных. Хотя этот стандарт изначально описывает себя как реестр «элементов данных», его цель состоит в том, чтобы поддерживать описание и регистрацию содержимого метаданных независимо от какого-либо конкретного приложения, предоставляя описания для обнаружения и повторного использования людьми или компьютерами при разработке новых приложений, баз данных или для анализа данных, собранных в соответствии с зарегистрированным содержанием метаданных. Этот стандарт стал общей основой для других типов реестров метаданных, многократно используя и расширяя регистрационную и административную часть стандарта.

Сообщество геопространственных данных имеет традицию специализированных стандартов геопространственных метаданных , в частности, основываясь на традициях библиотек и каталогов карт и изображений. Формальные метаданные обычно необходимы для геопространственных данных, поскольку обычные подходы к обработке текста не применимы.

В Dublin Core термины метаданных представляют собой набор словарных терминов , которые могут быть использованы для описания ресурсов для целей открытия. Исходный набор из 15 классических терминов метаданных, известный как набор элементов метаданных Dublin Core, одобрен в следующих стандартах:

  • IETF RFC 5013
  • Стандарт ISO 15836-2009
  • Стандарт NISO Z39.85.

Словарь каталога данных W3C (DCAT) - это словарь RDF, который дополняет Dublin Core классами для набора данных, службы данных, каталога и записи каталога. DCAT также использует элементы из FOAF, PROV-O и OWL-Time. DCAT предоставляет модель RDF для поддержки типичной структуры каталога, который содержит записи, каждая из которых описывает набор данных или службу.

Хотя это не стандарт, микроформат (также упомянутый в разделе метаданных в Интернете ниже) представляет собой веб-подход к семантической разметке, который стремится повторно использовать существующие теги HTML / XHTML для передачи метаданных. Микроформат следует стандартам XHTML и HTML, но сам по себе не является стандартом. Один защитник микроформатов, Тантек Челик , охарактеризовал проблему с альтернативными подходами:

Вот новый язык, который мы хотим, чтобы вы выучили, и теперь вам нужно вывести эти дополнительные файлы на свой сервер. Это хлопотно. (Микроформаты) снижают входной барьер.

Использовать

Фотографии

В файл цифровой фотографии могут быть записаны метаданные, в которых будет указано, кто владеет ими, авторские права и контактная информация, марка или модель камеры, создавшей файл, а также информация об экспозиции (выдержка, диафрагма и т. Д.) И описательная информация. например, ключевые слова о фотографии, делая файл или изображение доступным для поиска на компьютере и / или в Интернете. Некоторые метаданные создаются камерой, а некоторые вводятся фотографом и / или программным обеспечением после загрузки на компьютер. Большинство цифровых фотоаппаратов записывают метаданные о номере модели, выдержке и т. Д., А некоторые позволяют редактировать их; эта функция была доступна на большинстве зеркалок Nikon после Nikon D3 , на большинстве новых камер Canon после Canon EOS 7D и на большинстве зеркалок Pentax после Pentax K-3. Метаданные можно использовать для упрощения организации на этапе постпродакшна с использованием ключевых слов. Фильтры можно использовать для анализа определенного набора фотографий и создания выборок по таким критериям, как рейтинг или время съемки. На устройствах с функциями геолокации, таких как GPS (в частности, смартфоны), также может быть указано место, откуда была сделана фотография.

Стандарты фотографических метаданных регулируются организациями, которые разрабатывают следующие стандарты. Они включают, но не ограничиваются:

  • Модель обмена информацией IPTC IIM (Международный совет по телекоммуникациям и прессе)
  • Схема ядра IPTC для XMP
  • XMP - расширяемая платформа метаданных (стандарт ISO)
  • Exif - формат файла изображения с возможностью обмена, поддерживаемый CIPA (Ассоциация производителей камер и устройств обработки изображений) и публикуемый JEITA (Японская ассоциация производителей электроники и информационных технологий)
  • Дублинское ядро (Инициатива по метаданным Дублинского ядра - DCMI)
  • PLUS (Универсальная система лицензирования изображений)
  • VRA Core (ассоциация визуальных ресурсов)

Телекоммуникации

Информация о времени, происхождении и назначении телефонных звонков, электронных сообщений, мгновенных сообщений и других способов связи, в отличие от содержимого сообщения, является другой формой метаданных. Массовый сбор этих подробных метаданных записи разговоров спецслужбами оказался спорным после раскрытия Эдвардом Сноуденом того факта, что определенные спецслужбы, такие как АНБ, хранили (и, возможно, продолжают) хранить онлайн-метаданные миллионов пользователей Интернета на срок до год, независимо от того, были ли они [когда-либо] лицами, интересующими агентство.

видео

Метаданные особенно полезны в видео, где информация о его содержимом (например, стенограммы разговоров и текстовые описания сцен) не может быть непосредственно понятна компьютером, но где эффективный поиск контента желателен. Это особенно полезно в видеоприложениях, таких как программное обеспечение для автоматического распознавания номерных знаков и распознавания транспортных средств, в котором данные номерных знаков сохраняются и используются для создания отчетов и предупреждений. Метаданные видео получаются из двух источников: (1) оперативно собранные метаданные, то есть информация о произведенном контенте, такая как тип оборудования, программного обеспечения, дата и местоположение; (2) метаданные, созданные человеком, для улучшения видимости, обнаружения, взаимодействия с аудиторией и предоставления рекламных возможностей издателям видео. В современном обществе большинство профессиональных программ для редактирования видео имеет доступ к метаданным. Avid MetaSync и Adobe Bridge - два ярких примера этого.

Геопространственные метаданные

Геопространственные метаданные относятся к файлам географических информационных систем (ГИС), картам, изображениям и другим данным, зависящим от местоположения. Метаданные используются в ГИС для документирования характеристик и атрибутов географических данных, таких как файлы баз данных и данные, разработанные в ГИС. Он включает в себя такие детали, как кто разработал данные, когда они были собраны, как они были обработаны, в каких форматах они доступны, а затем предоставляет контекст для эффективного использования данных.

Творчество

Метаданные могут быть созданы либо путем автоматической обработки информации, либо вручную. Элементарные метаданные, захваченные компьютерами, могут включать информацию о том, когда был создан объект, кто его создал, когда он последний раз обновлялся, размер файла и расширение файла. В этом контексте объект относится к любому из следующего:

  • Физический предмет, такой как книга, CD, DVD, бумажная карта, стул, стол, цветочный горшок и т. Д.
  • Электронный файл, такой как цифровое изображение, цифровая фотография, электронный документ, программный файл, таблица базы данных и т. Д.

Механизм метаданных собирает, хранит и анализирует информацию о данных и метаданных (данных о данных), используемых в домене.

Виртуализация данных

Виртуализация данных появилась в 2000-х годах как новая программная технология, дополняющая «стек» виртуализации на предприятии. Метаданные используются на серверах виртуализации данных, которые являются компонентами инфраструктуры предприятия, наряду с серверами баз данных и приложений. Метаданные на этих серверах сохраняются в виде постоянного репозитория и описывают бизнес-объекты в различных корпоративных системах и приложениях. Общность структурных метаданных также важна для поддержки виртуализации данных.

Услуги статистики и переписи

Работа по стандартизации и гармонизации принесла преимущества отраслевым усилиям по созданию систем метаданных в статистическом сообществе. Некоторые руководящие принципы и стандарты метаданных, такие как Кодекс практики европейской статистики и ISO 17369: 2013 ( Обмен статистическими данными и метаданными или SDMX), содержат ключевые принципы того, как предприятия, государственные органы и другие организации должны управлять статистическими данными и метаданными. Такие организации, как Евростат , Европейская система центральных банков и Агентство по охране окружающей среды США , внедрили эти и другие подобные стандарты и руководства с целью повышения «эффективности управления статистическими бизнес-процессами».

Библиотека и информатика

Метаданные по-разному использовались как средство каталогизации элементов библиотек как в цифровом, так и в аналоговом формате. Такие данные помогают классифицировать, агрегировать, идентифицировать и находить конкретную книгу, DVD, журнал или любой объект, который библиотека может содержать в своей коллекции. До 1980-х годов во многих библиотечных каталогах в ящиках для файлов использовались карточки размером 3x5 дюймов для отображения названия книги, автора, предмета и сокращенной буквенно-цифровой строки ( номер вызова ), которая указывала физическое расположение книги на полках библиотеки. Dewey Decimal System используется библиотеками для классификации библиотечных материалов по теме является ранним примером метаданных использования. Начиная с 1980-х и 1990-х годов, многие библиотеки заменили эти бумажные картотеки компьютерными базами данных. Эти компьютерные базы данных значительно упрощают и ускоряют поиск по ключевым словам. Другой формой сбора старых метаданных является использование Бюро переписи населения так называемой «длинной формы». В длинной форме задаются вопросы, которые используются для создания демографических данных для выявления закономерностей распределения. Библиотеки используют метаданные в каталогах библиотек , чаще всего как часть интегрированной системы управления библиотекой . Метаданные получают путем каталогизации ресурсов, таких как книги, периодические издания, DVD, веб-страницы или цифровые изображения. Эти данные хранятся в интегрированной системе управления библиотекой, ILMS , с использованием стандарта метаданных MARC . Цель состоит в том, чтобы направить посетителей к физическому или электронному местонахождению предметов или областей, которые они ищут, а также предоставить описание рассматриваемого предмета / ов.

Более свежие и специализированные примеры библиотечных метаданных включают создание цифровых библиотек, включая репозитории электронной печати и библиотеки цифровых изображений. Хотя они часто основаны на библиотечных принципах, упор на небиблиотечное использование, особенно при предоставлении метаданных, означает, что они не следуют традиционным или общепринятым подходам к каталогизации. Учитывая индивидуальный характер включенных материалов, поля метаданных часто создаются специально, например, поля таксономической классификации, поля местоположения, ключевые слова или заявление об авторских правах. Стандартная информация о файле, такая как размер и формат файла, обычно включается автоматически. Работа библиотеки на протяжении десятилетий была ключевой темой в усилиях по международной стандартизации . Стандарты метаданных в цифровых библиотеках включают Dublin Core , METS , MODS , DDI , DOI , URN , схему PREMIS , EML и OAI-PMH . Ведущие библиотеки мира дают советы по своим стратегиям стандартов метаданных.

В музеях

Метаданные в музейном контексте - это информация, которую подготовленные специалисты по документации по культуре, такие как архивисты , библиотекари , регистраторы и хранители музеев , создают для индексации, структурирования, описания, идентификации или иного определения произведений искусства, архитектуры, культурных объектов и их изображений. Описательные метаданные чаще всего используются в музейных контекстах для идентификации объектов и восстановления ресурсов.

использование

Метаданные разрабатываются и применяются в институтах и ​​музеях для того, чтобы:

  • Облегчите обнаружение ресурсов и выполните поисковые запросы.
  • Создавайте цифровые архивы, в которых хранится информация, относящаяся к различным аспектам музейных коллекций и культурных ценностей, и которые служат для архивных и управленческих целей.
  • Предоставлять общественности доступ к объектам культуры путем публикации цифрового контента в Интернете.

Стандарты

Многие музеи и центры культурного наследия признают, что, учитывая разнообразие произведений искусства и культурных объектов, ни одной модели или стандарта недостаточно для описания и каталогизации произведений культуры. Например, скульптурный артефакт коренных народов может быть классифицирован как произведение искусства, археологический артефакт или предмет наследия коренных народов. Ранние этапы стандартизации архивирования, описания и каталогизации в музейном сообществе начались в конце 1990-х годов с разработки таких стандартов, как Категории для описания произведений искусства (CDWA), Spectrum, CIDOC Conceptual Reference Model (CRM), Cataloging Культурные объекты (CCO) и XML-схема CDWA Lite. Эти стандарты используют языки разметки HTML и XML для машинной обработки, публикации и реализации. Англо-американские правила каталогизации (AACR), первоначально разработанные для характеристики книги, также применяются к культурным объектам, произведений искусства и архитектуры. Стандарты, такие как CCO, интегрированы в Систему управления коллекциями музея (CMS), базу данных, с помощью которой музеи могут управлять своими коллекциями, приобретениями, ссудами и консервацией. Ученые и профессионалы в этой области отмечают, что «быстро меняющийся ландшафт стандартов и технологий» создает проблемы для документалистов в области культуры, особенно для профессионалов без технической подготовки. Большинство институтов и музеев коллекционирования используют реляционные базы данных для категоризации произведений культуры и их изображений. Реляционные базы данных и метаданные предназначены для документирования и описания сложных отношений между объектами культуры и многогранными произведениями искусства, а также между объектами и местами, людьми и художественными движениями. Структуры реляционных баз данных также полезны в рамках институтов и музеев, поскольку они позволяют архивариусам проводить четкое различие между объектами культуры и их изображениями; нечеткое различие может привести к путанице и неточным поискам.

Культурные объекты и произведения искусства

Материальность, функция и назначение объекта, а также размер (например, размеры, такие как высота, ширина, вес), требования к хранению (например, среда с контролируемым климатом) и направленность музея и коллекции влияют на описательную глубину данные, приписываемые объекту документалистами по культуре. Установленные институциональные практики каталогизации, цели и опыт специалистов по документалистам в области культуры и структура базы данных также влияют на информацию, приписываемую объектам культуры, и на способы категоризации объектов культуры. Кроме того, музеи часто используют стандартизированное программное обеспечение для управления коммерческими коллекциями, которое предписывает и ограничивает способы, которыми архивисты могут описывать произведения искусства и предметы культуры. Кроме того, учреждения и музеи, занимающиеся коллекционированием, используют контролируемые словари для описания культурных объектов и произведений искусства в своих коллекциях. Словари Getty и Контролируемые словари Библиотеки Конгресса пользуются уважением в музейном сообществе и рекомендованы стандартами CCO. Музеям рекомендуется использовать контролируемые словари, которые являются контекстными и релевантными для их коллекций, а также расширяют функциональные возможности своих цифровых информационных систем. Контролируемые словари полезны в базах данных, потому что они обеспечивают высокий уровень согласованности, улучшая поиск ресурсов. Структуры метаданных, включая контролируемые словари, отражают онтологии систем, из которых они были созданы. Часто процессы, посредством которых объекты культуры описываются и классифицируются с помощью метаданных в музеях, не отражают точки зрения сообществ производителей.

Музеи и Интернет

Метаданные сыграли важную роль в создании цифровых информационных систем и архивов в музеях и облегчили музеям публикацию цифрового контента в Интернете. Это позволило аудитории, которая могла не иметь доступа к объектам культуры из-за географических или экономических барьеров, получить к ним доступ. В 2000-х годах, когда все больше музеев приняли архивные стандарты и создали сложные базы данных, в музейных, архивных и библиотечных сообществах возникли дискуссии о связанных данных между музейными базами данных. Системы управления коллекциями (CMS) и инструменты управления цифровыми активами могут быть локальными или общими системами. Исследователи цифровых гуманитарных наук отмечают множество преимуществ взаимодействия между музейными базами данных и коллекциями, а также признают трудности, связанные с достижением такой совместимости.

Закон

Соединенные Штаты

Проблемы, связанные с использованием метаданных в судебных процессах в США , становятся широко распространенными. Суды рассмотрели различные вопросы, связанные с метаданными, включая возможность обнаружения метаданных сторонами. Хотя в Федеральных правилах гражданского судопроизводства были указаны только правила, касающиеся электронных документов, в последующем прецедентном праве подробно изложено требование к сторонам раскрывать метаданные. В октябре 2009 года Верховный суд Аризоны постановил, что записи метаданных являются общедоступными . Метаданные документов оказались особенно важными в правовой среде, в которой судебный процесс запрашивал метаданные, которые могут включать конфиденциальную информацию, наносящую ущерб определенной стороне в суде. Использование инструментов удаления метаданных для «очистки» или редактирования документов может снизить риски непреднамеренной отправки конфиденциальных данных. Этот процесс частично (см. Остаточные данные ) защищает юридические фирмы от потенциально опасной утечки конфиденциальных данных посредством электронного обнаружения .

Опросы общественного мнения показали, что 45% американцев «совсем не уверены» в способности сайтов социальных сетей обеспечивать безопасность их личных данных, а 40% говорят, что сайты социальных сетей не должны иметь возможность хранить какую-либо информацию о людях. 76% американцев говорят, что они не уверены в безопасности информации, которую рекламные агентства собирают о них, а 50% говорят, что рекламным агентствам в Интернете не должно быть разрешено вообще записывать какую-либо свою информацию.

Австралия

В Австралии необходимость усиления национальной безопасности привела к введению нового закона о хранении метаданных. Этот новый закон означает, что и службам безопасности, и правоохранительным органам будет разрешен доступ на срок до двух лет к метаданным человека с целью упростить предотвращение любых террористических атак и серьезных преступлений.

В законодательстве

Законодательные метаданные были предметом обсуждения на форумах law.gov, таких как семинары, проведенные Институтом правовой информации при Корнельской школе права 22 и 23 марта 2010 года. Документация для этих форумов озаглавлена ​​«Предлагаемые методы использования метаданных для законодательства и нормативные документы."

В ходе этих обсуждений было обозначено несколько ключевых моментов, заголовки разделов которых перечислены ниже:

  • Общие Соображения
  • Структура документа
  • Содержание документа
  • Метаданные (элементы)
  • Наслоение
  • На определенный момент времени по сравнению с апостериорным

В здравоохранении

Австралийские медицинские исследования стали первопроходцами в определении метаданных для приложений в сфере здравоохранения. Такой подход представляет собой первую признанную попытку придерживаться международных стандартов в медицинских науках вместо определения патентованного стандарта под эгидой Всемирной организации здравоохранения (ВОЗ). Медицинское сообщество все же не одобрило необходимость следовать стандартам метаданных, несмотря на исследования, которые поддерживали эти стандарты.

В биомедицинских исследованиях

Научные исследования в области биомедицины и молекулярной биологии часто дают большие объемы данных, в том числе результаты генома или мета-генома секвенирования , протеомики данных, и даже нот или планов , созданных в ходе самого исследования. Каждый тип данных включает собственное разнообразие метаданных и процессы, необходимые для создания этих метаданных. Общие стандарты метаданных, такие как ISA-Tab, позволяют исследователям создавать и обмениваться экспериментальными метаданными в согласованных форматах. Конкретные экспериментальные подходы часто имеют свои собственные стандарты и системы метаданных: стандарты метаданных для масс-спектрометрии включают mzML и SPLASH, а стандарты на основе XML, такие как PDBML и SRA XML, служат в качестве стандартов для макромолекулярной структуры и данных секвенирования соответственно.

Продукты биомедицинских исследований обычно реализуются в виде рецензируемых рукописей, и эти публикации являются еще одним источником данных. Метаданные для биомедицинских публикаций часто создаются издателями журналов и базами данных цитирования, такими как PubMed и Web of Science . Данные, содержащиеся в рукописях или сопровождающие их в качестве дополнительных материалов, реже подлежат созданию метаданных, хотя они могут быть отправлены в биомедицинские базы данных после публикации. Затем первоначальные авторы и кураторы базы данных берут на себя ответственность за создание метаданных с помощью автоматизированных процессов. Исчерпывающие метаданные для всех экспериментальных данных являются основой Руководящих принципов FAIR или стандартов, обеспечивающих возможность поиска , доступности , взаимодействия и повторного использования данных исследований .

Хранилище данных

Хранилища данных (DW) представляет собой хранилище в электронном виде хранимых данных организации. Хранилища данных предназначены для управления и хранения данных. Хранилища данных отличаются от систем бизнес-аналитики (BI), потому что системы бизнес-аналитики предназначены для использования данных для создания отчетов и анализа информации, чтобы обеспечить стратегическое руководство для руководства. Метаданные - важный инструмент хранения данных в хранилищах данных. Целью хранилища данных является размещение стандартизированных, структурированных, согласованных, интегрированных, правильных, «очищенных» и своевременных данных, извлеченных из различных операционных систем в организации. Извлеченные данные интегрируются в среду хранилища данных, чтобы обеспечить перспективу в масштабах всего предприятия. Данные структурированы таким образом, чтобы удовлетворять требованиям отчетности и аналитики. Проектирование общности структурных метаданных с использованием метода моделирования данных, такого как построение диаграмм модели отношений сущностей, важно при разработке любых хранилищ данных. Они подробно описывают метаданные по каждому фрагменту данных в хранилище данных. Важным компонентом хранилища данных / системы бизнес-аналитики являются метаданные и инструменты для управления и извлечения метаданных. Ральф Кимбалл описывает метаданные как ДНК хранилища данных, поскольку метаданные определяют элементы хранилища данных и то, как они работают вместе.

Kimball et al. относится к трем основным категориям метаданных: технические метаданные, бизнес-метаданные и метаданные процесса. Технические метаданные в первую очередь имеют определение , тогда как бизнес-метаданные и метаданные процессов в первую очередь описательны . Категории иногда пересекаются.

  • Технические метаданные определяют объекты и процессы в системе DW / BI с технической точки зрения. Технические метаданные включают в себя системные метаданные, которые определяют структуры данных, такие как таблицы, поля, типы данных, индексы и разделы в реляционном механизме, а также базы данных, измерения, меры и модели интеллектуального анализа данных. Технические метаданные определяют модель данных и способ ее отображения для пользователей с отчетами, расписаниями, списками рассылки и правами безопасности пользователей.
  • Бизнес-метаданные - это контент из хранилища данных, описанный в более удобной для пользователя форме. Бизнес-метаданные сообщают вам, какие данные у вас есть, откуда они берутся, что они означают и каковы их отношения с другими данными в хранилище данных. Бизнес-метаданные также могут служить документацией для системы DW / BI. Пользователи, просматривающие хранилище данных, в основном просматривают бизнес-метаданные.
  • Метаданные процесса используются для описания результатов различных операций в хранилище данных. В процессе ETL все ключевые данные задач регистрируются при выполнении. Это включает время начала, время окончания, использованные секунды ЦП, чтение с диска, запись на диск и обработанные строки. При устранении неполадок ETL или процесса запроса данные такого рода становятся ценными. Метаданные процесса - это показатель фактов при построении и использовании системы DW / BI. Некоторые организации зарабатывают на жизнь сбором и продажей такого рода данных компаниям - в этом случае метаданные процесса становятся бизнес-метаданными для таблиц фактов и измерений. Сбор метаданных процесса отвечает интересам деловых людей, которые могут использовать эти данные для идентификации пользователей своих продуктов, какие продукты они используют и какой уровень обслуживания они получают.

В интернете

Формат HTML , используемый для определения веб-страниц, позволяет включать различные типы метаданных, от базового описательного текста, дат и ключевых слов до дополнительных расширенных схем метаданных, таких как стандарты Dublin Core , e-GMS и AGLS . Страницы также могут иметь геотеги с координатами . Метаданные могут быть включены в заголовок страницы или в отдельный файл. Микроформаты позволяют добавлять метаданные к данным на странице таким образом, что обычные веб-пользователи не видят, но компьютеры, веб-сканеры и поисковые системы могут легко получить к ним доступ. Многие поисковые системы осторожно относятся к использованию метаданных в своих алгоритмах ранжирования из-за использования метаданных и практики поисковой оптимизации, SEO , для повышения рейтинга. См. Статью о метаэлементах для дальнейшего обсуждения. Такое осторожное отношение может быть оправдано, поскольку люди, по словам Доктороу, не проявляют осторожности и усердия при создании своих собственных метаданных, и эти метаданные являются частью конкурентной среды, в которой метаданные используются для продвижения собственных целей создателей метаданных. Исследования показывают, что поисковые системы реагируют на веб-страницы реализацией метаданных, и у Google есть объявление на своем сайте, показывающее метатеги, которые понимает его поисковая система. Стартап корпоративного поиска Swiftype распознает метаданные как сигнал релевантности, который веб-мастера могут реализовать для своей поисковой системы для конкретных веб-сайтов, даже выпуская собственное расширение, известное как Meta Tags 2.

В вещательной индустрии

В вещательной индустрии, метаданные связаны с аудио и видео вещательных СМИ для:

Эти метаданные могут быть связаны с видеоматериалом благодаря видеосерверам . Большинство крупных спортивных трансляций, таких как чемпионат мира по футболу или Олимпийские игры, используют эти метаданные для распространения своего видеоконтента на телеканалы с помощью ключевых слов . Часто ведущая вещательная компания отвечает за организацию метаданных через Международный центр вещания и видеосерверы. Эти метаданные записываются вместе с изображениями и вводятся операторами метаданных ( регистраторами ), которые связываются с живыми метаданными, доступными в сетках метаданных, через программное обеспечение (такое как Multicam (LSM) или IPDirector, используемое во время чемпионата мира по футболу FIFA или Олимпийских игр).

Геопространственный

Метаданные, описывающие географические объекты в электронном хранилище или формате (например, наборы данных, карты, объекты или документы с геопространственным компонентом), имеют историю, восходящую как минимум к 1994 году (см. Страницу библиотеки MIT в метаданных FGDC ). Этот класс метаданных более подробно описан в статье о геопространственных метаданных .

Экологические и экологические

Экологические и экологические метаданные предназначены для документирования того, «кто, что, когда, где, почему и как» собирает данные для конкретного исследования. Обычно это означает, какая организация или учреждение собирала данные, какой тип данных, в какую дату (даты) были собраны данные, обоснование сбора данных и методология, использованная для сбора данных. Метаданные должны генерироваться в формате, обычно используемом наиболее актуальным научным сообществом, например Darwin Core , Ecological Metadata Language или Dublin Core . Существуют инструменты редактирования метаданных для облегчения создания метаданных (например, Metavist, Mercury , Morpho). Метаданные должны описывать происхождение данных (где они возникли, а также любые преобразования, которым подверглись данные) и то, как относиться к (цитировать) продукты данных.

Цифровая музыка

Когда компакт-диски впервые были выпущены в 1982 году, они содержали только таблицу содержания (TOC) с количеством дорожек на диске и их длиной в сэмплах. Четырнадцатью годами позже, в 1996 году, в редакцию стандарта CD Red Book был добавлен CD-Text для переноса дополнительных метаданных. Но CD-Text не получил широкого распространения. Вскоре после этого для персональных компьютеров стало обычным получать метаданные из внешних источников (например, CDDB , Gracenote ) на основе TOC.

Цифровые аудиоформаты , такие как цифровые аудиофайлы, вытеснили музыкальные форматы, такие как кассеты и компакт-диски в 2000-х годах. Цифровые аудиофайлы могут содержать больше информации, чем может содержаться только в имени файла. Эта описательная информация обычно называется аудиотэгом или аудиометаданными. Компьютерные программы, специализирующиеся на добавлении или изменении этой информации, называются редакторами тегов . Метаданные можно использовать для наименования, описания, каталогизации и указания прав собственности или авторских прав на цифровой аудиофайл, а их наличие значительно упрощает поиск определенного аудиофайла в группе, обычно с помощью поисковой системы, которая обращается к метаданным. По мере разработки различных цифровых аудиоформатов были предприняты попытки стандартизировать конкретное место в цифровых файлах, где эта информация могла бы храниться.

В результате почти все цифровые аудиоформаты, включая mp3 , широковещательные файлы wav и AIFF , имеют аналогичные стандартизированные местоположения, которые могут быть заполнены метаданными. Метаданные для сжатой и несжатой цифровой музыки часто кодируются в теге ID3 . Общие редакторы, такие как TagLib, поддерживают форматы файлов MP3, Ogg Vorbis, FLAC, MPC, Speex, WavPack TrueAudio, WAV, AIFF, MP4 и ASF.

Облачные приложения

Благодаря доступности облачных приложений, в том числе приложений для добавления метаданных к контенту, метаданные становятся все более доступными через Интернет.

Администрирование и менеджмент

Место хранения

Метаданные могут храниться либо внутри , в том же файле или структуре, что и данные (это также называется встроенными метаданными ), либо извне , в отдельном файле или поле из описанных данных. Репозиторий данных обычно хранит метаданные отдельно от данных, но может быть спроектирован так, чтобы поддерживать подходы со встроенными метаданными. У каждого варианта есть свои достоинства и недостатки:

  • Внутреннее хранилище означает, что метаданные всегда перемещаются как часть данных, которые они описывают; таким образом, метаданные всегда доступны вместе с данными, и ими можно управлять локально. Этот метод создает избыточность (исключая нормализацию) и не позволяет управлять всеми метаданными системы в одном месте. Возможно, это увеличивает согласованность, поскольку метаданные легко меняются при каждом изменении данных.
  • Внешнее хранилище позволяет размещать метаданные для всего содержимого, например, в базе данных, для более эффективного поиска и управления. Избыточности можно избежать, нормализовав организацию метаданных. В этом подходе метаданные могут быть объединены с контентом при передаче информации, например, в потоковых медиа ; или на него можно ссылаться (например, в виде веб-ссылки) из переданного контента. С другой стороны, отделение метаданных от содержимого данных, особенно в автономных файлах, которые ссылаются на свои исходные метаданные в другом месте, увеличивает возможности несоответствия между ними, поскольку изменения одного из них могут не отражаться в другом.

Метаданные могут храниться в удобочитаемой или двоичной форме. Хранение метаданных в удобочитаемом формате, таком как XML, может быть полезным, поскольку пользователи могут понимать и редактировать их без специальных инструментов. Однако текстовые форматы редко оптимизируются с точки зрения емкости памяти, времени связи или скорости обработки. Формат двоичных метаданных обеспечивает эффективность во всех этих отношениях, но требует специального программного обеспечения для преобразования двоичной информации в удобочитаемый контент.

Управление базой данных

Каждая система реляционной базы данных имеет свои собственные механизмы для хранения метаданных. Примеры метаданных реляционной базы данных включают:

  • Таблицы всех таблиц в базе данных, их имена, размеры и количество строк в каждой таблице.
  • Таблицы столбцов в каждой базе данных, таблицы, в которых они используются, и тип данных, хранящихся в каждом столбце.

В терминологии базы данных этот набор метаданных называется каталогом . Стандарт SQL определяет единые средства доступа к каталогу, называемые информационной схемой , но не все базы данных реализуют его, даже если они реализуют другие аспекты стандарта SQL. Пример методов доступа к метаданным для конкретной базы данных см. В разделе Метаданные Oracle . Программный доступ к метаданным возможен с использованием таких API, как JDBC или SchemaCrawler.

В популярной культуре

Одним из первых сатирических исследований концепции метаданных, как мы ее понимаем сегодня, является рассказ американского писателя-фантаста Хэла Дрейпера « MS Fnd in a Lbry» (1961). Здесь знания всего Человечества сконцентрированы в объекте размером с ящик стола, однако объем метаданных (например, каталог каталогов ..., а также указатели и истории) в конечном итоге приводит к ужасным, но юмористическим последствиям для человеческая раса. Эта история прорисовывает современные последствия того, что метаданные могут стать более важными, чем реальные данные, с которыми они связаны, и риски, связанные с этой возможностью, в качестве предостережения.

Смотрите также

использованная литература

дальнейшее чтение

  • Гартнер, Ричард. 2016. Метаданные: формирование знаний из древности в семантическую сеть . Springer. ISBN  9783319408910 .
  • Цзэн, Марсия и Цинь, Цзянь. 2016. Метаданные . Фасет. ISBN  9781783300525 .

внешние ссылки