Моделирование данных - Data modeling

Процесс моделирования данных. На рисунке показано, как модели данных разрабатываются и используются сегодня. Концептуальная модель данных разрабатываются на основе данных требований для приложения , которое разрабатывается, возможно , в контексте модели деятельности . Модель данных обычно состоит из типов сущностей, атрибутов, отношений, правил целостности и определений этих объектов. Затем это используется в качестве отправной точки для проектирования интерфейса или базы данных.

Моделирование данных в программной инженерии - это процесс создания модели данных для информационной системы с применением определенных формальных методов.

Обзор

Моделирование данных - это процесс, используемый для определения и анализа требований к данным, необходимых для поддержки бизнес-процессов в рамках соответствующих информационных систем в организациях. Таким образом, в процессе моделирования данных участвуют профессиональные разработчики моделей данных, работающие в тесном сотрудничестве с заинтересованными сторонами, а также с потенциальными пользователями информационной системы.

При переходе от требований к реальной базе данных, которая будет использоваться для информационной системы, создаются три различных типа моделей данных. Требования к данным изначально записываются как концептуальная модель данных, которая по сути представляет собой набор технологических независимых спецификаций данных и используется для обсуждения начальных требований с заинтересованными сторонами бизнеса. Затем концептуальная модель преобразуется в логическую модель данных , которая документирует структуры данных, которые могут быть реализованы в базах данных. Для реализации одной концептуальной модели данных может потребоваться несколько логических моделей данных. Последним шагом в моделировании данных является преобразование логической модели данных в физическую модель данных, которая организует данные в таблицы и учитывает детали доступа, производительности и хранения. Моделирование данных определяет не только элементы данных, но также их структуры и отношения между ними.

Методы и методологии моделирования данных используются для моделирования данных стандартным, непротиворечивым и предсказуемым образом, чтобы управлять ими как ресурсом. Использование стандартов моделирования данных настоятельно рекомендуется для всех проектов, требующих стандартных средств определения и анализа данных внутри организации, например, с использованием моделирования данных:

  • чтобы помочь бизнес-аналитикам, программистам, тестировщикам, составителям руководств, селекторам ИТ-пакетов, инженерам, менеджерам, связанным организациям и клиентам понять и использовать согласованную полуформальную модель, которая охватывает концепции организации и то, как они соотносятся друг с другом
  • управлять данными как ресурсом
  • интегрировать информационные системы
  • для проектирования баз данных / хранилищ данных (также называемых репозиториями данных)

Моделирование данных может выполняться во время различных типов проектов и в нескольких фазах проектов. Модели данных прогрессивны; не существует такой вещи, как окончательная модель данных для бизнеса или приложения. Вместо этого модель данных следует рассматривать как живой документ, который будет меняться в ответ на изменение бизнеса. В идеале модели данных должны храниться в репозитории, чтобы их можно было извлекать, расширять и редактировать с течением времени. Whitten et al. (2004) определили два типа моделирования данных:

  • Стратегическое моделирование данных: это часть создания стратегии информационных систем, которая определяет общее видение и архитектуру информационных систем. Инженерия информационных технологий - это методология, использующая этот подход.
  • Моделирование данных во время системного анализа: в системном анализе логические модели данных создаются как часть разработки новых баз данных.

Моделирование данных также используется как метод детализации бизнес- требований к конкретным базам данных . Иногда это называют моделированием базы данных, потому что модель данных в конечном итоге реализуется в базе данных.

Темы

Модели данных

Как модели данных приносят пользу.

Модели данных обеспечивают основу для использования данных в информационных системах , предоставляя конкретное определение и формат. Если модель данных используется последовательно в разных системах, можно добиться совместимости данных. Если одни и те же структуры данных используются для хранения данных и доступа к ним, разные приложения могут беспрепятственно обмениваться данными. Результаты этого показаны на диаграмме. Однако системы и интерфейсы часто дороги в создании, эксплуатации и обслуживании. Они также могут ограничивать бизнес, а не поддерживать его. Это может произойти, когда качество моделей данных, реализованных в системах и интерфейсах, низкое.

Некоторые общие проблемы, обнаруживаемые в моделях данных:

  • Бизнес-правила, относящиеся к тому, как что-то делается в определенном месте, часто фиксируются в структуре модели данных. Это означает, что небольшие изменения в способах ведения бизнеса приводят к большим изменениям в компьютерных системах и интерфейсах. Таким образом, бизнес-правила должны быть реализованы гибко, чтобы не приводить к сложным зависимостям, скорее, модель данных должна быть достаточно гибкой, чтобы изменения в бизнесе могли быть реализованы в рамках модели данных относительно быстро и эффективно.
  • Типы сущностей часто не идентифицируются или идентифицируются неправильно. Это может привести к репликации данных, структуры данных и функциональности, а также к сопутствующим расходам на это дублирование при разработке и обслуживании. Поэтому определения данных должны быть как можно более ясными и понятными, чтобы свести к минимуму неверное толкование и дублирование.
  • Модели данных для разных систем произвольно различны. В результате между системами, которые совместно используют данные, требуются сложные интерфейсы. Эти интерфейсы могут составлять от 25 до 70% стоимости существующих систем. При проектировании модели данных необходимо учитывать обязательные интерфейсы, поскольку сама по себе модель данных не может использоваться без интерфейсов в различных системах.
  • Данные не могут быть переданы клиентам и поставщикам в электронном виде, поскольку структура и значение данных не стандартизированы. Чтобы получить оптимальную ценность от внедренной модели данных, очень важно определить стандарты, которые гарантируют, что модели данных будут соответствовать бизнес-потребностям и быть согласованными.

Концептуальные, логические и физические схемы

Трехуровневая архитектура ANSI / SPARC. Это показывает, что модель данных может быть внешней моделью (или представлением), концептуальной моделью или физической моделью. Это не единственный способ взглянуть на модели данных, но это полезный способ, особенно при сравнении моделей.

В 1975 году ANSI описал три типа экземпляров модели данных :

  • Концептуальная схема : описывает семантику домена (объем модели). Например, это может быть модель области интересов организации или отрасли. Он состоит из классов сущностей, представляющих виды значимых вещей в предметной области, и утверждений отношений об ассоциациях между парами классов сущностей. Концептуальная схема определяет виды фактов или предположений, которые могут быть выражены с помощью модели. В этом смысле он определяет разрешенные выражения на искусственном «языке» с областью действия, которая ограничена областью действия модели. Проще говоря, концептуальная схема - это первый шаг в организации требований к данным.
  • Логическая схема : описывает структуру некоторой области информации. Он состоит из описаний (например) таблиц, столбцов, объектно-ориентированных классов и тегов XML. Логическая схема и концептуальная схема иногда реализуются как одно и то же.
  • Физическая схема : описывает физические средства, используемые для хранения данных. Это касается разделов, процессоров, табличных пространств и т.п.

Согласно ANSI, этот подход позволяет трем перспективам быть относительно независимыми друг от друга. Технология хранения может изменяться, не влияя ни на логическую, ни на концептуальную схему. Структура таблицы / столбца может изменяться без (обязательно) влияния на концептуальную схему. В каждом случае, конечно, структуры должны оставаться согласованными во всех схемах одной и той же модели данных.

Процесс моделирования данных

Моделирование данных в контексте интеграции бизнес-процессов .

В контексте интеграции бизнес-процессов (см. Рисунок) моделирование данных дополняет моделирование бизнес-процессов и в конечном итоге приводит к созданию базы данных.

Процесс проектирования базы данных включает создание описанных ранее трех типов схем - концептуальной, логической и физической. Проект базы данных, задокументированный в этих схемах, преобразуется с помощью языка определения данных , который затем может использоваться для создания базы данных. Полностью атрибутированная модель данных содержит подробные атрибуты (описания) для каждой сущности в ней. Термин «проект базы данных» может описывать множество различных частей дизайна всей системы базы данных . В принципе, и наиболее правильно, это можно рассматривать как логический дизайн базовых структур данных, используемых для хранения данных. В реляционной модели это таблицы и представления . В объектной базе данных сущности и отношения отображаются непосредственно на классы объектов и именованные отношения. Однако термин «проектирование базы данных» можно также использовать для применения к общему процессу проектирования, а не только к базовым структурам данных, но также к формам и запросам, используемым как часть общего приложения базы данных в системе управления базами данных или СУБД.

При этом на системные интерфейсы приходится от 25% до 70% затрат на разработку и поддержку существующих систем. Основная причина такой стоимости заключается в том, что эти системы не используют общую модель данных. Если модели данных разрабатываются для каждой системы, то не только тот же анализ повторяется в перекрывающихся областях, но и должен выполняться дальнейший анализ для создания интерфейсов между ними. Большинство систем внутри организации содержат одни и те же базовые данные, переработанные для определенной цели. Следовательно, эффективно спроектированная базовая модель данных может минимизировать переделки с минимальными изменениями для целей различных систем в организации.

Методики моделирования

Модели данных представляют интересующие информационные области. Хотя существует множество способов создания моделей данных, по словам Лена Сильверстона (1997), выделяются только две методологии моделирования: нисходящий и восходящий:

  • Восходящие модели или модели интеграции представлений часто являются результатом усилий по реинжинирингу . Обычно они начинаются с существующих форм структур данных, полей на экранах приложений или отчетов. Эти модели обычно являются физическими, ориентированными на приложения и неполными с точки зрения предприятия . Они могут не способствовать обмену данными, особенно если они созданы без привязки к другим частям организации.
  • С другой стороны, нисходящие логические модели данных создаются абстрактным способом, получая информацию от людей, знакомых с предметной областью. Система может не реализовывать все сущности в логической модели, но модель служит точкой отсчета или шаблоном.

Иногда модели создаются с помощью сочетания двух методов: с учетом потребностей в данных и структуры приложения и путем последовательной ссылки на модель предметной области. К сожалению, во многих средах различие между логической моделью данных и физической моделью данных нечетко. Кроме того, некоторые инструменты CASE не делают различия между логическими и физическими моделями данных .

Диаграммы сущность – взаимосвязь

Пример диаграмм сущностей IDEF1X и отношений, используемых для моделирования самого IDEF1X. Имя вида - мм. Также приводится иерархия доменов и ограничения. В формальной теории метамодели ограничения выражаются предложениями.

Есть несколько обозначений для моделирования данных. Фактическую модель часто называют «моделью сущности-отношения», потому что она отображает данные в терминах сущностей и отношений, описанных в данных . Модель "сущность-связь" (ERM) - это абстрактное концептуальное представление структурированных данных. Моделирование сущностей-отношений - это метод моделирования базы данных с реляционной схемой , используемый в разработке программного обеспечения для создания типа концептуальной модели данных (или семантической модели данных ) системы, часто реляционной базы данных , и ее требований в нисходящем порядке.

Эти модели используются на первом этапе проектирования информационной системы во время анализа требований для описания информационных потребностей или типа информации, которая должна храниться в базе данных . Моделирования данных методика может быть использована для описания любой онтологии (т.е. обзора и классификации используемых терминов и их взаимоотношений) для определенной вселенной дискурса т.е. области интересов.

Было разработано несколько методов проектирования моделей данных. Хотя эти методологии служат руководством для разработчиков моделей данных в их работе, два разных человека, использующие одну и ту же методологию, часто приходят к очень разным результатам. Наиболее примечательными являются:

Общее моделирование данных

Пример универсальной модели данных.

Общие модели данных являются обобщением обычных моделей данных . Они определяют стандартизированные общие типы отношений вместе с видами вещей, которые могут быть связаны таким типом отношения. Определение общей модели данных аналогично определению естественного языка. Например, универсальная модель данных может определять типы отношений, такие как «классификационное отношение», являющееся бинарным отношением между отдельным предметом и видом предмета (классом) и «отношение части-целое», являющееся бинарным отношением между две вещи, одна с ролью части, другая с ролью целого, независимо от того, какие вещи связаны между собой.

При наличии расширяемого списка классов это позволяет классифицировать любую отдельную вещь и определять отношения «часть-целое» для любого отдельного объекта. Путем стандартизации расширяемого списка типов отношений универсальная модель данных позволяет выражать неограниченное количество видов фактов и приближается к возможностям естественных языков. С другой стороны, обычные модели данных имеют фиксированную и ограниченную область видимости, поскольку создание (использование) такой модели позволяет выражать только те виды фактов, которые предопределены в модели.

Семантическое моделирование данных

Логическая структура данных СУБД, будь то иерархическая, сетевая или реляционная, не может полностью удовлетворить требования к концептуальному определению данных, поскольку она ограничена по объему и смещена в сторону стратегии реализации, используемой СУБД. То есть, если семантическая модель данных не реализована в базе данных специально, выбор, который может немного повлиять на производительность, но в целом значительно повышает производительность.

Семантические модели данных.

Следовательно, необходимость определения данных с концептуального представления привела к развитию методов семантического моделирования данных . То есть методы определения значения данных в контексте их взаимосвязей с другими данными. Как показано на рисунке, реальный мир с точки зрения ресурсов, идей, событий и т. Д. Символически определяется в физических хранилищах данных. Семантическая модель данных - это абстракция, которая определяет, как хранимые символы соотносятся с реальным миром. Таким образом, модель должна достоверно отражать реальный мир.

Семантическая модель данных может использоваться для многих целей, например:

  • планирование ресурсов данных
  • создание общих баз данных
  • оценка программного обеспечения поставщика
  • интеграция существующих баз данных

Общая цель семантических моделей данных - уловить больше смысла данных путем интеграции реляционных концепций с более мощными концепциями абстракции, известными из области искусственного интеллекта . Идея состоит в том, чтобы предоставить примитивы моделирования высокого уровня как неотъемлемую часть модели данных, чтобы облегчить представление ситуаций реального мира.

Смотрите также

использованная литература

дальнейшее чтение

  • Тер Бекке (1991). Семантическое моделирование данных в реляционных средах
  • Джон Винсент Карлис, Джозеф Д. Магуайр (2001). Освоение моделирования данных: подход, ориентированный на пользователя .
  • Алан Чмура, Дж. Марк Хойманн (2005). Логическое моделирование данных: что это такое и как это сделать .
  • Мартин Э. Моделл (1992). Анализ данных, моделирование и классификация данных .
  • М. Папазоглу, Стефано Спаккапьетра, Захир Тари (2000). Достижения в объектно-ориентированном моделировании данных .
  • Дж. Лоуренс Сандерс (1995). Моделирование данных
  • Грэм К. Симсион, Грэм С. Витт (2005). Основы моделирования данных '
  • Мэтью Уэст (2011) Разработка моделей данных высокого качества

внешние ссылки