Соотношение количественная структура – ​​активность - Quantitative structure–activity relationship

Количественные модели взаимосвязи структура – ​​активность (модели QSAR ) - это модели регрессии или классификации, используемые в химических и биологических науках и технике. Как и другие модели регрессии, модели регрессии QSAR связывают набор переменных-предикторов (X) с эффективностью переменной ответа (Y), в то время как модели QSAR классификации связывают переменные-предикторы с категориальным значением переменной ответа.

В моделировании QSAR предикторы состоят из физико-химических свойств или теоретических молекулярных дескрипторов химических веществ; переменная ответа QSAR может быть биологической активностью химических веществ. Модели QSAR сначала резюмируют предполагаемую взаимосвязь между химическими структурами и биологической активностью в наборе данных химических веществ. Во-вторых, модели QSAR предсказывают активность новых химических веществ.

Связанные термины включают количественные отношения структура-свойство ( QSPR ), когда химическое свойство моделируется как переменная отклика. «Различные свойства или поведение химических молекул были исследованы в области QSPR. Некоторыми примерами являются количественные отношения структура-реакционная способность (QSRR), количественные отношения структура-хроматография (QSCR) и количественные отношения структура-токсичность (QSTR), количественная структура –Электрохимические отношения (QSER) и количественные отношения структура – биоразлагаемость (QSBR) ».

Например, биологическая активность может быть выражена количественно как концентрация вещества, необходимая для получения определенного биологического ответа. Кроме того, когда физико-химические свойства или структуры выражаются числами, можно найти математическое соотношение или количественное соотношение структура-активность между ними. Математическое выражение, если оно тщательно проверено, может быть использовано для прогнозирования смоделированного отклика других химических структур.

QSAR имеет форму математической модели :

  • Активность = f (физико-химические свойства и / или структурные свойства) + ошибка

Ошибка включает в себя ошибку модели ( смещение ) и изменчивость наблюдений, то есть изменчивость наблюдений даже на правильной модели.

Основные этапы исследований QSAR

Основные этапы QSAR / QSPR, включая (i) выбор набора данных и извлечение структурных / эмпирических дескрипторов (ii) выбор переменных, (iii) построение модели и (iv) валидационную оценку ».

SAR и парадокс SAR

Основное предположение для всех гипотез, основанных на молекулах, состоит в том, что подобные молекулы обладают сходной активностью. Этот принцип также называется взаимосвязью структуры и деятельности ( SAR ). Таким образом, основная проблема заключается в том, как определить небольшое различие на молекулярном уровне, поскольку каждый вид активности, например способность к реакции, способность к биотрансформации , растворимость , активность мишени и так далее, может зависеть от другого различия. Были приведены примеры в bioisosterism обзорах Patanie / Лавуа и Браун.

В общем, больше интересует поиск сильных трендов . Создаваемые гипотезы обычно основываются на конечном числе химических веществ, поэтому следует проявлять осторожность, чтобы избежать переобучения : создание гипотез, которые очень точно соответствуют обучающим данным, но плохо работают при применении к новым данным.

Парадокс SAR относится к тому факту , что это не так , что все подобные молекулы имеют подобные действия.

Типы

На основе фрагментов (групповой вклад)

Аналогично, « коэффициент разделения » - измерение дифференциальной растворимости и сам по себе компонент прогнозов QSAR - можно предсказать либо атомарными методами (известными как «XLogP» или «ALogP»), либо методами химических фрагментов (известных как «CLogP»). и другие варианты). Было показано, что logP соединения можно определить по сумме его фрагментов; Методы, основанные на фрагментах, обычно считаются лучшими предикторами, чем методы, основанные на атомах. Фрагментарные значения были определены статистически на основе эмпирических данных для известных значений logP. Этот метод дает смешанные результаты и, как правило, не имеет точности более ± 0,1 единицы.

QSAR на основе группы или фрагмента также известен как GQSAR. GQSAR обеспечивает гибкость для изучения различных молекулярных фрагментов, представляющих интерес, в зависимости от вариации биологической реакции. Молекулярные фрагменты могут быть заместителями в различных сайтах замещения в родственном наборе молекул или могут быть на основе заранее определенных химических правил в случае неконгенерированных наборов. GQSAR также рассматривает перекрестные дескрипторы фрагментов, которые могут быть полезны при идентификации ключевых взаимодействий фрагментов при определении вариации активности. Свинцовые открытия с использованием фрагномики - это новая парадигма. В этом контексте FB-QSAR оказывается многообещающей стратегией для дизайна библиотеки фрагментов и в попытках идентификации от фрагмента к ведущему.

Разработан продвинутый подход к QSAR на основе фрагментов или групп, основанный на концепции фармакофорного подобия. Этот метод QSAR на основе сходства фармакофора (PS-QSAR) использует топологические фармакофорные дескрипторы для разработки моделей QSAR. Этот прогноз активности может способствовать вкладу определенных характеристик фармакофоров, кодируемых соответствующими фрагментами, в улучшение активности и / или отрицательные эффекты.

3D-QSAR

Аббревиатура 3D-QSAR или 3-D QSAR относится к применению расчетов силового поля, требующего трехмерных структур заданного набора малых молекул с известной активностью (обучающий набор). Обучающий набор должен быть наложен (выровнен) либо экспериментальными данными (например, на основе кристаллографии лиганд-белок ), либо программным обеспечением наложения молекул . Он использует вычисленные потенциалы, например, потенциал Леннарда-Джонса , а не экспериментальные константы, и касается всей молекулы, а не одного заместителя. Первый трехмерный QSAR был назван Cramer et al. Он исследовал стерические поля (форму молекулы) и электростатические поля, которые коррелировали с помощью регрессии частичных наименьших квадратов (PLS).

Созданное пространство данных затем обычно сокращается путем последующего извлечения признаков (см. Также уменьшение размерности ). Следующим методом обучения может быть любой из уже упомянутых методов машинного обучения , например поддержка векторных машин . Альтернативный подход использует обучение с использованием нескольких экземпляров путем кодирования молекул как наборов экземпляров данных, каждый из которых представляет возможную молекулярную конформацию. Метка или ответ присваивается каждому набору, соответствующему активности молекулы, которая, как предполагается, определяется по крайней мере одним экземпляром в наборе (то есть некоторой конформацией молекулы).

18 июня 2011 г. патент на сравнительный анализ молекулярного поля (CoMFA) снял любые ограничения на использование технологий GRID и частичных наименьших квадратов (PLS).

На основе химического дескриптора

В этом подходе дескрипторы, количественно оценивающие различные электронные, геометрические или стерические свойства молекулы, вычисляются и используются для разработки QSAR. Этот подход отличается от подхода фрагментов (или группового вклада) в том, что дескрипторы вычисляются для системы в целом, а не на основе свойств отдельных фрагментов. Этот подход отличается от подхода 3D-QSAR тем, что дескрипторы вычисляются из скалярных величин (например, энергии, геометрические параметры), а не из трехмерных полей.

Примером этого подхода являются QSAR, разработанные для полимеризации олефинов полусэндвич-соединениями .

Моделирование

В литературе часто можно найти, что химики отдают предпочтение методам частичных наименьших квадратов (PLS), поскольку они применяют извлечение признаков и индукцию за один этап.

Подход интеллектуального анализа данных

Компьютерные модели SAR обычно рассчитывают относительно большое количество функций. Поскольку им не хватает возможности структурной интерпретации, этапы предварительной обработки сталкиваются с проблемой выбора признаков (то есть, какие структурные особенности следует интерпретировать для определения взаимосвязи структура-активность). Выбор признаков может быть осуществлен путем визуального осмотра (качественный отбор человеком); путем интеллектуального анализа данных; или молекулярным майнингом.

Типичное прогнозирование на основе интеллектуального анализа данных использует, например, вспомогательные векторные машины , деревья решений , искусственные нейронные сети для создания модели прогнозирующего обучения.

Подходы молекулярного анализа , частный случай подходов к интеллектуальному анализу структурированных данных , применяют прогнозирование на основе матрицы сходства или схему автоматической фрагментации в молекулярные субструктуры. Кроме того, существуют также подходы, использующие максимально распространенные поиски подграфов или ядра графа .

QSAR протокол

Анализ согласованных молекулярных пар

Обычно модели QSAR, полученные на основе нелинейного машинного обучения , рассматриваются как «черный ящик», который не может служить ориентиром для медицинских химиков. В последнее время появилась относительно новая концепция анализа согласованных пар молекул или MMPA, основанного на прогнозировании, которая сочетается с моделью QSAR с целью выявления провалов активности.

Оценка качества моделей QSAR

Моделирование QSAR создает прогностические модели, основанные на применении статистических инструментов, коррелирующих биологическую активность (включая желаемый терапевтический эффект и нежелательные побочные эффекты) или физико-химические свойства в моделях QSPR химических веществ (лекарства / токсиканты / загрязнители окружающей среды) с дескрипторами, репрезентативными для молекулярной структуры или свойств. . QSAR применяются во многих дисциплинах, например: оценка риска , прогноз токсичности и нормативные решения в дополнение к открытию лекарств и оптимизации потенциальных клиентов . Получение качественной модели QSAR зависит от многих факторов, таких как качество входных данных, выбор дескрипторов и статистических методов для моделирования и проверки. Любое QSAR-моделирование должно в конечном итоге привести к появлению статистически надежных и прогнозных моделей, способных делать точные и надежные прогнозы смоделированного отклика новых соединений.

Для проверки моделей QSAR обычно используются различные стратегии:

  1. внутренняя проверка или перекрестная проверка (фактически, при извлечении данных перекрестная проверка является мерой устойчивости модели, чем более надежна модель (выше q2), тем меньше извлечение данных нарушает исходную модель);
  2. внешняя проверка путем разделения доступного набора данных на обучающий набор для разработки модели и набор прогнозирования для проверки прогнозируемости модели;
  3. слепая внешняя проверка путем применения модели на новых внешних данных и
  4. рандомизация данных или Y-скремблирование для проверки отсутствия случайной корреляции между ответом и дескрипторами моделирования.

Успех любой модели QSAR зависит от точности входных данных, выбора соответствующих дескрипторов и статистических инструментов и, что наиболее важно, валидации разработанной модели. Валидация - это процесс, с помощью которого устанавливаются надежность и актуальность процедуры для конкретной цели; для моделей QSAR валидация должна быть в основном связана с надежностью, характеристиками прогнозирования и областью применимости (AD) моделей.

Некоторые методики проверки могут быть проблематичными. Например, перекрестная проверка с однократным исключением обычно приводит к переоценке прогностической способности. Даже при внешней проверке трудно определить, использовались ли выбор обучающих и тестовых наборов для максимизации прогностической способности публикуемой модели.

Различные аспекты проверки моделей QSAR, которые требуют внимания, включают методы выбора составных частей обучающего набора, установку размера обучающего набора и влияние выбора переменных для моделей обучающего набора для определения качества предсказания. Также важна разработка новых параметров валидации для оценки качества моделей QSAR.

заявка

Химическая

Одним из первых исторических приложений QSAR было предсказание точек кипения .

Хорошо известно, например , что в пределах конкретного семейства из химических соединений , особенно органической химии , что существует сильные корреляции между структурой и наблюдаемыми свойствами. Простым примером является зависимость между количеством атомов углерода в алканах и их температурами кипения . Существует четкая тенденция к увеличению точки кипения с увеличением количества атомов углерода, и это служит средством для прогнозирования точек кипения высших алканов .

Еще очень интересное приложение является уравнением Хэммета , уравнение Тафта и предсказание рКа методы.

Биологические

Биологическая активность молекул обычно измеряется в анализах, чтобы установить уровень ингибирования конкретной передачи сигнала или метаболических путей . Открытие лекарств часто включает использование QSAR для выявления химических структур, которые могут иметь хорошее ингибирующее действие на конкретные мишени и иметь низкую токсичность (неспецифическую активность). Особый интерес представляет прогноз коэффициента распределения log P , который является важной мерой, используемой для определения « схожести с наркотиками » в соответствии с Правилом пяти Липински .

Хотя многие количественные анализы взаимосвязи структурной активности включают взаимодействия семейства молекул с ферментом или сайтом связывания рецептора , QSAR также может использоваться для изучения взаимодействий между структурными доменами белков. Взаимодействия белок-белок можно количественно проанализировать на предмет структурных изменений, возникающих в результате сайт-направленного мутагенеза .

Это часть метода машинного обучения для снижения риска парадокса SAR, особенно с учетом того, что доступен только ограниченный объем данных (см. Также MVUE ). В целом все задачи QSAR можно разделить на кодирование и обучение .

Приложения

(Q) Для управления рисками использовались модели SAR . QSARS предлагаются регулирующими органами; в Европейском Союзе QSAR предлагаются регламентом REACH , где «REACH» означает «Регистрация, оценка, авторизация и ограничение химических веществ». Нормативное применение методов QSAR включает in silico токсикологическую оценку генотоксических примесей. Обычно используемое программное обеспечение для оценки QSAR, такое как DEREK или CASE Ultra (MultiCASE), используется для определения генотоксичности примесей в соответствии с ICH M7 .

Пространство химических дескрипторов, выпуклая оболочка которого создается определенным обучающим набором химических веществ, называется областью применимости обучающего набора . Для прогнозирования свойств новых химических веществ, находящихся за пределами области применимости, используется экстраполяция , поэтому он менее надежен (в среднем), чем прогноз в области применимости. Оценка надежности прогнозов QSAR остается темой исследования.

Уравнения QSAR можно использовать для прогнозирования биологической активности новых молекул до их синтеза.

Примеры инструментов машинного обучения для моделирования QSAR включают:

S.No. Имя Алгоритмы Внешняя ссылка
1. р RF, SVM, наивный байесовский и ИНС "R: Проект R для статистических вычислений" .
2. libSVM SVM «LIBSVM - библиотека для машин опорных векторов» .
3. апельсин RF, SVM и наивный байесовский «Orange Data Mining» .
4. RapidMiner SVM, RF, Naïve Bayes, DT, ANN и k-NN «RapidMiner | Платформа прогнозной аналитики с открытым исходным кодом № 1» .
5. Weka RF, SVM и наивный Байес «Weka 3 - интеллектуальный анализ данных с помощью программного обеспечения для машинного обучения с открытым исходным кодом на Java» .
6. Knime DT, наивный байесовский метод и SVM «KNIME | Открытость для инноваций» .
7. AZOrange RT, SVM, ANN и RF «AZCompTox / AZOrange: дополнения AstraZeneca к Orange» . GitHub . 2018-09-19.
8. Танагра SVM, RF, наивный Байес и DT «TANAGRA - Бесплатное ПО для ПОИСКА ДАННЫХ для обучения и исследований» .
9. Елки k-NN «Инфраструктура интеллектуального анализа данных ELKI» . Архивировано из оригинала на 2016-11-19.
10. МОЛОТОК "Домашняя страница МОЛЛЕТА" .
11. MOA «MOA Massive Online Analysis | Аналитика в реальном времени для потоков данных» . Архивировано из оригинала на 2017-06-19.
12. Deep Chem Логистическая регрессия, Наивный Байес, РФ, ИНС и другие «ДипХим» . deepchem.io . Проверено 20 октября 2017 года .
13. alvaModel МЛС , к-НН «alvaModel: программный инструмент для создания моделей QSAR / QSPR» . alvascience.com .

Смотрите также

использованная литература

дальнейшее чтение

внешние ссылки