Формат данных масс-спектрометрии - Mass spectrometry data format

Масс-спектрометрия - это научный метод измерения отношения массы к заряду ионов. Его часто сочетают с хроматографическими методами, такими как газовая или жидкостная хроматография, и он нашел широкое применение в областях аналитической химии и биохимии, где его можно использовать для идентификации и характеристики малых молекул и белков ( протеомика ). Большой объем данных, полученных в типичном масс-спектрометрическом эксперименте, требует использования компьютеров для хранения и обработки данных. На протяжении многих лет различные производители масс-спектрометров разработали различные собственные форматы данных для обработки таких данных, что затрудняет непосредственное управление своими данными академическими учеными. Для устранения этого ограничения, несколько открытых , XML -Ы форматов данных недавно были разработаны Транс-протеомных трубопроводом в Институте системной биологии для облегчения манипулирования данных и инноваций в государственном секторе. Эти форматы данных описаны здесь.

Открытые форматы

JCAMP-DX

Этот формат был одной из первых попыток предоставить стандартизированный формат файла для обмена данными в масс-спектрометрии. JCAMP -DX изначально был разработан для инфракрасной спектрометрии. JCAMP-DX - это формат на основе ASCII , поэтому он не очень компактен, хотя и включает стандарты сжатия файлов. JCAMP был официально выпущен в 1988 году. Совместно с Американским обществом масс-спектрометрии был разработан формат JCAMP-DX для масс-спектрометрии с целью сохранения устаревших данных.

ANDI-MS или netCDF

Формат обмена аналитическими данными для масс-спектрометрии - это формат обмена данными. Многие пакеты программного обеспечения для масс-спектрометрии могут читать или записывать файлы ANDI. ANDI указан в стандарте ASTM E1947. ANDI основан на netCDF - библиотеке программных инструментов для записи и чтения файлов данных. Изначально ANDI был разработан для данных хроматографии-МС и поэтому не использовался во время золотой лихорадки протеомики, когда были разработаны новые форматы, основанные на XML .

mzData

mzData была первой попыткой Proteomics Standards Initiative (PSI) от Human Proteome Organization (HUPO) создать стандартизированный формат для данных масс-спектрометрии. Этот формат теперь устарел и заменен на mzML.

mzXML

mzXML - это общий формат файлов на основе XML (расширяемого языка разметки) для протеомных масс-спектрометрических данных. Этот формат был разработан в Сиэтлском протеомном центре / Институте системной биологии, когда HUPO-PSI пытался определить стандартизованный формат mzData, и до сих пор используется в сообществе протеомиков.

ЯФМС

Y и др ругой F Ormat для M попку S pectrometry (YAFMS) является предложение , чтобы сохранить данные в четыре таблицы реляционной сервера меньше схемы базы данных с извлечением данных и добавления в настоящее время осуществляется с помощью SQL - запросов.

mzML

Поскольку два формата (mzData и mzXML) для представления одной и той же информации являются нежелательным состоянием, HUPO-PSI, SPC / ISB и поставщики приборов предприняли совместные усилия для создания единого стандарта, заимствуя лучшие аспекты как mzData, так и mzXML, и предназначен для их замены. Первоначально называвшийся dataXML, он был официально объявлен как mzML. Первая спецификация была опубликована в июне 2008 года. Этот формат был официально выпущен на собрании Американского общества масс-спектрометрии в 2008 году и с тех пор является относительно стабильным с очень небольшим количеством обновлений. 1 июня 2009 г. была выпущена версия mzML 1.1.0. По состоянию на 2013 год дальнейших изменений не планируется.

mzAPI

Вместо определения новых форматов файлов и написания конвертеров для форматов проприетарных поставщиков группа ученых предложила определить общий интерфейс прикладной программы, чтобы переложить бремя соответствия стандартам на существующие библиотеки доступа к данным производителей приборов.

mz5

Формат mz5 решает проблемы производительности предыдущих форматов на основе XML. Он использует онтологию mzML, но сохраняет данные с помощью бэкэнда HDF5 для уменьшения требований к пространству для хранения и повышения скорости чтения / записи.

imzML

Стандарт imzML был предложен для обмена данными масс-спектрометрической визуализации в стандартизированном XML-файле на основе онтологии mzML. Он разделяет экспериментальные данные на XML и спектральные данные в двоичный файл. Оба файла связаны универсальным уникальным идентификатором .

mzDB

mzDB сохраняет данные в базе данных SQLite, чтобы сэкономить место для хранения и улучшить время доступа, поскольку точки данных могут запрашиваться из реляционной базы данных .

Ириска

Toffee - это открытый формат файлов без потерь для независимой от данных масс-спектрометрии. Он использует HDF5 и нацелен на достижение размеров файлов, аналогичных размерам проприетарных и закрытых форматов поставщиков.

mzMLb

mzMLb - это еще один вариант использования бэкэнда HDF5 для эффективного сохранения необработанных данных. Однако он сохраняет структуру данных mzML XML и соответствует существующему стандарту.

Собственные форматы

Ниже представлена ​​таблица с различными расширениями форматов файлов.

Компания Расширение Тип файла
Agilent
Bruker
.D (папка) Формат данных Agilent MassHunter, Agilent ChemStation или Bruker BAF / YEP / TDF
Agilent / Bruker .АГА формат данных прибора
Bruker .BAF формат данных прибора
Bruker .FID формат данных прибора
Bruker .TDF формат данных инструмента timsTOF
ABI / Sciex .WIFF формат данных прибора
ABI / Sciex .t2d Формат файлов 4700 и 4800
Воды .PKL Формат списка пиков MassLynx
Термо
ПеркинЭлмер
.СЫРОЙ* Термо Xcalibur
PerkinElmer TurboMass
Микромасса ** / Воды .RAW * (папка) Waters MassLynx
Chromtech Finnigan
***
VG
.DAT Формат файла Finnigan ITDS; Формат данных прибора
MAT95 Формат данных MassLab
Финниган *** .РС Формат данных прибора ITS40
Шимадзу .QGD Формат GCMSSolution
Шимадзу .qgd формат данных прибора
Шимадзу .lcd Формат данных инструмента QQQ / QTOF
Шимадзу .spc формат данных библиотеки
Bruker / Varian .SMS формат данных прибора
Bruker / Varian .XMS формат данных прибора
ИОН-ТОФ .itm необработанные данные измерений
ИОН-ТОФ .ita данные анализа
Физическая электроника / ULVAC-PHI .сырой* необработанные данные измерений
Физическая электроника / ULVAC-PHI .tdc данные спектра

(*) Обратите внимание, что форматы RAW каждого производителя не взаимозаменяемы; программное обеспечение из одного не может обрабатывать файлы RAW из другого.
(**) Micromass была приобретена Waters в 1997 году
(***) Finnigan является подразделением Thermo.

Программное обеспечение

Зрителей

Существует несколько программ просмотра для mzXML, mzML и mzData: MZmine, PEAKS, Insilicos , MS-Spectre, TOPPView (mzXML, mzML и mzData), Spectra Viewer, SeeMS, msInspect, jmzML и Mascot Distiller.

Есть вьювер для изображений ITA. Образы ITA и ITM можно анализировать с помощью библиотеки python pySPM.

Конвертеры

Известные конвертеры для mzData в mzXML:

Hermes: Java-конвертер mzData, mzXML, mzML для всех направлений: общедоступный, работает с графическим пользовательским интерфейсом, Институт молекулярной системной биологии, ETH Zurich
FileConverter: инструмент командной строки, который преобразует в / из различных форматов масс-спектрометрии, часть TOPP

Известные конвертеры для mzXML:

Институт системной биологии ведет список преобразователей

Известные конвертеры для mzML:

msConvert: инструмент командной строки, конвертирующий в / из различных форматов масс-спектрометрии. Графический интерфейс также доступен для пользователей Windows.
ReAdW: конвертер командной строки Института системной биологии для файлов Thermo RAW, часть TransProteomicPipeline. Последнее обновление этого инструмента было сделано в сентябре 2009 года. Теперь команда разработчиков TPP перенаправляет пользователей на использование программного обеспечения msConvert (см. Выше).
FileConverter: инструмент командной строки, который преобразует в / из различных форматов масс-спектрометрии, часть TOPP

Конвертеры для проприетарных форматов:

msConvert: инструмент командной строки, конвертирующий в / из различных форматов масс-спектрометрии, включая несколько проприетарных форматов. Графический интерфейс также доступен для пользователей Windows.
CompassXport, бесплатный инструмент Bruker, генерирующий файлы mzXML (а теперь и mzData) для многих из их собственных форматов файлов (.baf).
MASSTransit, программное обеспечение для переключения данных между собственными форматами, разработанное Palisade Corporation и распространяемое компаниями Scientific Instrument Services, Inc и PerkinElmer.
Aston, встроенная поддержка нескольких форматов файлов Agilent Chemstation, Agilent Masshunter и Thermo Isodat
Unfinnigan, встроенная поддержка форматов файлов Finnigan (* .RAW)
OpenChrom , программное обеспечение с открытым исходным кодом с поддержкой преобразования различных собственных форматов файлов, включая собственный открытый формат .ocb для хранения хроматограмм, пиков и результатов идентификации

В настоящее время доступны следующие конвертеры:

MassWolf, для формата Micromass MassLynx .Raw
mzStar, для формата SCIEX / ABI SCIEX / ABI Analyst
wiff2dta для формата SCIEX / ABI SCIEX / ABI Analyst в mzXML, DTA, MGF и PMF

Смотрите также

использованная литература