Технология выбора информативных признаков для анализа данных иммуносигнатур
Основной сложностью практической работы с данными, полученными посредством иммуносигнатурного анализа, является высокая размерность и наличие значительного числа неинформативных или ложно-информативных признаков в связи с особенностью технологии. Для обеспечения практически значимого качества анализа и классификации по данным необходимо учитывать эти особенности.
Цель исследования — разработка и апробация технологии эффективного снижения размерности данных иммуносигнатурного анализа, которая, учитывая особенности получаемых данных, обеспечивает высокое, практически значимое качество классификации.
Материалы и методы. В исследовании использовались два нормализованных набора данных из публичного хранилища биомедицинских данных, содержащих результаты иммуносигнатурного анализа.
В рамках исследования предложена технология отбора информативных признаков, состоящая из трех последовательных шагов: 1) разбиение многоклассовой задачи на ряд бинарных задач с использованием стратегии «один против всех»; 2) для каждого бинарного сравнения отсев ложно-информативных признаков с помощью сопоставления значений медианы множеств «один» и «все»; 3) ранжирование оставшихся признаков по информативности и отбор лучших из них для каждого бинарного сравнения.
Для оценки качества предложенной технологии отбора информативных признаков используются результаты классификации по отфильтрованным данным после ее применения. В качестве модели классификации используется метод опорных векторов, положительно зарекомендовавший себя в задачах классификации данных высокой размерности.
Результаты. Оценена эффективность предложенной технологии отбора информативных признаков. Данная технология позволяет обеспечить высокое качество классификации при значительном сокращении признакового пространства. Количество признаков, отсеянных на втором шаге, составляет примерно 50% для каждого из рассмотренных наборов данных, что в значительной степени упрощает последующий анализ данных. После третьего шага для набора данных GSE52580 при сокращении признакового пространства до 15 признаков оценка качества классификации по метрике macro-average F1-score составляет 98,9%. Для набора данных GSE52581 при сокращении признакового пространства до 266 признаков качество классификации по метрике macro-average F1-score составляет 91,3%.
Заключение. Результаты работы демонстрируют перспективность предложенной технологии отбора информативных признаков применительно к данным иммуносигнатурного анализа.
- Злокачественные новообразования в России в 2018 году (заболеваемость и смертность). Под ред. Каприна А.Д., Старинского В.В., Петровой Г.В. М: МНИОИ им. П.А. Герцена — филиал ФГБУ «НМИЦ радиологии» Минздрава России; 2019; 250 с.
- World Health Organization. Guide to cancer early diagnosis. World Health Organization; 2017. URL: https://apps.who.int/iris/bitstream/handle/ 10665/254500/9789241511940%20eng.pdf;jsessionid= F414948FB143C37513D7C21E675BA9C8?sequence=1.
- Stafford P., Halperin R., Legutki J.B., Magee D.M., Galgiani J., Johnston S.A. Physical characterization of the “immunosignaturing effect”. Mol Cell Proteomics 2012; 11(4): M111.011593, https://doi.org/10.1074/mcp.m111.011593.
- Blum A.L., Langley P. Selection of relevant features and examples in machine learning. Artificial Intelligence 1997; 97(1–2): 245–271, https://doi.org/10.1016/s0004-3702(97)00063-5.
- Kukreja M., Johnston S.A., Stafford P. Immunosignaturing microarrays distinguish antibody profiles of related pancreatic diseases. J Proteomics Bioinform 2013; S6(1): 1–5, https://doi.org/10.4172/jpb.s6-001.
- Stafford P., Cichacz Z., Woodbury N.W., Johnston S.A. Immunosignature system for diagnosis of cancer. Proc Natl Acad Sci U S A 2014; 111(30): E3072–E3080, https://doi.org/10.1073/pnas.1409432111.
- Анисимов Д.С., Подлесных С.В., Колосова Е.А., Щербаков Д.Н., Петрова В.Д., Джонстон С.А., Лазарев А.Ф., Оскорбин Н.М., Шаповал А.И., Рязанов М.А. Анализ многомерных данных пептидных микрочипов с использованием метода проекции на латентные структуры. Математическая биология и биоинформатика 2017; 12(2): 435–445, https://doi.org/10.17537/2017.12.435.
- Subramanian J., Simon R. Overfitting in prediction models — is it a problem only in high dimensions. Contemp Clin Trials 2013; 36(2): 636–641, https://doi.org/10.1016/j.cct.2013.06.011.
- Stafford P., Zbigniew C., Johnston S. An immunosignature system for diagnosis of cancer [Cancer immunosignaturing — test 1]. National Center for Biotechnology Information Search database; 2013. URL: https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE52580.
- Stafford P., Zbigniew C., Johnston S. An immunosignature system for diagnosis of cancer [Cancer immunosignaturing — test 2]. National Center for Biotechnology Information Search database; 2013. URL: https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE52581.
- Wickham H. Tidy data. J Stat Softw 2014; 59(10), https://doi.org/10.18637/jss.v059.i10.
- Izetta J., Verdes P.F., Granitto P.M. Improved multiclass feature selection via list combination. Expert Syst Appl 2017; 88: 205–215, https://doi.org/10.1016/j.eswa.2017.06.043.
- Bommert A., Sun X., Bischl B., Rahnenführer J., Lang M. Benchmark for filter methods for feature selection in high-dimensional classification data. Computational Statistics & Data Analysis 2020; 143: 106839, https://doi.org/10.1016/j.csda.2019.106839.
- Shannon C.E. A mathematical theory of communication. Bell System Technical Journal 1948; 27(3): 379–423, https://doi.org/10.1002/j.1538-7305.1948.tb01338.x.
- Andryushchenko V.S., Uglov A.S., Zamyatin A.V. Statistical classification of immunosignatures under significant reduction of the feature space dimensions for early diagnosis of diseases. Sovremennye tehnologii v medicine 2018; 10(3): 14–20, https://doi.org/10.17691/stm2018.10.3.2.
- Cortes C., Vapnik V. Support-vector networks. Mach Learn 1995; 20(3): 273–297, https://doi.org/10.1007/BF00994018.
- Powers D. Evaluation: from precision, recall and F-factor to ROC, informedness, markedness & correlation. J Mach Learn Tech 2007; 2: 37–63.