Статистическая классификация иммуносигнатур для задач ранней диагностики заболеваний при значительном сокращении размерности признакового пространства
Цель исследования — оценить возможности существенного сокращения признакового пространства иммуносигнатурных данных с помощью отбора наиболее информативных признаков при сохранении достаточного качества классификации заболеваний человека по этим данным.
Материалы и методы. Технология иммуносигнатуры основана на применении пептидных микрочипов, в которых пептиды со случайными аминокислотными последовательностями используются для обнаружения болезней. Такие пептиды служат частичным или полным подобием эпитопов антигенов. Определение заболеваний производится при помощи алгоритмов классификации, обученных на редуцированной выборке иммуносигнатурных паттернов пациентов с известными диагнозами.
Данные. Для проведения экспериментов использовались иммуносигнатурные данные, полученные на основе применения пептидного микрочипа высокого разрешения, имеющего порядка десяти тысяч пептидных ячеек. Оцифрованные данные для формирования выборок получены из публичной базы данных NCBI (идентификатор GSE52580).
Методы поиска информативных признаков. Для сокращения размерности признакового пространства производился поиск информативных пептидов. С этой целью проверялись применимость различных статистических критериев и меры разделимости классов, таких как t-критерий Стьюдента, U-критерий Манна–Уитни–Вилкоксона, Колмогорова–Смирнова, расстояние Джеффриса–Матуситы.
Методы классификации. Использовались классификаторы, основанные на различном математическом аппарате: метод опорных векторов, наивный байесовский классификатор, случайный лес, градиентный бустинг.
Оценка качества классификации. Использовалась метрика доли правильных ответов, которая применяется как для бинарной, так и для мультиклассовой классификации.
Результаты. Экспериментальные исследования показали, что сокращение размерности и поиск информативных пептидов — необходимая мера, которая позволяет существенно сократить время работы классификаторов — от 16 до 1625 раз, а также сократить признаковое пространство в 240 раз без потери качества классификации. Показано, что все рассмотренные классификаторы с равным успехом справляются с задачей классификации иммуносигнатур.
Заключение. Результаты работы демонстрируют перспективность применения разработанного подхода к сокращению исходного размера признакового пространства иммуносигнатурных данных для более быстрой классификации без потери ее точности.
- World Cancer Report 2014. Geneva: World Health Organization, International Agency for Research on Cancer; 2014.
- Ntagirabiri R., Munezero B., Nizigiyimana G., Ngomirakiza J.B., Ndabaneze E. Assessment of diagnostic efficiency of the optic upper digestive endoscopy in the era of video endoscopy. Journal Africain d’Hépato-Gastroentérologie 2015; 9(2): 64–67, https://doi.org/10.1007/s12157-015-0587-7.
- O’Donnell B., Maurer A., Papandreou-Suppappola A., Stafford P. Time‑frequency analysis of peptide microarray data: application to brain cancer immunosignatures. Cancer Inform 2015; 14(2): 219–233, https://doi.org/10.4137/cin.s17285.
- Richer J., Johnston S.A., Stafford P. Epitope identification from fixed-complexity random‑sequence peptide microarrays. Mol Cell Proteomics 2015; 14(1): 136–147, https://doi.org/10.1074/mcp.m114.043513.
- Kukreja M., Johnston S.A., Stafford P. Immunosignaturing microarrays distinguish antibody profiles of related pancreatic diseases. J Proteomics Bioinform 2012; 1(S6): 001, https://doi.org/10.4172/jpb.s6-001.
- Stafford P., Cichacz Z., Woodbury N.W. Immunosignature system for diagnosis of cancer. Proc Natl Acad Sci USA 2014; 111(30): E3072–E3080, https://doi.org/10.1073/pnas.1409432111.
- Singh S., Stafford P., Schlauch K.A., Tillett R.R., Gollery M., Johnston S.A., Khaiboullina S.F., De Meirleir K.L., Rawat S., Mijatovic T., Subramanian K., Palotás A., Lombardi V.C. Humoral immunity profiling of subjects with myalgic encephalomyelitis using a random peptide microarray differentiates cases from controls with high specificity and sensitivity. Mol Neurobiol 2016; 55(1): 633–641, https://doi.org/10.1007/s12035-016-0334-0.
- Шаповал А.И., Легутки Д.Б., Стаффорд Ф., Требухов А.В., Джонстон С.А., Шойхет Я.Н., Лазарев А.Ф. Иммуносигнатура — пептидный микроэррей для диагностики рака и других заболеваний. Российский онкологический журнал 2014; 19(4): 6–11.
- Осипова Т.В., Рябых Т.П., Барышников А.Ю. Диагностические микрочипы: применение в онкологии. Российский биотерапевтический журнал 2006; 5(3): 72–81.
- Андрющенко В.С., Перец Е.Ю., Лялюхова И.Е. Классификация иммуносигнатурных данных для задач ранней диагностики опасных заболеваний. В кн.: Информационные технологии и математическое моделирование (ИТММ-2017). Томск; 2017; c. 18–25.
- Stafford P., Halperin R., Legutki J.B., Magee D.M., Galgiani J., Johnston S.A. Physical characterization of the “immunosignaturing effect”. Mol Cell Proteomics 2012; 11(4): M111.011593, https://doi.org/10.1074/mcp.m111.011593.
- GSE52580. URL: https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE52580.
- Student. The probable error of a mean. Biometrika 1908; 6(1): 1–25, https://doi.org/10.2307/2331554.
- Mann H.B., Whitney D.R. On a test of whether one of two random variables is stochastically larger than the other. The Annals of Mathematical Statistics 1947; 18(1): 50–60, https://doi.org/10.1214/aoms/1177730491.
- Salvia A.A. Some fundamental properties of Kolmogorov–Smirnov consonance sets. Technometrics 1980; 22(1): 109–111, https://doi.org/10.2307/1268389.
- Matusita K. Statistical theory and data analysis. Biometrics 1985; 41(3): 815, https://doi.org/10.2307/2531311.
- Cumming G. Replication and p intervals: p values predict the future only vaguely, but confidence intervals do much better. Perspect Psychol Sci 2008; 3(4): 286–300, https://doi.org/10.1111/j.1745-6924.2008.00079.x.
- Mammone A., Turchi M., Cristianini N. Support vector machines. Wiley Interdisciplinary Reviews: Computational Statistics 2009; 1(3): 283–289, https://doi.org/10.1002/wics.49.
- Shaik L., Swamy N.N. Efficient implementation of class based decomposition schemes for naive bayes classifier. International Journal of Science and Research 2015; 4(11): 237–240, https://doi.org/10.21275/v4i11.nov151091.
- Breiman L. Random forests. Machine Learning 2001; 45(1): 5–32, https://doi.org/10.1023/a:1010933404324
- Natekin A., Knoll A. Gradient boosting machines, a tutorial. Front Neurorobot 2013; 7: 21, https://doi.org/10.3389/fnbot.2013.00021.
- Friedman J.H. Greedy function approximation: a gradient boosting machine. Ann Statist 2001; 29(5): 1189–1232, https://doi.org/10.1214/aos/1013203451.
- Ting K.M. Covariance Matrix. In: Sammut C., Webb G. (editors). Encyclopedia of machine learning and data mining. Boston, МА: Springer; 2016, https://doi.org/10.1007/978-1-4899-7502-7_50-1.
- Sylvain A., Celisse A. A survey of cross-validation procedures for model selection. Statistics Surveys 2010; 4(0): 40–79, https://doi.org/10.1214/09-ss054.