Сегодня: 08.05.2025
RU / EN
Последнее обновление: 30.04.2025
Новый метод восстановления пропущенных значений в наборе данных на примере иммуносигнатур

Новый метод восстановления пропущенных значений в наборе данных на примере иммуносигнатур

А.А. Кошечкин, В.С. Андрющенко, А.В. Замятин
Ключевые слова: ранняя диагностика заболеваний; иммуносигнатура; восстановление пропущенных значений в выборке; машинное обучение.
2019, том 11, номер 2, стр. 19.

Полный текст статьи

html pdf
2698
2009

Технология иммуносигнатур основана на применении пептидных микрочипов, в которых пептиды со случайными аминокислотными последовательностями используются для обнаружения болезней в зависимости от изменений в профиле циркулирующих антител. Определение заболеваний производится при помощи алгоритмов классификации, обученных на редуцированной выборке иммуносигнатурных паттернов пациентов с известными диагнозами.

Цель исследования — разработка нового метода восстановления пропущенных значений применительно к данным иммуносигнатурного анализа, позволяющего сохранить качество классификации на достаточно высоком уровне.

Материалы и методы. В работе использовались данные иммуносигнатурного анализа, полученные с использованием пептидного микрочипа высокого разрешения, имеющего порядка десяти тысяч пептидных ячеек.

Произведена оценка применимости различных методов восстановления пропущенных значений, таких как простое восстановление, метод k-взвешенных ближайших соседей, в том числе методов, основанных на использовании машинного обучения: линейная регрессия, случайный лес, градиентный бустинг.

Результаты. В рамках исследования разработан метод восстановления пропущенных значений на основе градиентного бустинга. Принцип его работы заключается в последовательном обходе всех признаков и обучении на экземплярах, чьи значения присутствуют в признаке, с последующим уточнением отсутствующих значений признака. Такая операция повторяется, пока суммарная ошибка обучения по всем признакам продолжает уменьшаться или пока не будет достигнуто максимальное число итераций. В качестве метрики ошибки обучения используется среднеквадратичная ошибка.

Для оценки качества восстановления пропущенных значений в нашем исследовании применяются результаты классификации по данным после процедуры восстановления. Выявлена эффективность вариации предложенного в статье метода восстановления пропущенных значений, основанного на линейном градиентном бустинге, в условиях высокого содержания пропущенных значений по сравнению с рассматриваемыми аналогами. Результаты работы демонстрируют перспективность применения методов машинного обучения для восстановления пропущенных значений в данных иммуносигнатурного анализа.


Журнал базах данных

pubmed_logo.jpg

web_of_science.jpg

scopus.jpg

crossref.jpg

ebsco.jpg

embase.jpg

ulrich.jpg

cyberleninka.jpg

e-library.jpg

lan.jpg

ajd.jpg

SCImago Journal & Country Rank