Расчет объема выборки для клинических испытаний систем поддержки принятия врачебных решений с бинарным откликом

О.Ю. Реброва, А.В. Гусев

Ключевые слова: системы поддержки принятия врачебных решений; диагностические модели; прогностические модели; объем выборки; бинарный исход; клинические испытания; внешняя валидация.

2022, том 14, номер 3, стр. 6.

DOI: https://doi.org/10.17691/stm2022.14.3.01

Полный текст статьи

html pdf

2728

2779

Аннотация
Список литературы
Как цитировать в References

В настоящее время идет активная разработка программных продуктов для применения в медицине. Среди них доминирующую долю занимают системы поддержки принятия врачебных решений (СППВР), которые могут быть интеллектуальными (основанными на математических моделях, полученных методами машинного обучения, или на других технологиях искусственного интеллекта) или неинтеллектуальными. Государственная регистрация СППВР как программных медицинских продуктов предусматривает проведение клинических испытаний, протокол которых разрабатывается совместно разработчиком и уполномоченной медицинской организацией. Одним из обязательных компонентов протокола является расчет объема выборки.

В данной статье рассмотрен расчет объема выборки для наиболее распространенного случая — бинарного отклика в диагностических/скрининговых и прогностических системах. Для диагностических/скрининговых моделей рассмотрены случаи несравнительного исследования, сравнительного исследования с проверкой гипотезы превосходства, сравнительного исследования с проверкой гипотезы не меньшей точности в исследованиях одномоментного дизайна. Для прогностических моделей рассмотрены случаи рандомизированных контролируемых испытаний комплексного вмешательства «прогноз + прогноз-зависимое ведение пациента» с проверкой гипотезы превосходства и не меньшей точности.

Подчеркивается, что не менее важным, чем объем выборки, аспектом клинических испытаний является также репрезентативность выборки и другие компоненты дизайна. Они даже более важны, так как систематические ошибки в клинических испытаниях первичны, и самый изощренный статистический анализ не может возместить дефекты дизайна. Редукция клинических испытаний до внешней валидизации моделей (оценки метрик точности на внешних данных) представляется совершенно необоснованной. Рекомендуется проводить клинические испытания с адекватным задачам дизайном, с тем чтобы далее был возможен клинико-экономический анализ и комплексная оценка медицинских технологий.

Описанные в статье методы расчетов объема выборки потенциально могут быть применены и к более широкому спектру медицинских изделий.

Гусев А.В., Морозов С.П., Кутичев В.А., Новицкий Р.Э. Нормативно-правовое регулирование программного обеспечения для здравоохранения, созданного с применением технологий искусственного интеллекта, в Российской Федерации. Медицинские технологии. Оценка и выбор 2021; 1: 36–45, https://doi.org/10.17116/medtech20214301136.
Приказ Министерства здравоохранения РФ от 30 августа 2021 г. №885 «Об утверждении Порядка проведения оценки соответствия медицинских изделий в форме технических испытаний, токсикологических исследований, клинических испытаний в целях государственной регистрации медицинских изделий». URL: https://docs.cntd.ru/document/608935477.
MDRF/SaMD WG/N41FINAL:2017. Software as a Medical Device (SaMD): Clinical Evaluation. URL: http://www.imdrf.org/docs/imdrf/final/ technical/imdrf-tech-170921-samd- n41-clinical-evaluation_1.pdf.
Wallert J., Tomasoni M., Madison G., Held C. Predicting two-year survival versus non-survival after first myocardial infarction using machine learning and Swedish national register data. BMC Med Inform Decis Mak 2017; 17(1): 99, https://doi.org/10.1186/s12911-017-0500-y.
Ye C., Fu T., Hao S., Zhang Y., Wang O., Jin B., Xia M., Liu M., Zhou X., Wu Q., Guo Y., Zhu C., Li Y.M., Culver D.S., Alfreds S.T., Stearns F., Sylvester K.G., Widen E., McElhinney D., Ling X. Prediction of incident hypertension within the next year: prospective study using statewide electronic health records and machine learning. J Med Internet Res 2018; 20(1): e22, https://doi.org/10.2196/jmir.9268.
Park J., Kim J.W., Ryu B., Heo E., Jung S.Y., Yoo S. Patient-level prediction of cardio-cerebrovascular events in hypertension using nationwide claims data. J Med Internet Res 2019; 21(2): e11757, https://doi.org/10.2196/11757.
Реброва О.Ю. Жизненный цикл систем поддержки принятия врачебных решений как медицинских технологий. Врач и информационные технологии 2020; 1: 27–37, https://doi.org/10.37690/1811-0193-2020-1-27-37.
Bossuyt P.M., Reitsma J.B., Bruns D.E., Gatsonis C.A., Glasziou P.P., Irwig L., Lijmer J.G., Moher D., Rennie D., de Vet H.C.W., Kressel H.Y., Rifai N., Golub R.M., Altman D.G., Hooft L., Korevaar D.A., Cohen J.F.; STARD Group. STARD 2015: an updated list of essential items for reporting diagnostic accuracy studies. BMJ 2015; 351: h5527, https://doi.org/10.1136/bmj.h5527.
Collins G.S., Reitsma J.B., Altman D.G., Moons K.G. Transparent reporting of a multivariable prediction model for individual prognosis or diagnosis (TRIPOD): the TRIPOD statement. BMJ 2015; 350: g7594, https://doi.org/10.1136/bmj.g7594.
Snell K.I.E., Archer L., Ensor J., Bonnet L., Debray T.P.A., Philips B., Collins G.S., Riley R.D. External validation of clinical prediction models: simulation-based sample size calculations were more reliable than rules-of-thumb. J Clin Epidemiol 2021; 135: 79–89, https://doi.org/10.1016/j.jclinepi.2021.02.011.
Riley R.D., Debray T.P.A., Collins G.S., Archer L., Ensor J., van Smeden M., Snell K.I.E. Minimum sample size for external validation of a clinical prediction model with a binary outcome. Stat Med 2021; 40(19): 4230–4251, https://doi.org/10.1002/sim.9025.
Archer L., Snell K.I.E., Ensor J., Hudda M.T., Collins G.S., Riley R.D. Minimum sample size for external validation of a clinical prediction model with a continuous outcome. Stat Med 2021; 40(1): 133–146, https://doi.org/10.1002/sim.8766.
Riley R.D., Collins G.S., Ensor J., Archer L., Booth S., Mozumder S.I., Rutherford M.J., van Smeden M., Lambert P.C., Snell K.I.E. Minimum sample size calculations for external validation of a clinical prediction model with a time-to-event outcome. Stat Med 2022; 41(7): 1280–1295, https://doi.org/10.1002/sim.9275.
Feng D., Cortese G., Baumgartner R. A comparison of confidence/credible interval methods for the area under the ROC curve for continuous diagnostic tests with small sample size. Stat Methods Med Res 2017; 26(6): 2603–2621, https://doi.org/10.1177/0962280215602040.

Rebrova O.Yu., Gusev A.V. Sample Size Calculation for Clinical Trials of Medical Decision Support Systems with Binary Outcome. Sovremennye tehnologii v medicine 2022; 14(3): 6, https://doi.org/10.17691/stm2022.14.3.01