МГУ им. М.В. Ломоносова / Национальный медицинский исследовательский центр терапии и профилактической медицины, Москва Аспирант / младший научный сотрудник
Тема доклада: Логистическая регрессия – сильный бейзлайн. Опыт биостатистика
Тезисы доклада: Методы машинного обучения используются для решения широкого спектра задач, но почти не встречаются в работах в области эпидемиологии неинфекционных заболеваний. Во-первых, предсказания некоторых методов машинного обучения тяжело интерпретировать, что мешает исследователю-нестатистику. Во-вторых, эпидемиологические данные имеют простую структуру и, возможно, выигрыш от применения сложных методов будет небольшим. Нашей задачей было проверить на эпидемиологической выборке из 14 тысяч человек, может ли использование базовых подходов машинного обучения улучшить прогнозирование артериальной гипертензии в сравнении с результатами нерегуляризированной логистической регрессии. В качестве методов машинного обучения рассматривали логистическую регрессию с регуляризацией, обобщенные аддитивные модели, случайный лес и градиентный бустинг над деревьями. В результате, логистическая регрессия без регуляризации показала второй по качеству результат, лишь немного отстав от обобщенных аддитивных моделей. Анализ использованных моделей, показал: ожидаемо, методы машинного обучения фиксируют нелинейные ассоциации, однако выигрыш от этого компенсируется переобучением.
О себе: В 2019 году закончил мехмат МГУ, сейчас аспирант кафедры теории вероятностей. С 2018 года работаю биостатистиком в медицинском научном центре (НМИЦ ТПМ). Занимаюсь статанализом в эпидемилогии, генетике и клинических испытаниях.