Исследование облака значений переменных для совокупности всех хороших моделей

Exploring the cloud of variable importance for the set of all good models

Ученые из Университета Дьюка разработали эффективный метод для изучения того, насколько важны определенные переменные для повышения надежности / точности прогнозных моделей. Этот метод, в конечном итоге, поможет в разработке более надежных и эффективных алгоритмов машинного обучения для различных приложений.

Исследователи Цзяюнь Донг и Синтия Рудин представили методику, которая может использоваться для анализа значений переменных для множества почти оптимальных прогнозных моделей. Эта методика, которую они назвали «облаками значимости переменных», может использоваться для лучшего понимания моделей машинного обучения, прежде чем выбирать наиболее перспективные для выполнения конкретной задачи. Термин «облака значимости переменных» исходит из идеи, что существует несколько моделей (то есть целое «облако» моделей), которые можно оценить с точки зрения значимости переменных. Эти облака могут помочь исследователям определить значимые и не значимые переменные. Как правило, значимость одной переменной подразумевает, что другая менее важна (т.е. не так сильно влияет на прогнозы данной модели).