Характеристики модели
95%
Точность предсказания
политических взглядов пользователей
968 000
Количество примеров
на которых была обучена наша математическая модель
12 443
Количество параметров
которые модель учитывает при принятии решения
Принципы работы
Математическая модель для определения электоральных предпочтений была построена на основе машинного обучения. Модель принимает решение после изучения интересов человека в его профайле в соц. сети ВКонтакте.
На чем обучалась модель
Для обучения модели была создана выборка из одного миллиона пользователей ВКонтакте.
Обращаем особое внимание, что при обучении модель «не знала» подписан ли пользователь на знаковые паблики, которые однозначно определяют приверженность к той или иной политической группе. Эти параметры не использовались, как входные данные.
Т.е. модель обучалась определять политические убеждения по совокупным неявным признакам.
Даже если человек открыто не заявляет о своих политических взглядах, или даже сам не догадывается о них, наша модель может их определить с большой степенью вероятности.
Оценка качества модели
Для проверки модели на «переобучение» был использован стандартный метод кросс-валидации (метод перекрестной проверки). Обучающая выборка была случайным образом разделена на 10 непересекающихся подмножеств. На девяти модель обучалась, десятая - контрольная.
На контрольной сравнивалось расчетное значение с исходным.
Для оценки точности предсказания нашей модели мы взяли, обычно применяемый для оценки качества бинарной классификации, параметр AUC (area under the receiver-operating characteristic curve coefficient).
Для визуализации качества модели представлены графики ROC кривой и график плотности позитивных/негативных предсказаний в зависимости от значения порога отсечения («Сutoff»). Последний график позволяет оценить, насколько модель хорошо различает классы.
Видим, что графики практически хрестоматийно идеальны.
Левый график (ROC) сильно выгнут, а у правого графика максимумы позитивных (1 - красного цвета) и негативных (0 - зеленого цвета) решений максимально разнесены по оси Х.
Оба графика подтверждают высокое качество модели.
Результаты оценки
В итоге, при кросс-валидации, модель показала точность предсказания (AUC) 95%
(Реальная точность 0.9504812)
Интересно было наблюдать, как модель принимает правильное решение на основе небольшого количества совершенно неочевидных интересов человека, не имеющих никакого отношения к политике. Например, подписчики пабликов про путешествия имеют бОльшую склонность к либеральным взглядам.