Есть вопросы? info@skydigital.pro

Математическая модель электоральных предпочтений в социальных сетях

Модель предсказывает политические взгляды человека анализируя его профайл в соцсетях

Проверить модель в действии:

УЗНАЙ - ТЫ ЛИБЕРАЛ ИЛИ КОНСЕРВАТОР?
МОДЕЛИРОВАНИЕ РЕЗУЛЬТАТОВ ВЫБОРОВ

Характеристики модели

95%

Точность предсказания

политических взглядов пользователей

968 000

Количество примеров

на которых была обучена наша математическая модель

12 443

Количество параметров

которые модель учитывает при принятии решения

Принципы работы

Математическая модель для определения электоральных предпочтений была построена на основе машинного обучения. Модель принимает решение после изучения интересов человека в его профайле в соц. сети ВКонтакте.


На чем обучалась модель

Для обучения модели была создана выборка из одного миллиона пользователей ВКонтакте - подписчиков групп сторонников текущей власти и сторонников политика Алексея Навального.

Обращаем особое внимание, что при обучении модель «не знала» подписан ли пользователь на знаковые паблики, которые однозначно определяют приверженность к той или иной политической группе. Эти параметры не использовались, как входные данные.
Т.е. модель обучалась определять политические убеждения по совокупным неявным признакам.

Даже если человек открыто не заявляет о своих политических взглядах, или даже сам не догадывается о них, наша модель может их определить с большой степенью вероятности.

Оценка качества модели

Для проверки модели на «переобучение» был использован стандартный метод кросс-валидации (метод перекрестной проверки). Обучающая выборка была случайным образом разделена на 10 непересекающихся подмножеств. На девяти модель обучалась, десятая - контрольная.
На контрольной сравнивалось расчетное значение с исходным.

Для оценки точности предсказания нашей модели мы взяли, обычно применяемый для оценки качества бинарной классификации, параметр AUC (area under the receiver-operating characteristic curve coefficient).

Для визуализации качества модели представлены графики ROC кривой и график плотности позитивных/негативных предсказаний в зависимости от значения порога отсечения («Сutoff»). Последний график позволяет оценить, насколько модель хорошо различает классы.

Видим, что графики практически хрестоматийно идеальны.
Левый график (ROC) сильно выгнут, а у правого графика максимумы позитивных (1 - красного цвета) и негативных (0 - зеленого цвета) решений максимально разнесены по оси Х.
Оба графика подтверждают высокое качество модели.

Результаты оценки

В итоге, при кросс-валидации, модель показала точность предсказания (AUC) 95%
(Реальная точность 0.9504812)

Интересно было наблюдать, как модель принимает правильное решение на основе небольшого количества совершенно неочевидных интересов человека, не имеющих никакого отношения к политике. Например, подписчики пабликов про путешествия имеют бОльшую склонность к либеральным взглядам.