[МУЗЫКА] [МУЗЫКА]
[ЗВУК] Ну что?
Мы разобрались на воображаемом примере, как работает факторный анализ.
Пример был немножечко искусственный, задача была немножечко упрощенная,
но это помогло нам понять, что позволяет делать факторный анализ, какие
у него возможности, ограничения, какие основные таблицы, требования и так далее.
Давайте теперь возьмем реальные данные и посмотрим,
чем же факторный анализ может нам помочь с пониманием окружающей нас реальности.
Посмотрим это на данных российского мониторинга экономического положения и
здоровья населения, уже знакомый нам массив RLMS, собранный в 2015 году,
и на этом массиве попробуем решить задачку структурирования способов поиска работы.
Откуда вдруг такая задачка?
Ну понятно, у нас есть несколько способов — множество,
на самом деле — как можно искать работу.
Можно обращаться к службам занятости, официальным и неофициальным, можно идти в
компании напрямую, спрашивать, есть ли у них вакансии, можно пользоваться ресурсами
родственников, друзей и знакомых, читать объявления, социальные сети и так далее.
Но при этом очевидно, что вряд ли люди, которые ищут работу,
используют все каналы.
Некоторые используют, но, как правило, все-таки есть предпочтения, каким-то
образом обоснованные, как именно искать работу и какие способы более эффективны.
Попробуем структурировать, как у нас люди, которые ищут работу,
какими каналами пользуются, ну и по возможности попытаемся понять, почему.
Для того чтобы с этим разобраться, сначала нужно отобрать тех, кто эту работу искал.
В массиве есть переменная, которая...
Вопрос, собственно: обращался ли человек куда-либо для поиска
работы в течение последних 30 дней,
то есть искал ли человек работу в течение последнего месяца.
И люди, которые отвечали утвердительно на этот вопрос,
работу в течение последнего месяца искали.
Таких в массиве оказался 551 человек, этот массив мы и возьмем в качестве базового.
То есть все люди, опрошенные в 15-м году и искавшие работу в течение последнего
месяца, будут нашей выборкой.
Дальше давайте посмотрим, какие данные о способах поиска работы нам доступны.
Есть семь переменных, вы их видите на экране сейчас.
То есть это те самые способы, о которых людей спрашивали.
Обращались ли люди в службы занятости, государственные или нет,
по объявлениям искали работу или нет, пользовались ли помощью родственников,
друзей и знакомых или обращались напрямую в компании непосредственно.
Возьмем все эти семь переменных и постараемся понять,
связаны ли они между собой, и есть ли какая-то структура,
которая направляет способы поиска работы, которые выбирают люди.
Для того чтобы соблюсти требования факторной модели,
нам нужно будет преобразовать эти признаки.
Мы помним, что факторная модель — это у нас корреляционная логика, следовательно,
признаки могут быть либо интервальные, метрическая шкала,
что очевидно не так в нашем случае, либо дихотомические.
Это мы можем сделать, мы можем преобразовать эти переменные в
дихотомические, где единица будет означать «пользовался этим каналом»,
ноль — «не пользовался этим каналом».
Так и сделаем.
Итого у нас есть семь преобразованных переменных,
на основе которых мы пытаемся строить факторную типологию.
Дальше, что нам еще нужно соблюсти?
Мы должны, во-первых, иметь достаточное количество объектов, то есть соотношение
объектов и признаков у нас должно быть не менее чем десять к одному.
У нас семь переменных, должно быть не меньше 70 человек,
у нас человек 551 — по этому критерию проходим.
Следующий критерий — это то, что у нас как минимум 10 %
людей должны быть представлены в каждой из категорий: и в нулях, и в единицах,
по всем признакам, которые мы используем.
Проверим.
Вот вы видите табличку сейчас, которая отражает процент людей,
пользовавшихся тем или иным каналом поиска работы, и мы видим,
что по требованию не менее 10 % все проходят.
Наименее популярный способ — это негосударственные службы занятости,
но и здесь мы видим 13 %, 13 — это больше, чем 10.
Оставляем эту переменную, и она будет нам в числе остальных помогать понять,
как структурированы способы поиска работы.
Теперь все готово, мы можем приступать к построению факторной модели.
Переменные отобраны, преобразованы, проанализированы.
В качестве метода факторного анализа выбрали метод главных компонент,
во-первых, потому что он распространенный,
во-вторых, потому что он статистически обоснованный.
То есть там у нас есть некоторые статистики,
которые позволяют нам оценить качество той модели, которую мы построим.
То, что касается количества факторов: мы не знаем наверняка, сколько способов
поиска работы есть, поэтому не будем задавать ничего насильственно,
а позволим алгоритму выбрать то количество факторов,
которое на наших данных разумно будет получить.
Осталось построить, оценить качество и проинтерпретировать на основе
матрицы факторных нагрузок, что же мы такое получили.
Давайте посмотрим сначала, насколько хороша модель.
Запускаем, скармливаем эти переменные алгоритму факторной модели,
нечто получаем.
Сначала посмотрим, насколько хороша модель.
Мы помним, что базовое качество модели у нас оценивается двумя формальными
критериями — это тест КМО и тест Бартлетта.
Тест КМО проверяет гипотезу об уместности,
об адекватности выборочной для построения факторной модели.
И мы помним, что у нас от 0,5 начинается приемлемое качество,
от 0,7 начинается хорошее качество.
И мы видим, что у нас тут чуть-чуть больше, чем 0,5, то есть мы проходим,
но есть повод насторожиться, что-то в этой модели у нас может быть не очень так.
Что касается теста Бартлетта, то здесь все в порядке.
Уровень значимости нулевой означает, что мы принимаем альтернативную гипотезу,
то есть матрица корреляции у нас не диагональная, значит,
взаимосвязи между признаками существуют, и построение факторной модели имеет смысл.
Мы видим, что у нас из наших семи признаков получилось три фактора,
которые позволили объяснить почти 62 % общей дисперсии.
То есть мы видим, что у нас три фактора построены и оставлены,
на основе вот этого вот критерия Кайзера, собственное значение больше единицы,
а четыре отброшены как недостаточно объясняющие,
то есть не способные объяснить даже дисперсию одного признака.
Итого видим, что факторов у нас три, по доле объясненной дисперсии мы проходим,
и с этими тремя факторами можно будет работать дальше.
Перед тем как, собственно, перейти к анализу таблицы факторных нагрузок,
посмотрим еще на общности.
То есть в целом модель у нас объясняет 62 % дисперсии, и это хорошо.
А как насчет признаков?
Мы помним, что общности исходные и модельные,
они нам позволяют оценить качество каждого признака, который входит в модель.
Исходно каждый признак входит с единичной дисперсией, что-то теряет по дороге,
приходя в модель, что-то в модель привносит.
И мы видим, что у нас практически по всем признакам все неплохо.
В районе 60–70 % дисперсии в модели объясняются, сохраняются, все хорошо.
Но вот обращение непосредственно на предприятия стоит немножечко особняком,
Мы помним, что у нас пороговое значение мы определили как 0,2.
Здесь оно соблюдается, но при этом мы видим,
что этот признак вносит в модель гораздо меньше, чем остальные.
И здесь, в общем-то, может быть, есть своя логика.
Потому что все остальные факторы — это поиск работы через каких-то посредников:
либо через посредничество служб, либо компании инициируют, подавая объявление,
и мы откликаемся на зов этого посредника, и так далее.
В случае с походом на предприятие это проактивное,
то есть здесь поиском занимаемся мы сами.
Может быть, это действительно какая-то особенная штука, посмотрим.
Может быть, есть смысл построить модель без этого фактора и посмотреть,
что получится.
Давайте проинтерпретируем сначала ту модель, которая у нас получилась.
Вот они, эти три фактора.
Мы видим матрицу факторных нагрузок после вращения.
Мы применили вращение Varimax, чтобы повысить контрастность решения и
перераспределить объясняемую дисперсию между факторами.
И мы видим, у нас получились три фактора,
на основе этих самых корреляций можем их интерпретировать.
Первый фактор — это что-то вроде активного поиска работы с привлечением разных
каналов.
Мы видим, что здесь есть и службы, и объявления и так далее.
Второй фактор — это все-таки поиск работы скорее через объявления.
И третий фактор достаточно очевидный — поиск работы через связи.
С одной стороны, понятно, с другой стороны, есть некоторая путаница.
Мы видим, что в некоторых факторах участвует один и тот же признак, в двух,
например, факторах, и мы можем иметь какую-то неопределенность с тем,
как это интерпретировать.
Давайте попробуем исключить признак поиска работы непосредственно через предприятия и
построить модель, которая объясняет способы поиска работы
через посредничество: служб, объявлений, родственников, знакомых и так далее.
Вот она, табличка общностей этой новой модели, и мы видим,
что здесь у нас все хорошо.
Здесь те признаки, которые вошли в модель, все объясняются достаточно неплохо.
Если мы посмотрим на объясненную дисперсию, то увидим, что здесь она
повысилась, доля объясненной дисперсии, но это и понятно: мы исключили один признак,
меньше объяснять — лучше объясняется.
По критерию Бартлетта опять проходим, по КМО у нас не сильно стало лучше,
но при этом мы остаемся в рамках приемлемой адекватности.
Что касается содержания полученной модели, что у нас здесь?
На шести признаках мы получили модель из трех опять же факторов,
и здесь у нас интерпретация уже, мне кажется, гораздо более прозрачная.
То есть мы видим: один фактор у нас — поиск работы через объявления, в интернете
или где-то в другом месте, второй фактор — это поиск работы через службы занятости,
государственные или негосударственные, и третий фактор — это поиск работы через
связи, через родственников или через знакомых.
Вот. Таким образом, мы получили две модели.
Одна, которая включает все возможные способы поиска работы,
и там у нас выделилась активность и два более фокусированных способа.
Если исключаем предприятия и смотрим на поиск работы только через посредников,
то здесь у нас получаются три внятных стратегии: одна — ищем через объявления,
другая — ищем через службы, чтобы они нам подобрали, и третья — ищем через связи.
Хорошо, поняли мы эти структуры, а что с ними делать дальше?
После того как мы получили эти факторы, как они нам могут помочь и в чем?
Об этом подробнее поговорим в следующей лекции.