[МУЗЫКА] [МУЗЫКА] [ЗВУК] Здравствуйте всем! В этом модуле мы возвращаемся от динамических данных, которые вы обсуждали применительно к временным рядам, к статическим данным, и поговорим о факторном анализе. Что такое факторный анализ? Факторный анализ — это метод, который позволяет нам классифицировать признаки. Что это за метод, и откуда он возник? В самом начале XX века, возник он из психологии, из необходимости структурировать каким-то образом психологические склонности. Никто толком не помнит, когда это началось, но считается поворотным моментом 1904 год, когда вышла статья Чарльза Спирмена, название которой вы видите на экране, и полный текст этой статьи представлен в материалах курса. В этой статье Чарльз Спирмен обсуждал составляющие интеллекта, intelligence, и после этого можно говорить о том, что факторный анализ существует в том виде, в котором его сейчас используют. Как же его, собственно, сейчас используют? Для двух основных задач. Во-первых, факторный анализ может использоваться как метод сжатия данных. То есть у нас есть, допустим, десять признаков, которые отражают какие-то похожие вещи. И мы понимаем, что десять, может быть, много, вполне хватило бы трех. И факторный анализ позволяет нам сжать с сохранением существенной информации и оставить из избыточного набора признаков необходимые. К примеру, у нас есть пять или шесть параметров удовлетворенности жизнью, но мы предполагаем, что нам вполне хватит двух, и факторный анализ может нам помочь схлопнуть и оставить те самые два, которые будут описывать удовлетворенность достаточным образом на нашей выборке. Другой способ использования факторного анализа — это, собственно, метод классификации признаков. И этот метод, с моей точки зрения, использования самый интересный, по крайней мере, в социальных науках. Что здесь происходит? Здесь у нас есть набор признаков, опять же большой достаточно, и мы пытаемся классифицировать эти признаки в более компактный набор, но который сохраняет опять же исходную информацию. Какие задачи могут решаться? Это могут быть какие-нибудь склонности, это могут быть структуры ценностей, это могут быть структуры потребления, это могут быть структуры доверия. В общем-то, все что угодно. Когда у нас есть широкий диапазон проявления признака, а мы пытаемся как бы угадать, да даже не угадать, а научным образом докопаться до внутренних механизмов, которые структурируют проявления вот этого вот большого количества характеристик. И в этом модуле мы говорим именно об этой составляющей, о том, как классифицировать признаки при помощи факторного анализа. Название «факторный анализ» может быть немножечко сбивающим с толку. Кажется, что факторный анализ — это про факторы, которые влияют на что-то. На самом деле нет. Факторный анализ — это про компоненты, которые составляют, но поскольку мы предполагаем, что есть какие-то латентные признаки, которые определяют проявление того, что мы видим... Есть один скрытый, который определяет десять видимых. И в этом смысле, наверное, факторы, что мы докапываемся до чего-то скрытого, что влияет на что-то явное. Каким образом это делается? Делается это на основе взаимосвязанности признаков. То есть откуда мы вообще знаем, что за этими признаками стоит что-то латентное? Мы видим, что то, как эти признаки вместе себя ведут, каким-то образом согласовано. И эту самую согласованность мы измеряем корреляционными методами. Поскольку, как мы понимаем, корреляция — метод специфический, она предполагает, что у нас признаки будут упорядоченными, и она предполагает, что признаки у нас будут еще и определенной формы. То есть в идеале факторный анализ вообще строят только на интервальных признаках и на метрических шкалах. Кроме того, необходимо избавиться от выбросов, потому что корреляции, как мы знаем, к ним очень чувствительны. Также мы можем использовать дихотомические признаки 0–1. Что касается порядковых переменных, то общая рекомендация — не использовать. Но если у нас вариантов нет, нам нужны именно эти данные, а они существуют в порядковом виде, то тогда их нужно либо преобразовать в те же дихотомические 0–1, проанализировав их распределение, либо, если у нас достаточно большое количество значений у этой порядковой переменной, скажем, десять, и мы можем ее интерпретировать как условно интервальную, тогда с определенными оговорками можно строить факторный анализ на порядковых переменных. Но опять-таки если можно этого избежать, то лучше избегать. Как это происходит? Что, собственно, происходит в факторном анализе? У нас есть пространство признаков N, которые вот обозначены X-ми. И из этого пространства признаков N получается количество факторов K, которое сохраняет всю важную информацию, которую несли X, но при этом более компактно. То есть вот здесь на картинке у нас условно шесть X превращаются в три фактора. Бывает, 50 превращаются в пять, то есть то, насколько компактнее станет пространство, это зависит от данных, от объема выборки и много еще от чего. В результате вот этого преобразования у нас получается что? У нас все вот эти дисперсии X, наших исходных признаков, которые мы схлопываем, раскладываются на две части. Одна часть, вот эта a и F — это общность, то есть это то, что эта вот факторная модель объяснилась, это та информация из X, которая перенеслась в новую факторную модель. А также U, от английского слова unique, — это то, что моделью не объяснилось. То есть это помехи, это то, что осталось в стороне. Это та информация, которую мы потеряли при переходе от большего числа признаков к меньшему. Естественно, мы с неизбежностью будем что-то терять, но чем меньше потери, и чем больше общность, тем лучше наша модель. Как это оценить и как это гарантировать в каком-то смысле, мы опять-таки в этом модуле обсудим. Что такое факторные нагрузки? F — это факторы, понятно. U — это специфичность, понятно. Факторные нагрузки — что это такое? В том случае, если у нас исходные признаки стандартизованы, факторы независимы и также стандартизованы, то факторные нагрузки у нас совпадают с коэффициентами корреляции между исходными признаками и получившимися факторами. Есть у нас разные способы построения факторной модели, и далеко не все удовлетворяют этим требованиям. Есть модели, которые, например, строят факторы не независимым образом. Но те, которые соблюдают эти три условия, там факторные нагрузки можно условно интерпретировать как коэффициент корреляции, исходный признак — получившийся фактор. И именно они помогают нам интерпретировать полученные факторы. Об этом мы поговорим в следующих лекциях модуля. Что же происходит с исходными признаками? Дисперсия каждого исходного признака также раскладывается у нас на уже знакомые вам две составляющие — это общность, та часть дисперсии признака, которая моделью объяснилась, и специфичность — та часть дисперсии признака, которая при построении модели потерялась. И для каждого признака хорошо, когда у нас общность велика, а специфичность мала. И мы, когда уже построили модель, мы анализируем признаки и смотрим, совпадают, удовлетворяют ли они этому требованию. Если мы видим, к примеру, что признак принес дисперсию 100 %, и моделью объяснилось только 10, а 90 выпало, то помех от этого признака гораздо больше, чем помощи. Вполне возможно, что его стоит отбросить и перестроить модель без него. Метод главных компонент. Это один из самых распространенных методов факторного анализа по нескольким сразу причинам. Во-первых, потому что он, собственно, хорошо отвечает задачам, ради которых факторный анализ придуман. И, кроме того, он единственный — статистически обоснованный. Если мы говорили уже о том, что факторный анализ — это такая разведочная штука, которая позволяет нам структурировать пространство признаков, но мы не можем говорить о том, что в генеральной совокупности обязательно будет так. Метод главных компонент имеет какие-то статистические под собой признаки, которые позволяют оценить качество модели, обоснованность модели. Мы о них поговорим в следующих лекциях модуля. Что происходит в методе главных компонент? Там у нас коррелированные признаки, вот эта исходная матрица, заменяются некоррелированными компонентами, которые построены на их основе. Каким образом это делается? Вот, допустим, у нас есть облако данных. И почему, собственно, метод называется «главными компонентами»? Потому что у нас строятся такие линии, такие векторы вдоль этого облака, которые объясняют максимум дисперсии, которая в этом облаке видна. Первая главная компонента — это вектор, который объясняет максимум имеющийся дисперсии. Мы ее построили, после чего перпендикулярно, или ортогонально, ей мы проводим следующий компонент, который объясняет максимум из оставшейся дисперсии. И продолжаем так, пока вся дисперсия не будет исчерпана. В итоге у нас получится столько же компонент, сколько было исходных признаков. Вы спросите: «Зачем? Если идея у нас схлопнуть пространство, а мы получаем столько же, сколько ввели». Но на самом деле есть в этом своя логика, оставим мы не все компоненты, которые были построены, оставим только главные. А те последние, которые выделятся и будут совсем уж остатки объяснять — это будет та самая специфичность, которую мы в итоге отбросим. Каким образом — опять же мы поговорим. Если вас интересует математическая сторона процесса, то добро пожаловать в материалы курса, там есть источники, которые показывают ту сложную математику, которая стоит за построением этих векторов. Сейчас давайте обратимся к гипотетическому примеру, чтобы на каком-то живом материале понять, о чем же мы здесь разговариваем. Я сама этот файл придумала, то есть эти данные по 60 школьникам, их не существует в реальности. Но, допустим, есть у нас 60 школьников, которые учатся и получают оценки по 100-бальной системе по шести курсам: алгебра, геометрия, физика, русский язык, литература и иностранный язык. И мы предполагаем, что у нас мало того, что кто-то из них учится лучше, кто-то из них учится хуже, кто-то из них предрасположен скорее к точным наукам, кто-то — к гуманитарным. Или даже я — директор школы, и мне нужно их распределить по профильным классам, гуманитарным или математическим, и факторный анализ может мне помочь это сделать. Если мы, эти самые переменные определенным образом подготовив, введем в факторный анализ, то мы получим что-то вроде вот этого. У нас будет табличка, где у нас по строкам исходные признаки, то есть оценки по каждому отдельному предмету, а по столбцам те самые полученные факторы. А в клетках — факторные нагрузки. Вы уже знаете, те самые коэффициенты корреляции между исходным признаком и полученным фактором. И мы видим, что фактор номер один коррелирует сильно положительно с такими оценками, как по алгебре, геометрии и физике, и мы, соответственно, можем его называть, физико-математической специализацией, например. Второй фактор, он у нас сильно и положительно коррелирует с оценками по русскому языку, иностранному языку и литературе. Этот фактор можно называть, условно говоря, гуманитарной ориентированностью. И если мы потом проанализируем значения этих факторов по нашим ученикам, это может нам помочь распределить тех, кто лучше учится по математике и физике, в физмат-класс, тех, кто лучше учится по литературе и русскому, например, в гуманитарный класс. Каким образом эту модель построить, как гарантировать ее качество и что с ней потом делать — об этом поговорим в следующих лекциях.