[МУЗЫКА] [МУЗЫКА]
[МУЗЫКА] Сегодня мы рассмотрим с
вами как построить как построит кластерный анализ с помощью метода k-средних в R.
Для начала давайте прочитаем данные.
Они у нас лежат в файле dataClust.
[БЕЗ СЛОВ] [БЕЗ
СЛОВ] Как вы помните,
мы кластеризуем с вами университеты по трем показателям.
Это средняя зарплата выпускников в Москве, средний балл ЕГЭ
при поступлении и процент остающихся в городе обучения.
Для того чтобы воспользоваться методом k-средних,
нам необходимо выполнить команду kmeans.
Как вы помните, в методе k-средних нам необходимо явно задать
количество кластеров, которое мы хотим получить, и на основании
проведенного уже иерархического анализа, мы с вами выяснили,
что оптимальным количеством кластеров для этих данных у нас является 5.
Соответственно, в centers мы как раз пишем 5, чтобы он выделил нам 5 кластеров.
Также мы говорили с вами,
что очень важно для метода k-средних выбор начального приближения,
и что наилучшим способом является генерация случайных
точек и повторение метода несколько раз из разных начальных приближений.
nstart говорит нам о том, сколько делать запусков.
В данном случае делаем до 20 запусков.
Давайте посмотрим, что же у нас получилось.
Здесь мы видим центр кластеров, которые у нас получились по всем трем переменным.
Также мы видим результирующий вектор, который показывает нам,
к какому кластеру было отнесено то или иное наблюдение.
Также здесь внутри мы видим кластерную дисперсию.
Давайте нарисуем полученные нами кластеры.
[БЕЗ СЛОВ]
[БЕЗ СЛОВ]
[БЕЗ СЛОВ] Здесь мы
видим полученные нами кластеры во всех трех разрезах.
Давайте попробуем построить данные в каком-нибудь одном
разрезе и также нарисовать центры кластеров, которые мы получили.
[БЕЗ СЛОВ]
[БЕЗ СЛОВ] Здесь у
нас данные по разрезу: зарплата и средний балл ЕГЭ.
Сейчас давайте добавим сюда же центры наших кластеров.
[БЕЗ СЛОВ] [БЕЗ
СЛОВ] [БЕЗ
СЛОВ] [БЕЗ
СЛОВ] [БЕЗ
СЛОВ] [БЕЗ
СЛОВ] Соответственно, выглядит это следующим образом.
Аналогичные графики можно построить в любом из разрезов.
Теперь давайте посмотрим, какая еще информация у нас возвращается в
результате кластирезации методом k-средних.
Для начала мы можем посмотреть, за какое количество итераций у нас сошелся метод.
Здесь мы видим,
что он сошелся за 4 итерации.
Также мы можем посмотреть, какого размера получились кластеры.
Кластеры получились следующего вида.
По размеру можно посмотреть на сбалансированность тех или иных кластеров.
Например, у нас могут быть кластеры выброса, состоящие из 1–2 наблюдений.
Также можем посмотреть на общую дисперсию в данных.
Также мы можем посмотреть на внутрикластерную дисперсию.
Здесь у
нас показана внутрикластерная дисперсия в отдельности по каждому кластеру.
Также мы можем посмотреть общую,
то есть суммарную внутрикластерную дисперсию.
Как вы помните, мы с вами говорили о том, что в качестве меры качества
наших кластеров мы можем рассматривать скорректированный R-квадрат.
Давайте посчитаем его для наших кластеров.
[БЕЗ СЛОВ] [БЕЗ
СЛОВ] [БЕЗ
СЛОВ] [БЕЗ
СЛОВ] [БЕЗ
СЛОВ] Как вы
помните, скорректированный R-квадрат
показывает нам долю объясненной дисперсии, то есть долю общей дисперсии в данных,
которые объясняются нашим разбиением на группы, на кластеры.
Соответственно, чем эта доля больше, тем лучше у нас получился кластерный анализ.
Как мы видим, у нас значение получилось 0,78, что достаточно неплохо.
Таким образом, мы рассмотрели с вами,
как построить кластерный анализ с помощью метода k-средних в R.
Посмотрели, как получить результаты, как их визуализировать,
как посмотреть какую-то дополнительную информацию, например, о том, за какое
количество итераций сошелся метод, какой у нас получился объем кластеров.
И также