[МУЗЫКА] [МУЗЫКА] [МУЗЫКА] Мы уже построили линейную модель парной регрессии зависимости цены за аренду квартиры в зависимости от метража. Но в нашей исходной таблице содержалось гораздо больше факторов, которые также могли оказывать влияние на цену квартиры. Поэтому представляет интерес рассмотрение более полной многофакторной модели с учетом всех предложенных переменных. Для этого мы должны построить модель множественной регрессии. Линейная модель множественой регрессии записывается вот таким образом, где y — это зависимая переменная, Θ₀ — свободный член, а дальше через параметры Θj вводится влияние нескольких факторов. Сейчас мы попробуем построить вот такую модель, где в качестве факторов будут выступать также метраж, но к ним мы добавим этаж, количество этажей в доме и наличие либо отсутствие мебели. Заметим здесь, что метраж является величиной количественной, этаж также можно рассматривать как количественную величину, а вот наличие или отсутствие мебели является величиной номинальной. Тем не менее мы можем рассматривать в регрессионных моделях влияние номинальных переменных на количественную зависимую переменную. В этом случае переменные, отвечающие за влияние номинального фактора, называются фиктивными переменными. Они принимают значение только 0 или 1, а коэффициент, стоящий перед этой переменной показывает, насколько отличается величина зависимой переменной в соответствии с тем, какой уровень принимает номинальная величина. Поскольку в нашем случае в качестве фиктивной переменной у нас будет переменная, отвечающая за наличие или отсутствие мебели в квартире, соответственно, параметр, стоящий перед ней, покажет, насколько отличается в среднем цена при наличии мебели от цены за квартиру при отсутствии мебели, в случае если этот параметр будет признан как значимый. Итак, мы рассматриваем по-прежнему линейную модель, но теперь это уже не парная модель с одним фактором, а множественная модель, где мы перечислим все имеющиеся факторы. То есть в формуле мы должны указать цену как зависимую переменную, а после знака тильда, если мы хотим рассматривать обычную линейную аддитивную модель, через знак + мы указываем все интересующие нас факторы. При этом данные берутся из того же объекта data_f. Выполняем это действие и смотрим результаты проведенного анализа. Какие выводы мы можем сделать на основании полученной таблицы? Мы оценивали влияние четырех факторов. Соответственно, в нашей модели было пять параметров: четыре, отвечающие за влияние фактора, и свободный член. Первой строкой в таблице идет информация о свободном члене, его значение равно 3226,6, и данный параметр у нас признан как значимый. Также очень высокая значимость у параметра, отвечающего за площадь квартиры. Этаж и меблировка у нас также признаны как значимые факторы, а вот количество этажей в доме в данном случае не влияет на наблюдение. Значение p-value для него очень высокое, намного выше уровня 0,05. Соответственно, на уровне значимости 0,05 гипотеза о равенстве нулю данного параметра принимается. То есть этот фактор мы можем из модели убрать. Сейчас пока нет необходимости смотреть на коэффициент детерминации, потому что наша модель построена еще не до конца. Если какой-то из факторов был принят незначимым, его нужно из модели удалить. Поэтому мы еще раз пересчитаем нашу регрессионную модель, но теперь в формулу уже не будем включать тот фактор, который был признан незначимым. Выполняем это действие и выводим результаты. Как видим, теперь у нас оценивалось четыре параметра, то есть мы рассматривали влияние трех факторов, и все четыре параметра, все три фактора оказались значимыми. Коэффициент детерминации данной модели достаточно высок — 71 %, значение статистики Фишера и соответствущая ему величина p-value говорят о том, что построенная модель адекватна. Также мы можем рассчитать корреляции для нашей таблицы. Если мы возьмем таблицу целиком, как видите, функция расчета корреляционного коэффициента у нас не срабатывает, потому что исходная таблица помимо количественных величин у нас также содержала качественный фактор в нечисловом формате. Поэтому применение данной операции спровоцировало ошибку. Уберем из нашей таблицы первый столбец. Это можно сделать следующим образом: я создам новый объект только с числовыми данными, который будет сформирован из исходной таблицы путем удаления первого столбца. Чтобы удалить первый столбец из таблицы, мы должны указать, что строки берутся все, об этом свидетельствует пустая первая позиция перед знаком «запятая», и после запятой мы пишем −1, то есть убрать первый столбец. Вот что представляет теперь собой этот объект. Это та же самая исходная таблица без первого столбца, и для нее мы можем рассчитать корреляцию. Вот корреляционная матрица, которая показывает нам связи между имеющимися зависимыми переменными и факторами. Для построенной модели мы также можем сделать прогноз, как мы это делали для случая парной регрессии. Мы можем посмотреть, во-первых, спрогнозированные значения цены при всех выбранных значимых факторах, отдельно можем вывести значение коэффициента в построенной модели, и далее для любой выбранной квартиры я могу рассчитать по построенной модели среднее ожидаемое значение цены. Первым фактором у нас идет метраж, потом у нас идет этаж и наличие или отсутствие мебели. Допустим, я хочу рассмотреть квартиру площадью 33 метра, расположенную на 9-м этаже, с мебелью. Поскольку помимо трех факторов у меня в модели еще присутствует свободный член, соответственно, первым элементом вектора я должна указать единицу, дальше значение фактора, соответствующего площади, значение фактора, соответствующего этажу, и единица, отвечающая за наличие мебели. Создаю информацию по новой квартире и далее нахожу предсказанное значение как все значения коэффициентов, умноженные на все значения факторов, то есть скалярное произведение двух векторов, содержащих соответствующую информацию по коэффициентам и по квартире. Полученное значение равно 14642 рубля 16 копеек. То есть при вот таких значениях факторов среднее ожидаемое цены за квартиру представлено данным значением. [МУЗЫКА] [МУЗЫКА]