[БЕЗ ЗВУКА] Из этого видео вы узнаете,
какими свойствами обладает решение задач регрессии методом наименьших квадратов,
а также какие предположения должны выполняться,
для того чтобы мы по этому решению могли делать какие-то выводы.
Мы решаем задачу линейной регрессии,
приближая условное матожидание y по x линейной комбинации x.
Для того чтобы больше не думать про коэффициент b0
просто добавим в нашу матрицу объекты-признаки x единичный столбец.
Теперь эта матрица размера n на k + 1.
Задачу регрессии мы будем решать методом наименьших квадратов без всяких
регуляризаторов.
Точное решение этой задачи известно.
β с крышкой задается вот такой аналитической формулой.
Соответственно, можно посчитать и y с крышкой,
то есть предсказание нашей модели на объектах, на которых она обучается.
Чтобы посчитать качество решения, получаемого методом наименьших квадратов,
определим величину TSS (Total Sum of Squares),
как разброс y относительно своего среднего.
Оказывается, что этот разброс можно поделить на две части.
Одна из частей, объясненная сумма квадратов — это сумма
квадратов отклонений среднего y от предсказанных y.
Вторая часть, остаточная сумма квадратов,
RSS — это сумма квадратов отклонений предсказанных y от их истинных значений.
По этим величинам, ESS и TSS, мы можем составить меру r²,
которая называется коэффициентом детерминации — это отношение ESS к TSS,
по сути, это доля объясненной дисперсии отклика во всей дисперсии отклика.
Давайте посмотрим какие предположения необходимо сделать для того,
чтобы решение метода наименьших квадратов обладало интересующими нас свойствами.
Во-первых, мы будем предполагать, что истинная модель y действительно линейна,
то есть y можно представить в виде X * β + какая-то ошибка ε.
Во-вторых, мы будем предполагать, что наблюдения,
по которым мы оцениваем нашу модель, случайны, то есть наши объекты
дают независимую выборку из пар xi, yi.
В-третьих, нам нужно,
чтобы матрица X была матрицей полного столбцового ранга, то есть ни один
из признаков не должен являться линейной комбинацией никаких других признаков.
Поскольку среди столбцов есть константа,
никакой из признаков в нашей выборке не должен быть и константой тоже.
Далее, мы будем предполагать, что ошибка случайна,
то есть ее условное математическое ожидание по x должно быть равно 0.
Уже из этих четырех предположений можно вывести полезное свойство оценок,
получаемых методом наименьших квадратов.
Если они выполняются, то оценки β с крышкой являются не смещенными и
состоятельными оценками истинных β.
То есть их математическое ожидание совпадает с истинным β и с ростом объема
выборки вероятность отклонения от математического ожидания
постепенно уменьшается.
Добавим к четырем предположениям еще пятое предположение гомоскедастичности ошибок.
Мы будем считать, что дисперсия ошибки не зависит от значений признака,
то есть условная дисперсия ε по x равна константе σ².
Вместе эти пять предположений называются предположениями Гаусса-Маркова.
Теорема Гаусса-Маркова утверждает, что если эти предположения выполняются, то
наши МНК-оценки имеют наименьшую дисперсию в классе всех оценок β линейных по y.
То есть оценки методом наименьших квадратов уже при выполнении этих 5
предположений в каком-то смысле являются оптимальными.
Из сделанных предположений вытекает вот такое выражение для дисперсии МНК-оценок.
Дисперсия βj с крышкой определяется тремя компонентами.
Первая компонента — это σ², дисперсия шума.
Чем больше σ², тем больше дисперсия нашей оценки βj.
Чем больше в данных шума, тем менее точно мы можем оценить нашу модель.
Вторая компонента — TSSj, это разброс j-го признака x относительно своего среднего.
Эта величина стоит в знаменателе дисперсии.
То есть чем сильнее признак варьируется в нашей выборке,
тем меньше дисперсия у коэффициента при этом признаке в нашей моделе.
Наконец, третья компонента — (1 − Rj²), где Rj² – это
коэффициент детерминации при регрессии xj на все остальные x.
Таким образом, чем лучше наш признак xj объясняется линейной комбинацией всех
остальных x, тем больше дисперсия нашей оценки.
Чем бесполезнее признак, чем лучше он объясняется всеми остальными x,
тем хуже при этом признаке мы можем определить коэффициент.
R²j по предположению о полноте столбцового ранга матрицы
x не может быть в точности равно 1, но оно может быть очень близко к 1.
И эта ситуация называется мультиколлинеарностью.
В матричном виде выражение для дисперсии вектора оценок β с крышкой
выглядит вот так: это произведение σ² * (X транспонированное X) в −1.
Если матрица X содержит столбцы, которые почти линейно зависимы,
то X транспонированное X будет плохо обусловлено,
и при ее обращении будет получаться численная неустойчивость.
Поэтому дисперсия оценок βj с крышкой будет велика.
Обратите внимание, что определение «мультиколлинеарности» не включает случай,
когда столбцы полностью линейно зависимы.
Мультиколлинеарность — это когда признаки почти линейно зависимы.
Добавим к 5 предположениям Гаусса-Маркова еще одно — предположение о
нормальности ошибки ε.
Таким образом, ошибка ε будет иметь нормальное распределение с нулевым
средним и дисперсией σ².
Это то же самое, что сказать, что распределение y по x условное,
нормальное, со средним x на β и дисперсией σ².
Если выполняются эти 6 предположений, то оценки, даваемые методом
наименьших квадратов совпадают с оценками максимального правдоподобия.
Это открывает нам доступ к прекрасным свойствам оценок максимального
правдоподобия.
Из этих 6 предположений вытекает, что оценки метода наименьших квадратов,
во-первых, имеют наименьшую дисперсию среди всех несмещенных оценок β.
Во-вторых, имеют нормальное распределение со средним β и
дисперсией σ² * (X транспонированное X) в −1.
Далее, дисперсию шума σ² можно оценить с помощью RSS.
Для этого достаточно всего лишь поделить RSS на правильное число степеней
свободы n − k − 1.
Кроме того, отношение RSS к истинной дисперсии шума σ²
будет распределено по χ квадрат с числом степеней свободы n − k − 1.
Наконец, следующее очень сильное свойство.
Для любого вещественного вектора длины k + 1 справедливо следующее
утверждение: вот такое выражение, задающее какое-то отклонение β от β с крышкой,
его произведение на наш произвольный вектор c,
распределено по Стьюденту с числом степеней свободы n − k − 1.
Что из этого можно выжать?
Если выполняются предположения (1)-(6), то мы можем строить доверительный
интервалы для коэффициентов βj, можем строить доверительные интервалы
для среднего отклика, для матожидания y при таких x.
Кроме того,
мы можем строить предсказательные интервалы для значения y при таких x.
Все это мы с вами научимся делать.
Итак, в этом видео мы разобрались с тем, какие предположения нужны для того,
чтобы делать выводы по регрессионной модели.
К сожалению, никаких регуляризаторов мы использовать не можем.
Теория построения выводов при использовании регуляризаторов только
развивается, и в ней нет еще никаких готовых решений.
В следующем видео мы научимся строить доверительные интервалы и
проверять гипотезы.