Второй тест, который принципиально по своей структуре
не похож на тест Уайта — это тест Голдфельда-Квандта.
При проведении теста Голдфельда-Квандта на условную гетероскедастичность,
предполагается, что есть некоторая переменная,
от которой зависит эта самая условная дисперсия ошибок.
Для проведения этого теста требуется предположение о нормальности ошибок,
зато, в отличие от теста Уайта,
тест Голдфельда-Квандта применим для выборок небольшого размера.
Процедура теста Голдфельда-Квандта следующая: на первом шаге
мы сортируем наблюдения по предполагаемому убыванию условной дисперсии.
То есть, если вы предполагаете, например,
что у вас разброс прибыли предприятия зависит от численности персонала, то,
соответственно, вы должны отсортировать ваши наблюдения по численности персонала.
Если вы предполагаете, что расходы домохозяйства на продукты питания
зависят от количества людей в этой семье, то,
соответственно, вы должны упорядочить домохозяйства, семьи,
которые попались в вашу выборку от самых многочисленных до самых малочисленных.
То есть вы сортируете наблюдения по тому фактору,
который по вашему мнению влияет на условную дисперсию ошибки.
После этого вы выкидываете небольшое количество наблюдений посередине,
ну, на практике иногда берут 20 %, но с точки зрения сухой математической
теории можно выкинуть любое количество наблюдений.
Делается это для того, чтобы подчеркнуть разницу между дисперсией верхней половины,
верхней части выборки и нижней части выборки.
Соответственно, вы предполагаете, что в верхней части выборки у вас находятся
объекты с более высоким разбросом, чем в нижней части выборки.
После этого вы оцениваете вашу модель,
которую вы хотели отдельно по первой части выборки с предположительно
высокой дисперсией ε условной, и оцениваете эту же модель,
которую вы хотите по нижней части выборки, то есть по той части выборки,
где вы предполагаете небольшую условную дисперсию ε_i-того.
То есть вы оцениваете две вспомогательные регрессии.
Оценив две вспомогательные регрессии,
вы в каждой из них считаете RSS — сумму квадратов остатков: RSS_1 в первой,
где предположительно дисперсия ε_i-того условно велика и RSS_2,
где предположительно дисперсия ε_i-того условно мала.
После этого вы считаете F-статистику по формуле RSS_1 деленное
на его степени свободы, на (n_1 – k) делить на в знаменателе
RSS_2 деленное на его степени свободы, на (n_2 – k), где n_1 — это,
соответственно, количество наблюдений в первой вспомогательной регрессии,
n_2 — количество наблюдений во второй вспомогательной регрессии,
а k — это количество объясняющих переменных,
включая единичку в вашей регрессии, то есть количество параметров оцениваемых.
И при верной H0 в тесте Голдфельда-Квандта,
так же, как и в тесте Уайта,
нулевой гипотезой проверяемой является гипотеза о гомоскедастичности условной,
а альтернативной гипотезой является гипотеза о гетероскедастичности.
Так вот при верной H0, при гомоскедастичных ε_i-тых,
эта дробь имеет F-распределение с n_1– k, n_2 – k степенями свободы.
Соответственно, это позволяет проверять гипотезу H0.
Как ее тестировать?
Вы считаете значение в статистике.
Если оно оказывается больше, чем F-критическое, то, соответственно,
H0 — гипотеза об условной гомоскедастичности отвергается.
Если значение F-статистики оказывается небольшим,
то ничего противоречащего H0 мы не наблюдаем,
и, соответственно, гипотеза H0 о гомоскедастичности не отвергается.
Давайте проведем тест Голдфельда-Квандта для нашего примера.
Вернемся к нашему примеру с спросом на мороженое и
на примере покажем как проводить тест Голдфельда-Квандта.
Соответственно, исследователь оценил количество покупаемого мороженого по
разным киоскам и предположил, что это зависит от средней цены мороженого в
данном киоске, от количества от величины ассортимента, то есть сколько разных видов
мороженого продается и от расстояния до ближайшей остановки от киоска.
И, соответственно, исследователь хочет провести тест Голдфельда-Квандта на
гетероскедастичность, то есть проверяемая нулевая гипотеза о гомоскедастичности,
о том что дисперсия ε_i-тых при фиксированных регрессорах постоянна.
И альтернативная гипотеза об условной гетероскедастичности, то есть о том,
что условная дисперсия ε_i-тых при фиксированных регрессорах непостоянна.
Будем проверять по прежнему на уровне значимости 5 % и проведем тест
Голдфельда-Квандта.
Для проведения теста нам нужна следующая информация:
количество наблюдений 200, и в тесте Голдфельда-Квандта,
в отличие от теста Уайта, нам надо предположить по какой
переменной имеет место зависимость от гетероскедастичности.
То есть нам нужно поделить наблюдения на две группы: группу наблюдений с
предположительно высокой условной дисперсией и группу наблюдений с
предположительно низкой условной дисперсией.
И, к примеру, исследователь предположил,
что величина дисперсии условной ε_i-того при фиксированных
регрессорах что она зависит монотонно от расстояния до метро.
Ну если киоск рядом с метро или рядом с какой-то остановкой общественного
транспорта другой, то, соответственно, можно ожидать,
что там бывают какие-то пики, когда приезжает много пассажиров,
когда там рабочие дни там больше, а если киоск удален от остановки, то,
соответственно, там, скорей всего, можно ожидать меньше разброс ε_i-тых.
Соответственно, исследователь предположил,
что условная дисперсия зависит от d_i-тых, и зависит отрицательно.
То есть с ростом d_i-того,
с ростом расстояния до остановки дисперсия условная ε_i-того падает.
Поэтому, исследователь поделил всю выборку из 200 наблюдений на
80 наблюдений, где d_i-тое мало,
на 80 наблюдений, где d_i-тое велико, и оставшиеся,
соответственно, 40 наблюдений посередке он просто не учитывал.
И оценил модель по первой части наблюдений,
получил в ней RSS_1 = 210.
По вот этим 40 наблюдениям никакую модель не оценивал.
По 80 наблюдениям, где были самые большие d_i-тое он оценил
ту же самую модель и получил RSS_2 = 120.
И, соответственно, на основании этих данных нам нужно
проверить гипотезу об условной гомоскедастичности
против H альтернативной об условной гетероскедастичности.
Как нам провести тест Голдфельда-Квандта?
Тест Голдфельда-Квандта устроен просто.
Нам надо взять RSS_1, поделить на количество наблюдений
в первой регрессии минус количество переменных, оцениваемых –k,
поделить на RSS_2, деленное на количество наблюдений
во второй построенной оцененной регрессии,
минус количество параметров в модели.
В нашем случае мы получаем 210
/ 80- 4 и тут 120 / 80- 4.
И вот ради того, чтобы это сокращалось как раз специально и берут
одинаковое количество наблюдений в двух частях выборки.
И у нас, соответственно, получается 210 / 120 = 1,75.
Это наблюдаемое значение статистики Голдфельда-Квандта.
Ну, соответственно, теорема у нас есть за кадром, которая говорит,
что при верной H0, при верной гипотезе о гомоскедастичности условной,
статистика Голдфельда-Квандта имеет
F-распределение с n_1 – k,n_2 – k степенями свободы.
То есть в данном случае, это F распределение со степенями свободы 76,76.
У F-распределения два параметра степеней свободы.
График функции плотности F-распределения имеет примерно такой вид.
Нам нужно найти здесь F-критическое.
F-критическое мы можем найти либо по таблицам, либо дав команду в R.
Нам нужен квантиль, нужна квантиль F-распределения порядка
0,95 со степенями свободы: первая степень
свободы равна 76, вторая степень свободы равна 76.
Если мы дадим такую команду в R, то мы получим вот это самое F-критическое,
и у нас F-критическое оно оказывается равным 1,46.
F-критическое 1,46.
А наблюдаемое значение статистики Голдфельда-Квандта
оказалось равно 1,75, то есть где-то здесь.
F-критическое делит область возможных значений статистики Голдфельда-Квандта на
две части: часть, где H0 не отвергается и,
то есть там, где разница между
RSS в предположительной части выборки,
где дисперсии велики и RSS той части выборки, где предположительно
дисперсии малы, если они не очень сильно отличаются, то статистика будет около 1.
Ну вот у нас 1,75, и это оказывается существенно дальше, чем 1.
И здесь мы получаем, что H0 отвергается.
Значит, в нашем случае тест Голдфельда-Квандта приводит
нас к тем же результатам, что и тест Уайта.
Вывод: H0 отвергается.
То есть в наших данных имеет место условная
гетероскедастичность.