Similar presentations:
Спецификация уравнения множественной регрессии. Выбор переменных
1. Спецификация уравнения множественной регрессии. Выбор переменных
Лекция2. Спецификация уравнения регрессии
Выбор переменныхВыбор формы зависимости
(следующая лекция)
2
3. Цели лекции
1. Рассмотрение проблемы спецификациипеременных в уравнениях множественной
линейной регрессии
2. Изучить последствия неправильного
выбора переменных
3. Найти средства, позволяющие улучшить
процедуру выбора переменных
3
4. Выбор переменных множественной регрессии
Включение и исключение переменных1. Влияние на коэффициенты уравнения
2. Влияние на значимость коэффициентов
регрессии и уравнения в целом
3. Линейные ограничения
4. Тесты ошибочной спецификации
4
5. Последствия не включения в уравнение существенной переменной
Переменная называется существенной,если она должна быть включена в
уравнение (согласно правильной теории)
Будем также говорить об исключении
переменной из правильно специфицированного
уравнения регрессии
5
6. Последствия не включения в уравнение существенной переменной
1. Уменьшается возможность правильной оценкии интерпретации уравнения
2. Коэффициенты при оставшихся переменных
могут оказаться смещенными
3. Их стандартные ошибки, t-статистики и другие
показатели качества становятся некорректными и
не могут быть использованы для суждения о
качестве уравнения
6
7. Отсутствие существенной переменной
Механизм разрушения оценокYi 0 1 X 1i 2 X 2i i
Если объясняющая переменная X2 отсутствует, то
Yi 0 1 X 1i
где
i
f ( 2 X 2 )
Если объясняющие переменные коррелированы, то
нарушается предпосылка 40 некоррелированности
случайного члена и объясняющих переменных
7
8. Отсутствие существенной переменной
Оценка смещения коэффициентаCov( X 1 , X 2 )
b1 1 2
Ошибка выборки
Var ( X 1 )
Cov( X 1 , X 2 )
Смещение 2
Var ( X 1 )
Направление смешения зависит от знака истинного
значения коэффициента при отсутствующей переменной
и ковариации объясняющих переменных
8
9. Отсутствие существенной переменной
Направление смещения коэффициента1. Ковариация оценивается по выборке
2. Знак коэффициента при отсутствующей переменной
берется из экономической теории
9
10. Отсутствие существенной переменной
Направление смещения коэффициентаКоэффициент детерминации может оставаться большим
за счет кажущегося эффекта замещающей переменной
10
11. Последствия включения в уравнение несущественной переменной
Переменная называется несущественной,если она не должна быть включена в
уравнение (согласно правильной теории)
Будем также говорить о включении лишней
переменной в правильное уравнение регрессии
11
12. Последствия включения в уравнение несущественной переменной
1. Не теряется возможность правильной оценкии интерпретации уравнения
2. Коэффициенты при существенных переменных
остаются несмещенными
3. Стандартные ошибки растут, t-статистики
уменьшаются, эффективность оценок падает
4. Несущественная переменная может быть
значимой, уравнение с ней – давать лучшую оценку
5. Увеличивается риск мультиколлинеарности
12
13. Замещающие переменные
Часто бывает, что мы не можем найти данные по переменной,которую нужно включить в уравнение регрессии
Замещающая переменная – это переменная, которая
коррелирует с отсутствующей переменной уравнения
регрессии, и за счет этого выполняет функции этой
отсутствующей переменной
Причины использования замещающей переменной:
1. В уравнении отсутствует существенная переменная со всеми
вытекающими из этого последствиями.
2. Результаты оценки регрессии с включением замещающей
переменной могут дать косвенную информацию об отсутствующей
переменной
13
14. Замещающие переменные
Включение замещающей переменной позволяет правильнооценить роль других факторов, освободив их от функции
замещения отсутствующей переменной
Коэффициенты замещающих переменных не имеют
интерпретации, а сами замещающие факторы не могут быть
использованы для формирования экономической политики
Пример: Время как замещающая переменная для показателя
технического прогресса в производственной функции КоббаДугласа
14
15. Выбор переменных множественной регрессии
Включение и исключение переменных1. Влияние на коэффициенты уравнения
2. Влияние на значимость коэффициентов
регрессии и уравнения в целом
3. Линейные ограничения
4. Тесты ошибочной спецификации
15
16. Оценка значимости включаемой переменной
Значимость включаемой переменнойоценивается t-статистикой коэффициента
Эквивалентный метод – использование F-критерия
F
Улучшение качества уравнения
Необъяснен ная сумма квадратов отклонений / Оставшееся число степеней свободы
( RSS m RSS m 1 ) / 1
( RSS m RSS m 1 ) / 1
F
RSS m 1 / n (m 1) 1 RSS m 1 /( n m 2)
Эквивалентность предполагает двухстороннюю
альтернативу для t-критерия
16
17. Оценка значимости включаемой группы переменных
Значимость включаемой группыпеременных оценивается F-тестом
F
Улучшение качества уравнения / Число использованных степеней свободы
Необъяснен ная сумма квадратов отклонений / Оставшееся число степеней свободы
( RSS m RSS m s ) / s
F
RSS m s / n ( m s ) 1
Fкр F ; m s; n m s 1
Значимость группы переменных не означает
значимости каждой из переменных в этой группе
17
18. Оценка значимости включаемой группы переменных
F-статистика может быть найдена черезкоэффициенты детерминации
2
2
( RSS m RSS m s ) / s
(
R
R
m s
m) / s
F
F
RSS m s / n ( m s ) 1
(1 Rm2 s ) / n (m s) 1
Данный тест может также использоваться для обратной
процедуры: оценки значимости ухудшения качества
модели при исключении из модели s переменных:
H 0 : Rm2 s Rm2 0
18
19. Четыре критерия для включения переменной в уравнение регрессии
1. Роль переменной в уравнении опирается напрочные теоретические основания
2. Высокое значение t-статистики коэффициента при
новой переменной
3. Скорректированный коэффициент детерминации
растет при включении переменной
4. Другие коэффициенты испытывают значительное
смещение при включении новой переменной
19
20. Процедуры поиска существенных переменных
1. Последовательный восходящий поиск2. Последовательный нисходящий поиск
Обе процедуры могут привести к серьезным ошибкам
и следует избегать их автоматического применения,
либо резко ограничивать объем поиска
20
21. Выбор переменных множественной регрессии
Включение и исключение переменных1. Влияние на коэффициенты уравнения
2. Влияние на значимость коэффициентов
регрессии и уравнения в целом
3. Линейные ограничения
4. Тесты ошибочной спецификации
21
22. Проверка наличия линейных ограничений
Линейным ограничением называется условиелинейной зависимости коэффициентов регрессии
Справедливость гипотезы о наличии линейного ограничения
позволяет исключить лишнюю переменную (m m 1).
Проверка проводится по F-критерию или по t-критерию
(непосредственно для включаемой переменной)
F
Улучшение качества уравнения / Число использованных степеней свободы
Необъяснен ная сумма квадратов отклонений / Оставшееся число степеней свободы
( RSS m 1 RSS m ) / 1
RSS m 1 RSS m
F
RSS m /( n m 1)
RSS m /( n m 1)
Fкр F ;1; n m 1
22
23. Выбор переменных множественной регрессии
Включение и исключение переменных1. Влияние на коэффициенты уравнения
2. Влияние на значимость коэффициентов
регрессии и уравнения в целом
3. Линейные ограничения
4. Тесты ошибочной спецификации
23
24. Тест ошибочной спецификации Рамсея
Тест Рамсея позволяет проверить, стоит ли начинать поискдополнительной переменной для включения в уравнение
1. Оценивается уравнение регрессии
Y i b0 b1 X 1i b2 X 2i
2. Вычисляются степени зависимой переменной
Y i , Y i , (Y i ), i 1, n
2
3
4
3. Оценивается уравнение регрессии
Yi 0 1 X 1i 2 X 2i 2 Y i 3 Y i ( 4 ) Y i i
2
3
4
4. Проводится оценка улучшения по F-критерию
24
25. Тест ошибочной спецификации Амемии (Акаике)
Является вариантом скорректированного коэффициентадетерминации и превосходит его
RSS ( n m )
PC
n m
Выбирается уравнение с меньшим значением PC
Смысл теста Амемии в том, что он позволяет
минимизировать среднюю ошибку оценки b
MSE Var (b) (смещение b)
2
25
26. Выбор переменных регрессии: вложенные и невложенные модели
Вложенная модель является частным случаем (ограниченнойверсией) более общей модели.
Невложенные модели имеют разные наборы переменных.
Y i b0 b1 X 1i b2 X 2i
Yi
влож
b0 b1 X 1i
Y i b0 b1 X 1i b2 X 2i
A
Y i b0 b1 X 1i b2 Zi
B
Вложенные модели непосредственно сравнимы. Сравнение
невложенных моделей возможно только с помощью
специальных процедур.
26
27. J-тест ошибочной спецификации Дэвидсона-МакКиннона для невложенных моделей
J-тест ошибочной спецификации ДэвидсонаМакКиннона для невложенных моделейY i b0 b1 X 1i b2 X 2i
A
Y i b0 b1 X 1i b2 Z i
B
1. Оценивается уравнение регрессии (A)
2. Расчетные значения зависимой переменной из модели (A)
включаются в модель (B) в качестве дополнительной
объясняющей переменной
Yi b0 b1 X 1i b2 Z i b3 Y i i
B
A
3. Проводится оценка улучшения модели по F-критерию
4. Делается симметричная процедура
27
28. J-тест ошибочной спецификации Дэвидсона-МакКиннона для невложенных моделей
J-тест ошибочной спецификации ДэвидсонаМакКиннона для невложенных моделейВ результате применения теста возможны четыре случая:
1. Модель (A) значимо улучшается, а (B) – нет.
Вывод: выбираем модель (B).
2. Модель (B) значимо улучшается, а (A) – нет.
Вывод: выбираем модель (A).
3. Обе модели значимо улучшаются.
Вывод: ни одна из них не пригодна.
4. Обе модели улучшаются не значимо.
Вывод: данных недостаточно, чтобы различить качество
моделей.
28
29.
Конец лекции29