Similar presentations:
Модель простой линейной регрессии
1. Модель простой линейной регрессии
LOGO2. Основные понятия
ОСНОВНЫЕ ПОНЯТИЯ3. Определение модели
Простая линейная регрессия — это модель,описывающая зависимость величины y от одной
переменной x в виде y a bx
a, b — коэффициенты
— случайная величина
Терминология
x — объясняющая переменная или
существенный фактор или регрессор
a, b — параметры регрессии
— случайный фактор
y — результирующий показатель или отклик
4. Спецификация модели
Система уравнений y1 a bx1 1 ,y a bx ,
2
2
2
yn a bxn n ,
− описание моделью выборочных данных
(x1; y1),(x2 ; y2 ),...,(xn ; yn )
1, 2 , , n − сериальные ошибки
5. Теоретическое уравнение модели
Сериальная ошибка— это разность между имеющимся значением
зависимой переменной и соответствующим ему
значением, предсказанным по уравнению модели
Теоретическое уравнение модели
― такое уравнение, у которого на имеющейся
выборке каждая из сериальных ошибок
принимает наименьшее значение
Обозначение y a bx
6.
Выборкаy
P4
P1
P2
x1
x2
P3
x3
x4 x
6
7.
Теоретическое уравнениеy
P4 ε4
ε1
Q4
P1
Q1
x1
ε2 Q2
P2
x2
ε3 Q 3
P3
x3
x4 x
6
8. Теоретические ограничения
У каждой сериальной ошибки математическоеожидание равно нулю
Дисперсии всех сериальных ошибок одинаковы
(гомоскедастичность возмущений)
Сериальные ошибки не коррелируют между собой
(отсутствие автокорреляции возмущений)
Объем выборки больше двух
Выборочные значения существенного фактора не
случайны
Элементы выборки не расположены на одной
вертикальной прямой
9. Теоретические ограничения
Нормальная регрессияПараметрическая или нормальная или
гауссовская регрессия −
все сериальные ошибки имеют нормальное
распределение
Общий случай
Сериальные ошибки − одинаково
распределенные независимые случайные
величины
10. Метод наименьших квадратов
Задача о поиске теоретического уравнения неразрешима
2
n
Найти a и b такие, что yi a bxi min
i 1
Оценки aˆ и b по методу наименьших квадратов
Формулы для вычисления
n
b
( xk x )( yk y )
k 1
n
2
(
x
x
)
k
k 1
,
aˆ y bx ,
11. Эмпирическое уравнение модели
Эмпирическое уравнение модели −такое уравнение, у которого на имеющейся
выборке сумма квадратов сериальных ошибок
принимает наименьшее значение
Обозначение y aˆ bx
12. Выровненные значения и остатки
Выровненное значение − значение зависимойпеременной, предсказанное с помощью
эмпирического уравнения модели
Обозначение: выровненное значение с номером i: yˆ i
Остаток − это разность между имеющимся
значением зависимой переменной и
соответствующим ему значением, предсказанным
по эмпирическому уравнению
Обозначение: остаток с номером i: ei
Вычисление: ei yi yˆi
13. Пример
Зависимость расходов на транспорт от дохода(США, 1946-2002 годы)
Transp – совокупные расходы на транспорт в США
за год (в миллиардах долларов в ценах 2000 года)
DPI – совокупный личный располагаемый доход в
США за год (в миллиардах долларов в ценах 2000
года)
14. Пример
Transportation350
300
250
200
150
100
50
0
0,0
1 000,0
2 000,0
3 000,0
4 000,0
5 000,0
6 000,0
7 000,0
8 000,0
15. Пример
Зависимость расходов на транспорт от дохода(США, 1946-2002 годы)
Коэффициенты
Y-пересечение 3,878780296
DPI
0,037518081
Уравнение модели Transp 3,8788 0,0375DPI
Transp –расходы на транспорт
DPI –личный располагаемый доход
16. Интрерпретация уравнения модели
Зависимость расходов на транспорт от дохода(США, 1946-2002 годы)
Transp 3,8788 0,0375DPI
Коэффициент при DPI:
если доход увеличивается на 1 млрд. долларов, то
расходы на транспорт возрастают на 37,5 млн.
долларов
Свободный член:
формально показывает, что нулевом доходе расходы
на транспорт будут равны 3,8788 млрд. долларов
17. Интрерпретация уравнения модели
Коэффициент при объясняющей переменной:показывает, на сколько единиц примерно
изменяется зависимая переменная при увеличении
независимой переменной на единицу
Свободный член равен величине зависимой
переменной при нулевом значении существенного
фактора
18. Теорема о сумме квадратов
ТЕОРЕМА О СУММЕКВАДРАТОВ
19. Суммы квадратов
Остатки: e1 y1 yˆ1, e2 y2 yˆ 2 , , en yn yˆ nЛюбой анализ качества модели − это анализ
остатков
Полная сумма квадратов (total sum of squares):
n
TSS ( yk y ) 2
k 1
Регрессионная сумма квадратов (regression sum of
n
squares):
RSS ( yˆ k y ) 2
k 1
Сумма квадратов ошибок (error sum of squares)
n
2
ˆ
ESS ( yk yk )
k 1
20. Теорема о сумме квадратов
Если в модели простой регрессии выполняютсявсе теоретические предположения, то верно
равенство:
TSS RSS ESS
21. Пример
Зависимость расходов на транспорт от дохода(США, 1946-2002 годы)
Дисперсионный анализ
Регрессия
Остаток
Итого
Сумма RSS
df
1
55
56
Сумма TSS
SS
284507,5155
5135,225939
289642,7414
Сумма ESS
22. Значимость модели
Модель является значимой, если в теоретическомуравнении модели коэффициент при
существенном факторе не равен нулю
23. Проверка значимости модели
Тест ФишераПроверка
при
Основная гипотеза – модель незначимая
заданном
уровне
Альтернативная – модель значимая
значимости
α
Наблюдаемое значение:
n 2 RSS
F
ESS
Критическое значение: квантиль уровня 1– α
распределения Фишера с 1 и n – 2 степенями свободы
Выводы: если наблюдаемое больше критического, то
модель значимая (с возможной 100α%-й ошибкой)
если наблюдаемое меньше критического, то гипотеза о
незначимости модели не отвергается
24. Пример
Зависимость расходов на транспорт от дохода(США, 1946-2002 годы) Проверка при
Наблюдаемое
значение
F
Значимость F
3047,171349 7,45928E-50
уровне
значимости
4,016195493
Критическое
значение
p-значение
меньше 0,05
Модель значимая
(с возможной 5%-й ошибкой)
α = 0,05
25. Коэффициент детерминации
Коэффициент детерминации:RSS
ESS
2
R
R 1
TSS
TSS
Выводы о качестве модели
Коэффициент меньше примерно 0,2:
модель плохо описывает имеющиеся данные
Коэффициент больше примерно 0,7: модель
линейной регрессии дает хорошее описание
Коэффициент от 0,2 до 0,7: нельзя сделать вывод
о качестве модели
2
26. Пример
Зависимость расходов на транспорт от дохода(США, 1946-2002 годы)
Множественный R
R-квадрат
Нормированный R-квадрат
Стандартная ошибка
Наблюдения
0,991095597
0,982270483
0,981948128
9,662698606
57
Модель
качественная
27. Стандартные ошибки
СТАНДАРТНЫЕ ОШИБКИ28. Стандартная ошибка модели
Стандартная ошибка модели– несмещенная оценка среднего квадратического
отклонения сериальных ошибок
Формула вычисления:
1
s
ESS
n 2
n – объем выборки
ESS – сумма квадратов сериальных ошибок
29. Пример
Зависимость расходов на транспорт от дохода(США, 1946-2002 годы)
Регрессионная статистика
Множественный R
0,991095597
R-квадрат
0,982270483
Нормированный R-квадрат 0,981948128
Стандартная ошибка
9,662698606
Наблюдения
57
Стандартная
ошибка модели
30. Стандартные ошибки параметров
Стандартная ошибка параметра a– несмещенная оценка среднего квадратического
отклонения случайной величины â
Формула вычисления:
1
x2
sa s
n
n
2
(
x
x
)
k
k 1
s – стандартная ошибка модели
n – объем выборки
31. Стандартные ошибки параметров
Стандартная ошибка параметра b– несмещенная оценка среднего квадратического
отклонения случайной величины bˆ
Формула вычисления:
1
sb s n
2
(
x
x
)
k
k 1
s – стандартная ошибка модели
32. Пример
Зависимость расходов на транспорт от дохода(США, 1946-2002 годы)
Y-пересечение
DPI
Коэффициенты
Стандартная ошибка
3,878780296
2,716479676
0,037518081
0,000679661
Стандартная ошибка
свободного члена
Стандартная ошибка
параметра при DPI
33. Интервальные оценки
Интервальная оценка параметра:показывает с вероятностью 1– α , в каком
интервале содержится истинное значение
параметра
Вероятность 1– α — надежность
Интервал обычно вычисляется с помощью
точечной оценки параметра
34. Интервальные оценки
Интервальная оценка свободного члена:нижняя граница интервала aˆ t1 , n 2 sa
верхняя граница интервала aˆ t1 , n 2 sa
aˆ – точечная оценка свободного члена
sa – стандартная ошибка свободного члена
t1 ,n 2 – двусторонняя квантиль уровня 1– α
распределения Стьюдента с n – 2 степенями свободы
35. Интервальные оценки
Интервальная оценка углового коэффициента:нижняя граница интервала bˆ t1 , n 2 sb
верхняя граница интервала bˆ t1 , n 2 sb
bˆ – точечная оценка углового коэффициента
sb – стандартная ошибка углового коэффициента
t1 ,n 2 – двусторонняя квантиль уровня 1– α
распределения Стьюдента с n – 2 степенями свободы
36. Пример
Зависимость расходов на транспорт от дохода(США, 1946-2002 годы)
Интервальная оценка
свободного члена
Коэффициенты
Y-пересечение
3,878780296
DPI
0,037518081
Нижние 95%
-1,565166628
Верхние 95%
9,32272722
0,03615601
0,038880151
Интервальная оценка
параметра DPI
37. Значимость параметров модели
ЗНАЧИМОСТЬ ПАРАМЕТРОВМОДЕЛИ
38. Определения
Параметр при существенном факторе xназывается значимым, если его истинное
значение не равно нулю
Значимость параметра при x означает: модель
учитывает влияние данного фактора на зависимую
переменную
Параметр при существенном факторе x
называется статистически незначимым, если
его значимость не установлена
Статистическая незначимость параметра при x
означает: возможно, модель не учитывает
влияние
данного фактора на зависимую
переменную
39. Значимость модели и параметров
В модели простой линейной регрессии значимостьпараметра при существенном факторе равносильна
значимости модели!
40. Проверка значимости параметра
Тест СтьюдентаОсновная гипотеза – параметр b незначимый Проверка
при
Альтернативная – параметр b значимый
заданном
ˆ
уровне
b
Наблюдаемое значение:
значимости
tˆ
α
sb
Критическое значение: квантиль уровня 1– α
распределения Стьюдента с n – 2 степенями свободы
Выводы: если наблюдаемое больше критического, то
параметр значимый (с возможной 100α%-й ошибкой)
если наблюдаемое меньше критического, то гипотеза
о незначимости параметра не отвергается
(статистическая незначимость параметра)
41. Пример
Зависимость расходов на транспорт от доходаПроверка при
(США, 1946-2002 годы) уровне
значимости
α = 0,05
Y-пересечение
DPI
Коэффициенты
3,878780296
0,037518081
4,051748692
Наблюдаемое
значение
t-статистика
1,42787017
P-Значение
0,158983049
55,20118974
7,45928E-50
2,004044783
Критическое
значение
Параметр при DPI значимый
(с возможной 5%-й ошибкой)
p-значение
меньше 0,05
42. Прогнозирование
ПРОГНОЗИРОВАНИЕ43. Виды прогнозирования
Безусловное прогнозирование (предсказание):значение существенного фактора, соответствующее
прогнозируемому значению, известно
Условное прогнозирование:
значение существенного фактора, соответствующее
прогнозируемому значению, не известно
44. Точечный прогноз
Точечный прогноз:значение зависимой переменной, вычисленное с
помощью эмпирического уравнения модели
ˆ
Вычисление: yˆ 0 aˆ bx
0
x0 – значение соответствующего существенного
фактора
45. Стандартная ошибка
Стандартная ошибка точечного прогноза:несмещенная оценка стандартного отклонения
случайной величины aˆ a bˆ b x0
Вычисление:
1
2
( x0 x )
s0 s 1 n
n
2
( xk x )
k 1
s – стандартная ошибка точечного прогноза
x0 – значение соответствующего существенного
фактора
46. Интервальный прогноз
Интервальная прогноз:показывает с вероятностью 1– α , в каком
интервале содержится истинное значение
зависимой переменной
Вероятность 1– α — надежность
47. Интервальный прогноз
Вычисление:нижняя граница интервала yˆ0 t1 , n 2 s0
верхняя граница интервала yˆ0 t1 , n 2 s0
yˆ 0 – точечный прогноз
s0 – стандартная ошибка прогноза
t1 ,n 2 – двусторонняя квантиль уровня 1– α
распределения Стьюдента с n – 2 степенями свободы
48. Пример
Зависимость расходов на транспорт от дохода(США, 1946-2002 годы)
x0 ( 2003 год)
7787,4
Точечный прогноз y0
296,0471
Стандартная ошибка прогноза
10,16842
Интервальный прогноз
Нижняя 95% граница
Нижняя 95% граница
275,669122
316,4250403
49. Нелинейная регрессия
НЕЛИНЕЙНАЯ РЕГРЕССИЯ50. Нелинейные модели
Два вида регрессий:нелинейные относительно объясняющих
переменных, но линейные по оцениваемым
параметрам
Все после замены становятся линейными
y a b ln x
y a b/ x
y a bx cx 2
нелинейные по оцениваемым параметрам
y ea bx
y axb
Некоторые сводятся к линейным
после логарифмирования
51. Пример
Эрнст Энгель (1821-1896)Кривые Энгеля
немецкий экономист и статистик
показывает зависимость между объёмом
потребления товаров или услуг и доходом
потребителя при неизменных ценах и предпочтениях
E1 — кривая для нормальных товаров
E2 — кривая для предметов роскоши
E3 — кривая для низкокачественных товаров
52. Основные нелинейные модели
Гиперболическаяy a b/ x
Параболическая
y a bx cx 2
Экспоненциальная y ea bx
Степенная
y axb
После
замены
становятся
линейными
ln y a bx
ln y ln a b ln x
Полулогарифмическая
регрессия
Логарифмическая
регрессия
53. Выбор лучшей модели
ВЫБОР ЛУЧШЕЙ МОДЕЛИ54. Оценка качества модели
ИнструментыТочечная диаграмма (расположение точек вдоль
линии тренда)
Статистика Фишера (значимость модели по тесту
Фишера)
Коэффициент детерминации (оценка качества
модели по его величине)
Средняя относительная погрешность (оценка
качества модели по её величине)
100% n yi yˆi
ср
n i 1 yi
55. Оценка качества модели
Характеристики подходящей моделиНа диаграмме точки расположены, в основном,
вдоль линии тренда
Могут использоваться модели с
меньшим коэффициентом
Модель значимая
Коэффициент детерминации не меньше заданного
уровня (обычно 0,65-0,7)
Средняя относительная погрешность не меньше
заданного уровня (обычно 10% - 25%)
Могут использоваться модели с
большей погрешностью
56. Пример
Зависимость расходов на транспорт от дохода(США, 1946-2002 годы)
Transportation
350
300
Точки
расположены
вдоль
линейного
тренда
250
200
150
100
50
0
0,0
1 000,0 2 000,0 3 000,0 4 000,0 5 000,0 6 000,0 7 000,0 8 000,0
57. Пример
Зависимость расходов на транспорт от дохода(США, 1946-2002 годы)
Модель
значимая
Статистика Фишера
F
Значимость F
3047,171349 7,45928E-50
Коэффициент детерминации
R-квадрат 0,982270483
Модель хорошо описывает выборочные данные
Средняя относительная погрешность
Средняя относительная
5,26%
погрешность
Модель подходящая
58. Выбор модели
Два этапаПервый этап: выбор подходящих моделей
Обычно используются: линейная, гиперболическая,
параболическая, экспоненциальная, степенная
модели
Для моделей с зависимой переменной, отличной от
исходной, предсказанные значения, остатки,
коэффициенты детерминации и среднюю
относительную погрешность необходимо вычислять
отдельно!
59. Выбор модели
Два этапаВторой этап: выбор лучшей модели
Для сравнения подходящих моделей используются
такие же инструменты, как на первом этапе
60. Пример
Зависимость расходов на транспорт от дохода(США, 1946-2002 годы)
Transportation
400
y = 44,966e0,0003x
R² = 0,9736
350
y = 2E-06x2 + 0,0226x + 26,452
R² = 0,9897
300
250
y = 0,0375x + 3,8788
R² = 0,9823
y = 0,0897x0,8975
R² = 0,9824
200
150
100
Все модели
подходящие
50
0
0,0
1 000,0
2 000,0
3 000,0
4 000,0
5 000,0
6 000,0
7 000,0
8 000,0
61. Пример
Зависимость расходов на транспорт от дохода(США, 1946-2002 годы)
Основные характеристики
Линейная Параболическая Экспоненциальная Степенная
Коэффициент
детерминации
Средняя
относительная
погрешность
Значимость
параметра при DPI
0,9823
0,9897
0,9736
0,9824
5,26%
3,52%
7,01%
5,32%
да
да (при DPI и DPI2)
да
да