Парный регрессионный анализ Понятие парной регрессии
Основные типы кривых
312.50K
Category: mathematicsmathematics

Эконометрика. Три составляющие эконометрики

1.

Эконометрика – это научная дисциплина, объединяющая
совокупность теоретических результатов, приемов и моделей,
предназначенных для того, чтобы на базе экономической
теории, экономической и математической статистики придавать
конкретное
количественное
выражение
общим
закономерностям, установленным экономической теорией.
Рис. 1. Три составляющие эконометрики
1

2.

При построении эконометрических моделей пользуются
инструментарием регрессионного и корреляционного анализа.
Регрессионный анализ предназначен для исследования
зависимости изучаемой переменной от различных факторов и
отображения их взаимосвязи в форме функции, которая
называется регрессионной моделью.
2

3. Парный регрессионный анализ Понятие парной регрессии

Предположим, что произведено n наблюдений двух
показателей Х и Y.
Исходными данными для построения уравнения регрессии
служат пары значений (x1, y1), (x2, y2), … , (xn, yn).
Парной регрессией называется модель, выражающая
зависимость среднего значения зависимой переменной y от
одной независимой переменной х
ŷ = f (x),
где у – зависимая переменная (результативный признак);
х – независимая, объясняющая переменная (признак–фактор).

4.

Знак «^» означает, что между переменными x и y нет
строгой функциональной зависимости.
Практически величина y складывается из двух слагаемых:
y = ŷ + ε = f (x) + ε,
где y – фактическое значение результативного признака;
ŷ – теоретическое значение результативного признака,
найденное исходя из уравнения регрессии;
ε – случайная величина, возмущение или ошибка
модели.
4

5.

Ее присутствие в модели обусловлено следующими причинами:
1. Ошибки спецификации модели, обусловленные не
включением важных объясняющих переменных,
неправильную функциональную спецификацию модели.
2. Ошибки измерения, обусловленные погрешностью сбора и
измерения исходных данных.
3. Ошибки, связанные со случайностью человеческих реакций.
Обусловлено тем, что поведение и непосредственное участие
человека в сборе и подготовке данных может внести
определенные погрешности.
5

6.

Спецификация модели
Спецификация модели – формулирование вида модели,
исходя из соответствующей теории связи между
переменными. Определяется состав переменных и
математическая функция для отражения связи между ними.
Для выбора вида аналитической зависимости можно
использовать следующие методы:
• графический (вид зависимости определяется на основе
анализа поля корреляций);
• аналитический (на основе качественного анализа изучаемой
взаимосвязи);
• экспериментальный (построение нескольких моделей
различного вида с выбором наилучшей согласно
применяемому критерию качества).
6

7.

При изучении зависимости между двумя признаками графический
метод подбора вида уравнения регрессии достаточно нагляден. Он основан
на поле корреляции.
Корреляционное поле
Визуальный анализ поля корреляций позволяет определить форму
кривой регрессии, ее особенности.
Зная типичный вид графиков различных функций можно подобрать
соответствующую аналитическую зависимость.
7

8. Основные типы кривых

8

9.

Рассмотрим простейшую модель парной регрессии –
линейную регрессию.
Линейная парная регрессия описывается уравнением:
ŷ = a + b·x или y = a + b·x + ε,
согласно которому изменение Δy переменной y прямо
пропорционально изменению Δx переменной x (Δy = b·Δx).
9

10.

Построение линейной регрессии сводится к оценке ее
параметров a и b. Классический подход к оцениванию
параметров линейной регрессии основан на методе
наименьших квадратов (МНК).
Согласно
МНК,
выбираются
такие
значения
параметров а и b, при которых сумма квадратов
отклонений фактических значений результативного
признака yi от теоретических значений ŷi = f(xi) (при тех же
значениях фактора xi) минимальна, т. е.
S ( yi yˆi )2 min
10

11.

Система нормальных уравнений метода наименьших квадратов
na b xi yi ;
2
a
x
b
x
i xi yi .
i
Откуда следуют следующие выражения для определения
параметров а и b
b
1
x x
n
xy x y
x x
2
a y bx
2
1
y y
n
______
1
y x y x
n
____
2
1
x x2
n
11

12.

Коэффициент b при факторной переменной x называется
коэффициентом регрессии и показывает, на сколько
изменится в среднем величина y при изменении фактора x на
единицу.
Например, допустим, что зависимость между затратами y
(тыс. руб.) и объемом выпуска продукции x (ед.) описывается
соотношением
ŷ = 35000+0,58·x.
В этом случае увеличение объема выпуска продукции на 1
единицу потребует дополнительных затрат в среднем в
размере 0,58 тыс. руб. (или 580 рублей).
Параметр a может не иметь экономического содержания.
12

13.

Линейный коэффициент корреляции rxy:
rxy
( xi x )( yi y )
i
n x y
yx y x
x y
1 rxy 1
Для качественной оценки тесноты связи можно использовать
следующую классификацию:
0 rxy 0,3 – очень слабая связь;
0,3 rxy 0,5 – слабая связь;
0,5 rxy 0,7 – умеренная связь;
0,7 rxy 0,9 – тесная связь;
0,9 rxy 0,99 – очень тесная.
Коэффициент линейной парной корреляции может быть определен
через коэффициент регрессии b:
x
rxy b
y
13

14.

Для оценки качества подбора линейной функции рассчитывается
квадрат
линейного
коэффициента
корреляции,
называемый
коэффициентом
детерминации.
Коэффициент
детерминации
характеризует долю дисперсии результативного признака y,
объясняемую регрессией, в общей дисперсии результативного признака:
rxy2
2
факт
y2
2
ост
1 2
y
1
( yi y ) 2 - общая дисперсия
n i
2
y
2
факт
2
ост
1
( yˆ i y ) 2 - факторная дисперсия
n i
1
( yi yˆ i ) 2 - остаточная дисперсия
n i
Соответственно величина
1 rxy2 характеризует долю дисперсии y,
вызванную влиянием остальных, не учтенных в модели, факторов.
14

15.

Чтобы иметь общее суждение о качестве модели из
относительных
отклонений
по
каждому
наблюдению,
определяют среднюю ошибку аппроксимации:
y yx
1
A
100%
n
y
Средняя ошибка аппроксимации не должна превышать 8–10%.
15

16.

Оценка значимости уравнения регрессии в целом производится
на основе F-критерия Фишера. Для парной линейной регрессии
он рассчитывается по следующей формуле:
F
2
xy
r
1 r
2
xy
( n 2)
Фактическое значение F-критерия Фишера сравнивается с
табличным значением Fтабл (α; k1; k2) при уровне значимости и
степенях свободы k1 = m и k2 = n – m – 1 (n – число наблюдений,
m – число параметров при переменной x). Для парной линейной
регрессии m = 1, поэтому k2 = n – 2. При этом, если фактическое
значение F-критерия больше табличного, то признается
статистическая значимость уравнения в целом.
16

17.

Для оценки статистической значимости отдельных
параметров уравнения рассчитываются t-критерии Стьюдента.
Выдвигается гипотеза H0 о случайной природе показателей,
т.е. о незначимом их отличии от нуля. Рассчитываются
фактические значения t-критерия:
a
Стандартная
ошибка
t-критерий
Доверительный
интервал
ma S ост
b
2
x
xn
a
ta
ma
a t табл ma
mb
r
S ост
x n
b
tb
mb
mr
1 rxy2
n 2
r
tr
mr
b tтабл mb
17

18.

Фактические значения t-статистики сравниваются с
табличным значением tтаб( , n - 2) при определенном уровне
значимости и числе степеней свободы (n – 2).
Если tтаб < tфакт, то H0 отклоняется, т.е. параметр (а или b) не
случайно отличаются от нуля и сформировался под влиянием
систематически действующего фактора x (параметр значим).
Если tтаб > tфакт, то H0 принимается и признается случайная
природа формирования параметра (параметр не значим).
Существует связь
критерием Фишера:
между
t-критерием
Стьюдента
и
F-
t t F
2
r
2
b
Т.о., проверка гипотез о значимости коэффициента регрессии и
корреляции равносильна проверке гипотезы о существенности
линейного уравнения регрессии.
18

19.

Прогнозное значение y p определяется путем подстановки в
уравнение регрессии
yˆ x a b x
соответствующего прогнозного значения x пp .
Такой прогноз называется точечным. Однако точечный
прогноз явно нереален, поэтому вычисляется стандартная
ошибка прогноза m yp
m y Sост
пр
1 x
1
пp x
n
2
n
2
x
, Sост
2
ˆ
y
y
x
n m 1
и строится доверительный интервал прогноза
.
yпр tтабл my y*p yпp tтабл my
пр
пр
19
English     Русский Rules