Similar presentations:
Множественная регрессия и корреляция
1. Множественная регрессия и корреляция
Соотношение между социально-экономическими явлениями и процессамиопределяются большим числом одновременно и совокупно действующих
факторов.
В связи с этим часто возникает задача исследования зависимости переменной Y от
нескольких объясняющих факторов: x1,x2,…, xk
Эта задача решается с помощью
множественного корреляционно-регрессионного анализа
Исходными данными для множественного анализа служит уже не два набора
данных: {(xi,yi), i=1,…n}, где x – факторный, а y – результативный признаки,
а k+1 набор, который можно представить в виде матрицы:
y
x1
x2
…
xk
y1
x11
x12
…
x1k
y2
x21
x22
…
x2k
…
…
…
…
…
yn
xn1
xn2
…
xnk
2. Множественный корреляционно-регрессионный анализ
Множественный корреляционнорегрессионный анализЗадачи множественного корреляционно-регрессионного анализа:
Измерение тесноты между признаками
Отбор факторных признаков в модель
Установление неизвестных причин связей
Определение вида уравнения регрессии
Построение регрессионной модели и оценка её параметров
Проверка значимости параметров связи
Интервальное оценивание параметров связи
Требуется определить аналитическое выражение формы связи между
результативным признаком y и факторными признаками x1, x2, …, xk:
yˆ x f ( x1 , x2 ,..., xk )
где, k – число факторных признаков
3. Уравнение множественной линейной регрессии
Коэффициенты уравнения регрессии, как и в случае однофакторного анализа(парной регрессии), ищутся методом наименьших квадратов
Но из-за особенностей МНК в случае множественной регрессии применяются
только линейные уравнения и уравнения, приводимые к линейным
Из-за трудностей обоснования формы связи чаще всего используется линейное
уравнение, которое можно записать в следующей форме:
yˆ x a0 a1 x1 a2 x2 ... ak xk
Где a0, a1, … , ak – параметры модели (коэффициенты регрессии);
ε – случайная величина (остаток).
4. Уравнение множественной линейной регрессии
Коэффициенты уравнения регрессии ai показывает, на какую величину в среднемизменится результативный признак y, если переменную xi увеличить на единицу
измерения при фиксированном (постоянном) значении других факторов, входящих
в уравнение регрессии.
Оценку параметров модели можно провести в матричной форме:
Y X a
где Y – вектор значений зависимой переменной размерности (n х 1)
X – матрица значений независимых переменных x1, x2, …, xk. Размерность матрицы
равна n х (k+1). Первый столбец является единичным, так как в уравнении регрессии
a0 умножается на единицу.
a – подлежащий оцениванию вектор неизвестных параметров размерности (k+1) x 1.
ε – вектор случайных отклонений размерности n х 1
5. Уравнение множественной линейной регрессии
Сформулируемгипотезу модели множественной регрессии.
k
1. yi ai xij i , где i 1,..., n спецификация модели
j 1
2. xij детерминированные величины
Векторы регрессоров xj= (x1j, x2j, …, xnj)’, j=1,2,…,k – линейно независимы.
(‘) – знак транспонирования.
3. E i 0, E i2 V ( i ) 2 , i
4. E ( i m ) 0 при i≠m – статистическая независимость
(некоррелированность) ошибок для разных наблюдений.
5. i N (0, 2 )
То есть εi – нормально распределенная случайная
величина со средним значением 0 и дисперсией σ2
(Нормальная линейная регрессионная модель)
6. Уравнение множественной линейной регрессии (параметры уравнения)
y1y
Y 2 ,
...
yn
1 x11 x12 ... x1k
a0
1
1 x x ... x
a
X 21 22 2 k , a 1 , 2
... ... ... ... ...
...
...
a
1
x
x
...
x
nk
n
k
n1 n 2
Y X a
y1 a0 a1 x11 a2 x12 ... ak x1k 1
y2 a0 a1 x21 a2 x22 ... ak x2 k 2
…
yn a0 a1 xn1 a2 xn 2 ... an xnk n
Определим вектор-столбец коэффициентов ММР при помощи МНК
7. Уравнение множественной линейной регрессии (параметры уравнения)
y1y
Y 2 ,
...
yn
1 x11 x12 ... x1k
a0
1
1 x x ... x
a
X 21 22 2 k , a 1 , 2
... ... ... ... ...
...
...
a
1
x
x
...
x
nk
n
k
n1 n 2
Y Yˆ Y Xa
Y X a
n
ESS i2 '
min
i 1
' (Y Xa)' (Y Xa) Y ' Y Y ' Xa a' X ' Y a' X ' Xa
Y ' Y 2aX ' Y a' X ' Xa
поскольку
( Xa)' a' X ' Y ' ( Xa) ( Xa)' Y скаляр
и (a' X ' X )a (( a' X ' X )a)' a' (a' X ' X )' a' ( X ' Xa)
8. Уравнение множественной линейной регрессии (параметры уравнения)
ESS2 X ' Y 2 X ' Xa 0
a
a ( X X ) 1 X Y
(X’X)-1 – матрица, обратная матрице X’X. Такая матрица существует в силу
линейной независимости векторов xj (п.2 гипотезы ММР).
Покажем, что вектор остатков ε ортогонален всем векторам переменных
x1, x2, …, xk, которые являются столбцами матрицы X. Данное условие
ортогональности эквивалентно равенству: X’ε = 0
X ' X ' (Y Xa) X ' Y X ' Xa X ' Y X ' X ( X ' X ) 1 X 'Y 0
Используя этот факт, получим для ESS полезную формулу:
' Y ' Y 2a' X ' Y a' X ' Xa Y ' Y a' (2 X ' Y X ' X ( X ' X ) 1 X ' Y )
Y ' Y a' X ' Y
9. Уравнение множественной линейной регрессии
Теорема Гаусса-Маркова.Предположим, что:
Y X a
X – детерминированная матрица размерности n·(k+1), имеющая
максимальный ранг k+1.
E i 0, E i2 V ( i ) 2 , i
Тогда МНК-оценка a=(X’X)-1X’Y является наиболее эффективной оценкой
(обладает наименьшей дисперсией) в классе всех несмещенных оценок
(Best Linear Unbiased Estimation - BLUE)
10. Уравнение множественной линейной регрессии (критерий Стьюдента)
Оценивание достоверности каждого из параметров модели осуществляетсяпри помощи t-критерия Стьюдента.
Для любого из параметров модели aj значение t-критерия рассчитывается по формуле:
t расч
aj
S b jj
где Sε – стандартное (среднее квадратическое) отклонение уравнения регрессии.
n
S
(y
i 1
i
yˆ i ) 2
n k 1
bjj – диагональные элементы матрицы (X’X)-1
Коэффициент регрессии aj считается достаточно надежным, если расчетное значение tкритерия Стьюдента с (n-k-1) степенями свободы превышает табличное, т.е.
tрасч > tα,n-k-1. Если надежность не подтверждается, то следует вывод о его
несущественности и устранения из модели или замены на другой факторный признак.
11. Уравнение множественной линейной регрессии (коэффициент эластичности)
Непосредственно с помощью коэффициентов регрессии нельзя сопоставитьфакторные признаки по степени их влияния на зависимую переменную изза различия единиц измерения и разной степени колеблемости.
Для устранения таких различий применяются частные коэффициенты эластичности
Эj и бета – коэффициенты βj
где
Коэффициент
Эj a j
эластичности:
aj – коэффициент регрессии фактора j;
y – среднее значение результативного признака;
x j – среднее значение признака j;
xj
y
Коэффициент эластичности показывает, на сколько процентов изменится зависимая
переменная y при изменении фактора j на 1%
12. Уравнение множественной линейной регрессии (β-коэффициент)
j ajβ-коэффициент:
где
S xj
Sy
Sxj – среднее квадратическое отклонение фактора j;
Sy – среднее квадратическое отклонение фактора y
n
S xj
(x
i 1`
ij x j )
n
n
2
Sy
(y
i 1
2
y
)
i
n
β-коэффициент показывает, на какую часть величины среднего квадратического
отклонения Sy изменится зависимая переменная y при изменении соответствующей
зависимой переменной xj на величину своего среднего квадратического отклонения
при фиксированном значении остальных независимых переменных.
Указанные коэффициенты позволяют проранжировать факторы по степени их влияния
на зависимую переменную
13. Уравнение множественной линейной регрессии (Δ-коэффициент, R2)
Δ-коэффициент:j ryj
j
R2
где ryj – коэффициент парной корреляции между фактором j и зависимой переменной;
R2 – множественный коэффициент детерминации
Коэффициент множественной детерминации используют для оценки качества
множественных регрессионных моделей.
n
n
2
i
( yˆ i y ) 2
Коэффициент
2
i 1
i 1
множественной
R
1
n
n
детерминации
2
(
y
y
)
i
i 1
2
(
y
y
)
i
i 1
Коэффициент детерминации показывает долю вариации результативного признака,
находящегося под воздействием факторных признаков, т.е. определяет, какая доля
вариации признака y учтена в модели и обусловлена влиянием на него факторов,
включенных в модель.
Чем ближе R2 к единице, тем выше качество модели
14. Уравнение множественной линейной регрессии (R2, F-критерий)
При добавлении независимых переменных значение R2 увеличивается, поэтомукоэффициент R2 должен быть скорректирован с учетом числа независимых
переменных по формуле:
2
коррект
R
n 1
1 (1 R )
n k 1
2
Для оценки значимости модели регрессии используют F-критерий Фишера.
2
R k
F
(1 R 2 ) (n k 1)
Если расчетные значения критерия с γ1=k и γ2= (n-k-1) степенями свободы больше
табличного при заданном уровне значимости, то модель считается значимой.
15. Уравнение множественной линейной регрессии (мера точности)
В качестве меры точности модели применяют стандартную ошибку, котораяпредставляет собой отношение суммы квадратов уровней остаточной компоненты к
величине (n-k-1):
n
S
где
i yi yˆ i
i 1
2
i
(n k 1)
16. Отбор факторных признаков в модель
Отбор факторов является важнейшей проблемой при построении множественныхрегрессионных моделей. Он проводится на основе качественного и количественного
анализа социально-экономических явлений с использованием статистических и
математических критериев
Проводят три стадии отбора факторов:
1. Предварительное определение перечня факторов оказывающих влияние
на переменную y
2. Сравнительная оценка и отсев факторов
3. Окончательный выбор факторов в процессе построения разных вариантов
моделей и оценки значимости их параметров
Для сравнительной оценки и отсева части факторов составляют матрицу парных
коэффициентов корреляции, измеряющих тесноту линейной связи каждого фактора с
результативным признаком и с каждым из остальных факторных признаков.
17. Матрица парных линейных коэффициентов корреляции
yx1
x2
…
xi
…
xn
y
1
ryx1
rx2 y
…
ryi xi
…
ryxn
x1
rx1 y
1
rx2 x1
…
rx1 xi
…
rx1 xn
x2
rx2 y
rx2 x1
1
…
rx2 xi
…
rx2 xn
…
…
…
…
…
…
…
…
xi
…
rxi y
rxi x1
rxi x2
…
1
…
rxi xn
…
…
…
…
…
…
…
xn
rxn y
rxn x1
rxn x2
…
rxn xi
…
1
y – результативный признак, x1,x2,…,xn – факторные признаки
rij – парный коэффициент корреляции между признаками xi и xj