Проблема неоднородных (в регрессионном смысле) данных
Примеры неоднородных данных
Фиктивные переменные
Правило введения фиктивных переменных
Фиктивные переменные: пример1
Фиктивные переменные: пример1
Фиктивные переменные: пример 2
1. Построение регрессионной модели для отдельных подвыборок матерей по количеству уже имеющихся детей, приводит к невозможности проведени
Таблица
Критерий ЧОУ
1.30M
Categories: mathematicsmathematics economicseconomics

Линейные регрессионные модели с переменной структурой. (Лекция 6)

1.

Линейные регрессионные модели с
переменной структурой

2. Проблема неоднородных (в регрессионном смысле) данных

Статистические данные называются однородными (в
регрессионном смысле), если все они зарегистрированы при
одних и тех же условиях, то есть при одних и тех же
значениях качественных переменных.
Статистические данные называются неоднородными (в
регрессионном смысле), если они зарегистрированы при
различных условиях (значениях качественных переменных).

3. Примеры неоднородных данных

Зависимость заработной платы работников (у)
от производительности труда (х) с учетом пола
работника

4.

Пример статистических данных со сдвигом во времени

5.

Качественный признак
Значения ненаблюдаемы,
незарегистрированы при сборе
статистических данных
Значения наблюдаемы при
сборе статистических данных
Применение
методов
кластерного
анализа (в т.ч. методы расщепления
смесей вероятностных распределений)
для
разбиения
исходных
статистических
данных
на
'
''
подвыборки объемом n , n , …
Разбиение выборки на регрессионно
однородные подвыборки объемом
n ' , n '' , …
1. Если объемы подвыборок n ' , n '' , … значительно выше, чем
к+1, то для каждой подвыборки оценивается своя функция
регрессии
2. Объемы подвыборок n ' , n '' , … ниже, чем к+1,
необходимость введения фиктивных переменных, «манекенов»

6. Фиктивные переменные

Фиктивные переменные —
бинарные переменные
(принимают значения 0 или 1)
Используются для
моделирования качественных
признаков
6

7. Правило введения фиктивных переменных

При этом если качественная переменная имеет p градаций, то для отражения
ее влияния на структуру искомой регрессионной связи необходимо ввести
( p 1) фиктивных переменных. Иначе для любого объекта наблюдения
выполнялось бы тождество: zi1 zi 2 ... zip 1 , что означало бы линейную
зависимость объясняющих переменных, и как следствие, невозможность
получения МНК-оценок.
d
(l )
j
1, если i й объект обладает l м качественн ым свойством;
,
0, в противном случае
j 1,2,..., р 1

8. Фиктивные переменные: пример1

9.

Фиктивные переменные: пример1

10. Фиктивные переменные: пример1

11. Фиктивные переменные: пример 2

Исследовать зависимость
веса новорожденного (у) от
среднего числа сигарет (х),
выкуриваемых матерью в день, с
учетом уже имеющихся у матерей
детей z

12. 1. Построение регрессионной модели для отдельных подвыборок матерей по количеству уже имеющихся детей, приводит к невозможности проведени

Фиктивные переменные: пример 2
1. Построение регрессионной модели для отдельных
подвыборок матерей по количеству уже имеющихся детей,
приводит к невозможности проведения регрессионного
анализа, поскольку некоторые группы (3 и 4) содержат
небольшое количество наблюдений
Количество детей у матери (z)
Количество матерей
0
4
1
6
2
3
3
2
2. Для учета наличия структурных сдвигов, введем фиктивные
переменные
1 если кол-во имеющихся у матери детей i
di
0 в противном случае

13. Таблица

Y
3,52
3,46
3,2
3,32
3,54
3,31
3,36
3,65
3,15
3,44
3,1
3,22
3,71
3,76
3,92
X
10
19
16
28
4
14
21
10
22
12
31
29
8
6
8
Z
1
2
0
1
3
2
0
1
0
1
3
0
2
1
1
d1
1
0
0
1
0
0
0
1
0
1
0
0
0
1
1
d2
0
1
0
0
0
1
0
0
0
0
0
0
1
0
0
d3
0
0
0
0
1
0
0
0
0
0
1
0
0
0
0

14.

Фиктивные переменные: пример 2
yˆ 3,61 0,017 x 0,200 d1
( 0 ,110 )
( 0 , 005 )
( 0 , 087 )
Вывод: 1. при рождении вес второго ребенка у курящих
женщин будет в среднем на 0,2 кг выше, чем вес
детей у остальных женщин, выкуривающих в день то
же количество сигарет;
2. с ростом количества выкуриваемых сигарет вес
новорожденного будет уменьшаться на 0,017 кг.

15. Критерий ЧОУ

H 0 : (1) ( 2) ; 2 1 2 2
H 1 : (1) ( 2) ; 2 1 2 2
Для проверки гипотезы используется статистика Чоу, которая в
условиях справедливости нулевой гипотезы распределена по закону ФишераСнедекора 1 n2 , 2 n1 k 1 :
n, n1
e e e
T
(1)T (1)
e
/n
2
,
e e / n1 k 1
где e - вектор регрессионных остатков, оцененных по всей выборке;
e (1) - вектор регрессионных остатков, оцененных по первой
подвыборке.
(1)T (1)
Если n2 достаточно велико, то наряду с данным подходом
используется другой критерий, связанный с критерием Чоу:
e T e e (1)T e (1) e ( 2)T e ( 2) / k 1
n1 ,n21 (1)T (1) ( 2 )T ( 2)
e e e e / n1 n2 2k 2 ,
English     Русский Rules