3.69M
Category: mathematicsmathematics

Лекция 3. Регрессионный анализ данных

1.

Технологии обработки информации
Лекция 3:
Регрессионный и корреляционный
анализ
Преподаватель: Тазиева Рамиля Фаридовна

2.

Применение корреляционного и регрессионного
анализа
Корреляционный анализ
Корреляционный анализ применяется для количественной оценки
взаимосвязи двух наборов данных, представленных в безразмерном виде.
Корреляционный анализ дает возможность установить, взаимосвязаны ли
наборы данных по величине.
Регрессионный анализ
Позволяет получить конкретные сведения о том, какую форму и характер
имеет зависимость между исследуемыми переменными.
При помощи регрессионного анализа возможно
прогнозирования и классификации.
Прогнозные значения вычисляются путем
подстановки в уравнение регрессии параметров
значений объясняющих переменных.
Решение задачи классификации осуществляется
следующим образом: линия регрессии делит все
множество объектов на два класса, и та часть
множества, где значение функции больше нуля,
принадлежит к одному классу, а та, где оно
меньше нуля, - к другому классу.
решение
задачи

3.

Модель – свойства - адекватность
y f ( x1 , x2 ,..., xk )
Этапы регрессионного анализа
1. Формулировка задачи. На этом этапе формируются предварительные гипотезы
о зависимости исследуемых явлений.
2. Определение факторных и результативных признаков.
3. Сбор статистических данных.
4. Формулировка гипотезы о форме связи (простая или множественная, линейная
или нелинейная).
5. Определение функции регрессии .
6. Оценка точности регрессионного анализа.
7. Интерпретация полученных результатов.
8. Прогнозирование неизвестных значений зависимой переменной.

4.

Сбор данных
Несгруппированные данные
x
x1

xn
y
y1

yn
Корреляционная таблица
m
∆i– интервалы для X и Y
nij - частота появления пары (xi ,yj).
w j nij - частота признака xj
i 1
k
pi nij - частота признака yi
j 1

5.

Линейная регрессия Y на Х и X на Y
Пусть между количественными признаками X и Y существует линейная
корреляционная зависимость y=a+bx.
Метод регрессионного анализа
Метод корреляционного анализа
Когда данные представлены в виде корреляционной таблицы
m
k
pi yi na b w j x j
i 1
j 1
m k
k
k
nij x j yi a w j x j b w j x 2j
j 1
j 1
i 1 j 1

6.

Корреляционный анализ
Коэффициент эластичности Кэ показывает на сколько процентов в среднем
изменится показатель y от своего среднего значения при изменении фактора x на 1%
от своей средней величины:
К э f ( x)
x
y
x
Кэ b
y

7.

Пример
Зависимость теплоемкости Ср фторида магния от температуры Т выражается
следующими данными:
T, K
300
Ср,
Дж/(моль • 70,35
К)
400
500
600
700
800
900
1000
75,38
80.53
85,81
91,26
96,83
102,53
108,27
Выявление вида зависимости
средняя температура
1 8
5200
x xi
650
8 i 1
8
средняя теплоемкость
фторида магния
1 8
710,96
у уi
88,87
8 i 1
8

8.

Расчет параметров модели
1 n
1 8
1
2
2

( xi x)
( xi x) 420000 244,949
n 1 i 1
8 1 i 1
7

1 n
1 8
1
2
2
(
у
у
)
(
y
y
)
1235,919 13,28758
i
i
n 1 i 1
8 1 i 1
7
n
r
( xi x)( yi y )
.
i 1
n
n
( xi x) ( yi y )
i 1
n
2
i 1
2
xi yi n x y
i 1
n
n
( xi x) ( yi y ) 2
i 1
2
i 1
484901 8 650 88,87
0 ,999717
420000 1235,919
Уравнение регрессии Y на X

9.

Коэффициент корреляции. Свойства
Коэффициент корреляции - это статистический показатель меры зависимости
двух случайных величин.
1. Линейный коэффициент корреляции изменяется на отрезке [–1; 1].
2. Если r = ±1, то корреляционная зависимость становится функциональной.
3. В случае r > 0 говорят о положительной корреляции величин X, Y; в
случае r < 0 — об отрицательной корреляции.
4. Если r = 0 , то линейная связь между признаками Х и Y отсутствует, но
может существовать криволинейная корреляционная связь или нелинейная
функциональная.

10.

Проверка значимости коэффициента корреляции
.
.
Нулевая гипотеза, которая состоит в том, что коэффициент
корреляции равен нулю при альтернативной гипотезе, что он
отличен от нуля:
H0 : 0
H1 : 0
r
Проверка гипотезы основана на том факте, что величина t имеет t
1 r2
распределение Стьюдента с n-2 степенями свободы .
n 2
При заданном уровне значимости α определяют критическое значение tкр.
Если t>tкр , то гипотеза Н0 отклоняется.
Если t<tкр , то гипотеза Н0 принимается.
Доверительный интервал для коэффициента корреляции ρ
1 1 r
z ln
Arth(r )
2 1 r
1
имеет приближенно нормальное распределение
N ( Arth (r ),
)
n 3
Доверительный интервал для Arth( ρ) имеет вид:
u
u
1
1
2
2
Arth(r )
Arth( ) Arth(r )
n 3
n 3
u
При достаточно больших n статистика
Здесь
соответствующая квантиль нормального распределения.
e 2t 1
y 2t
th(t )
Примечание : Arth(-r)=- Arth(r), если Arth(y)=t, то
e 1
1
2

11.

Проверка значимости коэффициента корреляции
t
r
1 r
2
n 2
0,999717
1 0,999717
2
8 2 102,8521
По таблицам критических точек распределения Стьюдента или с помощью
статистической функции ExcelСТЬЮДЕНТ.ОБР, входом в которую является
вероятность 1-α/2 (α=1-γ) и n-2=6 степеней свободы находим критическое значение
tα, n-2=2,447.
Так как t=102,8521>tα,n-2=2,447, делаем вывод, что выборочный коэффициент
корреляции значимо отличается от нуля. Следовательно, можно предположить, что
теплоемкость Ср фторида магния и температура Т связаны линейной корреляционной
зависимостью.
Доверительный интервал для Arth( ρ) :
u
Arth(r )
1
2
n 3
u
Arth( ) Arth(r )
atanh(r)=atanh(0,999717)=4,43070
1
2
n 3
4,430701
u
1
0,975
2
1,95996
1,95996
arth( ) 4,430701
5
5
3,554179<arth(ρ)<5,307224; tanh(3,554179)=0,998365: tanh(5,307224)=0,999951
Окончательно получаем:
0,998365<ρ<0,999951

12.

Значимость коэффициентов уравнения регрессии
Статистические выводы относительно коэффициента β истинного
уравнения регрессии y=θ+βx могут быть получены с помощью
статистики, где β – истинное значение коэффициента регрессии, b –
выборочное значение коэффициента регрессии.
Где tβ квантиль распределения Стьюдента с n-2 степенями свободы.
Значение коэффициента β является значимым с достоверностью α, если
Двусторонний α ∙100% -й доверительный интервал для β
t
b
S
b t1 S .
2
b t1 S b t1 S
2
2
Статистические выводы о коэффициенте θ могут быть получены с помощью
статистики
t
a
,
S
где S S
1
( x) 2
n (n 1) s x2

13.

Проверка значимости коэффициентов уравнения
регрессии
0,341711
S
0,000527
244,949 8 1
1
422500
S 0,341711
0,363397
8 (8 1)60000
0,054231 2,446911846 * 0,000527. 53,61988 2,446911846 * 0,363397.
Значение коэффициента β является
значимым с достоверностью α, т.к.:
Значение коэффициента θ является
значимым с достоверностью α, т.к.:
0,054231 0,00129.
53,61988 0,8892.
Доверительные интервалы
0,054231 0,00129 0,054231 0,00129
0,053031 0,055611
53,61988 0,8892 53,61988 0,8892
52,73068 54,50908

14.

Проверка адекватности
Коэффициент детерминации
В случае линейной зависимости
между признаками Х и У
R2 характеризует долю разброса отклика, описываемую регрессией, и лежит в
пределах от 0 до 1. Чем ближе R2 к единице, тем лучше модель описывает
экспериментальные данные.
2
y
f
(
x
)
i
i
8
R 2 1 i 1 8
y
i 1
y
2
i
1
0,07006
0,99943
1235,919
Такое большое значение коэффициента детерминации говорит о том, практически
весь разброс значений величины y объясняется линейной корреляционной
зависимостью между теплоемкостью Ср фторида магния и температурой Т.

15.

Критерий Фишера-Снедекора
Для негруппированных данных статистику ФишераСнедекора рассчитывают по формуле:
Fвыб
R 2 (n 2)
1 R2
Для проверки гипотезы об адекватности находят дисперсию повторности S2повт и
дисперсию адекватности S2адекв.
n– объем выборки,
k – количество различных значений, принимаемых
переменной Х,
q- число параметров регрессионной модели.
Мера разброса выборочных
Мера отклонений сглаживающих
значений yi вокруг выборочных
средних f(x) от реальных (выборочных)
средних
средниx .
ЕслиQадекв=0, то сглаживающее уравнение регрессии y=f(x)полностью адекватно
выборочным данным
Сравнивая его с критическим значением
fкр=fкр(α, k-q, n-k) , делают вывод об
адекватности математической модели[1].
Здесь fкр(α, k-q, n-k) квантиль распределения
Фишера-Снедекора с k-q, n-k степенями
свободы.

16.

Проверка гипотезы об адекватности уравнения
регрессии Y на X
Проверим гипотезу об адекватности полученной сглаживающей прямой исходным
данным по критерию Фишера при уровне значимости α=0,05.
Для этого вычислим статистику
Fвыб
R 2 (n 2) 0,99943 (8 2)
10578,5548 3
2
1 R
1 0,99943
Здесь R2 – коэффициент детерминации, n=8. По числу степеней свободы k1=1 и
k2=n-2=6 найдем критическое значение Fкрс помощью статистической функции
F.ОБР.ПХ (Microsoft Excel 2010, 2016).
Fкр=5,987378
Так как Fвыб>Fкр , делаем вывод о том, что полученное уравнение линейной
регрессии
статистически значимо описывает
С р 53,61988 0,054231Т
результаты эксперимента.

17.

Построение модели регрессии по сгруппированным
данным
На некотором предприятии исследовалась зависимость себестоимости Y
единицы продукции (в условных единицах) от объема Х произведенной за
день продукции.
xj
k
5
10
15
20
25
pi nij
10
0
0
0
1
4
5
11
0
3
6
4
1
14
12
1
3
2
0
1
7
13
3
0
1
0
0
4
4
6
9
5
6
n=30
yi
j 1
m
w j nij
i 1

18.

Выявление вида зависимости по средним значениям
Условные средние признака Y
Корреляционное поле
m
yj
yn
i ij
i 1
wj
j 1, 2, ... , k
12 1 13 3
12,75
4
10 4 11 1 12 1
y5
10,5
6
y1
xj
5
10
15
20
25
yj
12,75
11,5
11,44444
10,8
10,5

19.

Вывод уравнения линейной регрессии Y на X на основе МНК
4
5
pi yi 30a b w j x j
i 1
j 1
4 5
5
5
nij x j yi a w j x j b w j x 2j
i 1 j 1
j 1
j 1
xj
340 30a 465b
5145 465a 8475b
y=12,861933-0,09862x
5
5
10
15
20
25
pi nij
pi yi
10
11
0
0
0
3
0
6
1
4
4
1
5
14
50
154
12
1
3
2
0
1
7
84
13
3
0
1
0
0
4
52
wj
wjxj
4
20
6
60
9
135
5
100
6
150
30
465
w j x 2j
100 600 2025 2000 3750
8475
nij yi x j
255 690 1545 1080 1575
5145
yi
j 1
4
i 1
340
сумма

20.

Вывод уравнения линейной регрессии Y на X на основе
корреляционного анализа
465
x
15,5
30
340
у
11,3333
30
s Х 6,5
sY 0,906765
4
5
nij x j y i nx y
r
i 1 j 1
5
4
w j ( x j x) p i ( y i y ) 2
j 1
2
5145 30 15,5 11,33333
0,70694
35,601966 4,9665548
i 1
sY
y y r ( x x)
sX
y y r
sY
0.906765
( x x) 11,3333 0,70694
( x 15,5)
sX
6.5
12,86193 0,09862 x

21.

Проверка гипотезы о значимости коэффициента корреляции
t
r
1 r
2
n 2
0,70694
1 0,70694
2
30 2 5,289007
Так как t=5,289007>t0,05, 30-2=2,048407, делаем вывод, что выборочный
коэффициент корреляции значимо отличается от нуля. Следовательно, можно
предположить, что объем Х произведенной за день продукции и
себестоимость Y единицы продукции связаны линейной корреляционной
зависимостью.
Доверительный интервал коэффициента корреляции
u
Arth(r )
0.88104
1
2
n 3
u
Arth( ) Arth(r )
1
2
n 3
1,95996
1,95996
arth( ) 0.88104
27
27
-1,25824 <arth(ρ)< -0,50384 tanh(-1,25824 )= -0,85058 : tanh(-0,50384 )= -0,46514
Окончательно получаем:
-0,85058 <ρ< -0,46514

22.

Расчет коэффициента детерминации
f (x ) y w
k
R2
2
j
j 1
R2
j
y y p
m
i 1
i
xj
5
10
15
20
25
f(xj)
12,369
11,876
11,383
10,890
10,397
wj
4
6
9
5
6
4,289
1,765
0,022
0,985
5,267
( f ( x j ) y) 2 w j
y
m
i 1
Таким образом, линейное сглаживающее уравнение
регрессии y=12,861933-0,09862x объясняет примерно 50% всей
вариации зависимой величины Y.
2
i
12,327
0,49976 r 2 ( 0,7069371)
24,6667
yi
10
11
12
13
( yi y) 2 pi
pi
5
14
7
4
сумма
8,8889
1,5556
3,1111
11,1111
24,6667
2
i
y pi
2

23.

Проверка адекватности модели по критерию ФишераСнедекора
5
4
Qповт y i y j
j 1 i 1
n
2
ij
(12 12,75) 2 1 (13 12,75) 2 3
(11 11,5) 2 3 (12 11,5) 2 3 (11 11,44444) 2 6
(12 11,4444) 2 2 (13 11,44444) 2 1 (10 10,8) 2 1
(11 10,8) 2 4 (10 10,5) 2 4 (11 10,5) 2 1 (12 10,5) 2 1
10,77222
4
yj
5
yi nij
12,75
i 1
11,5
11,44444
10,8
10,5
wj
2
Qадекв f ( x j ) y j w j (12,36883 12,75) 2 4 (11,87573 11,5) 2 6
j 1
(11,38263 11,44444) 2 9 (10,88953 10,8) 2 5 (10,39643 10,5) 2 6
1,567028
2
S повт
Qповт
Q
10,772
1,567
2
2
2
; S адекв
адекв S повт
0,431; S адекв
0,522
30 5
5 2
25
3
0,522
fкр(0,05, 3, 25)=2,991
f выб
1,211
0,431

24.

Значимость коэффициентов уравнения регрессии
Статистические выводы относительно коэффициента β истинного
уравнения регрессии y=θ+βx могут быть получены с помощью
статистики, где β – истинное значение коэффициента регрессии, b –
выборочное значение коэффициента регрессии.
Где tβ квантиль распределения Стьюдента с n-2 степенями свободы.
Значение коэффициента β является значимым с достоверностью α, если
Двусторонний α ∙100% -й доверительный интервал для β
t
b
S
b t1 S .
2
b t1 S b t1 S
2
2
Статистические выводы о коэффициенте θ могут быть получены с помощью
статистики
t
a
,
S
где S S
1
( x) 2
n (n 1) s x2

25.

Проверка значимости коэффициентов уравнения
регрессии
S
1,248971071
1
240.25
0,035081519 S 0,341711
0,363397
30
(
30
1
)
43,7068965
5
6,61111916 30 1
- 0,09862 0,035081519 * 2,048407115. 12,861933 0,589640929 * 2,048407115.
Значение коэффициента β является
значимым с достоверностью α, т.к.:
Значение коэффициента θ является
значимым с достоверностью α, т.к.:
- 0,09862 0,071861234.
12,861933 1,207824673.
Доверительные интервалы
- 0,09862 0,071861234 -0,09862 0,071861234
- 0,17048 -0,02676
12,861933 1,207824673 12,861933 1,207824673
11,65408112 14,06973047
English     Русский Rules