367.00K
Category: mathematicsmathematics

Отыскание параметров выборочного уравнения прямой линии регрессии по сгруппированным данным. Выборочный коэффициент корреляции

1.

§ 12. Отыскание параметров выборочного уравнения прямой
линии регрессии по сгруппированным данным. Выборочный
коэффициент корреляции, корреляционное отношение, их свойства
и оценки
При большом числе наблюдений n одно и то же значение x может
встретиться nx раз, одно и то же значение y может встретиться ny раз,
одна и та же пара чисел x, y может встретиться nxy раз. В этом случае
данные наблюдений группируют, т.е. подсчитывают частоты nx, ny, nxy, и
записывают в виде таблицы, которую называют корреляционной.
Свойства корреляционной таблицы:
k
l
k
l
nx n, n y n, nx y n ,
i 1
i
где i 1, 2, ..., k , j 1, 2, ..., l .
j 1
j
i 1 j 1
i j

2.

Корреляционная таблица
X
x1
x2

xk
ny
k
y1
y2
Y …
n x1 y1
n x2 y1

n x1 y2
n x2 y 2




n xk y1
n y1 n xi y1
n xn yn
n y2 n xi y2


i 1
k
i 1
k
yl
nx
n x1 yl
n x2 yl
l
l
n x1 n x1 y j
j 1
n x2 n x2 y j
j 1

n xk yl
n yl n xi yl
i 1
l

n xk n xk y j
j 1
n
Пусть выборочное уравнение прямой линии регрессии Y на X имеет вид
y yx x b .

3.

Воспользуемся тождествами
k
l
k
xi nx , y j ny ,
i 1
j 1
i 1
xi2 n x 2 ,
k ,l
k
l
xi y j nx y xi y j .
i 1, j 1
i 1 j 1
Комбинируя эти тождества и систему
k
k
k ,l
2
yx xi b xi xi y j ,
i 1
i 1, j 1
i k1
l
yx xi bn yi ,
i 1
i 1
Получим систему
k
l
2
yx n x bnx n xi y j xi y j ,
i 1 j 1
x b y ,
yx
i j
(1)
(2)
Решив эту систему, найдем параметры yx , b и уравнение регрессии
y x yx x b .
(3)

4.

Уравнение регрессии можно записать в другом виде. Для этого
найдя b из второго уравнения системы (2) и подставив полученное
выражение в уравнение (3), получим
(4)
y x y yx x x .
Из системы (2), учитывая, что x 2 x 2x получим:
2
k
l
n x y xi y j
nx
y
1
i 1 j 1
yx
i
n x2
x
j
nx
1
k
l
k
l
nx y xi y j nx y nx y xi y j nx y
i
j
i 1 j 1
2
n x 2 x
i 1 j 1
i
j
n 2x
.
x
, где x и y – выборочные
y
средние квадратические отклонения, получим
Умножив обе части этого выражения на
k
l
n x y xi y j nx y
x i 1 j 1 i j
yx
y
n x y
.

5.

Правую часть полученного равенства обозначают через rв и называют
выборочным коэффициентом корреляции:
k

l
nx y xi y j nx y
i 1 j 1
i
j
.
n x y
Тогда можно написать
yx
x
rв ,
y
откуда получим
yx rв
y
.
x
Тогда выборочное уравнение регрессии (4) можно записать в виде
y
x x .
y x y rв
x

6.

Свойства выборочного коэффициента корреляции.
1) rв 1 .
2) Если rв 0 и выборочные линии регрессии – прямые, то
случайные величины X и Y не связаны корреляционной зависимостью. В
этом случае признаки X и Y могут быть связаны нелинейной
корреляционной или даже функциональной зависимостью.
3) С возрастанием rв линейная корреляционная зависимость
становится более тесной (сильной) и при rв 1 переходит в
функциональную.
4) Если rв 1, то наблюдаемые значения признаков X и Y связаны
линейной функциональной зависимостью. В этом случае нельзя
уверенно заключить, что и в генеральной совокупности признаки X и Y
связаны линейной функциональной зависимостью.
Выборочный коэффициент корреляции характеризует тесноту
(силу) линейной связи между количественными признаками X и Y в
выборке; чем ближе rв к единице, тем связь сильнее, чем ближе rв к
нулю, тем связь слабее.

7.

§ 13. Статистические гипотезы. Ошибки первого и второго рода
Статистической гипотезой называют любое предположение о
случайной величине X, законе её распределения, параметрах и т. п.
Нулевой (основной) называют проверяемую (выдвигаемую)
гипотезу, ее обозначают символом H0.
Конкурирующей
(альтернативной)
гипотезой
называют
противоположную гипотезу, ее обозначают символом H1.
Пример. Нулевая гипотеза состоит в предположении, что
математическое ожидание a нормального распределения равно 3.
Конкурирующая гипотеза может состоять в предположении, что a 3 .
Это записывают так:
H 0 : a 3; H 1 : a 3 .
Простой называют гипотезу, содержащую только одно
предположение.
Сложной называют гипотезу, состоящую из конечного или
бесконечного числа простых гипотез.

8.

Пример. Пусть a – параметр нормального распределения. Гипотеза
H 0 : a 3 – простая; гипотеза H 0 : a 3 – сложная, состоящая из
бесконечного числа простых гипотез H i : a bi , где bi – любое число,
большее 3.
Гипотезы выдвигают на основе данных выборки, полученной из
генеральной совокупности. Из-за случайности выборки в результате
проверки гипотезы могут возникать ошибки и приниматься
неправильные решения. Эти ошибки имеют различный характер и
отличаются по своим последствиям.
Ошибка первого рода – отвергается правильная гипотеза H0.
Вероятность совершить ошибку первого рода называют уровнем
значимости и обозначают символом .
Ошибка второго рода – принимается неверная гипотеза H0.
Вероятность совершить ошибку второго рода обозначают символом .
Правильное решение может быть принято в двух случаях:
а) гипотеза H0 принимается, причем и в действительности она
правильная;
б) гипотеза H0 отвергается, причем и в действительности она
неправильная.

9.

Доверительной вероятностью называют вероятность не совершить
ошибку первого рода и принять верную гипотезу Н0.
Мощностью критерия называют
вероятность отвергнуть
неправильную гипотезу Н0. Следовательно, при проверке гипотезы
возможны четыре варианта исходов, представленные в таблице.
Гипотеза H0
Решение
Обозначение
вероятности
Отвергается
Принимается
1–
Принимается
Отвергается
1–
Правильная
Неправильная
Название
вероятности
Вероятность ошибки
первого рода
Доверительная
вероятность
Вероятность ошибки
второго рода
Мощность критерия

10.

§ 14. Статистическая гипотеза
Для проверки нулевой гипотезы после выбора на основе данных
выборки вводят специальную одномерную случайную величину K,
называемую статистикой, точное или приближенное распределение
которой известно. Статистика выбирается так, чтобы вероятности и
были минимальными. Однако, уменьшение вероятности ошибки первого
рода обычно вызывает увеличение ошибки второго рода .
Затем все множество значений случайной величины K с помощью
чисел kкр, называемых критическими точками, разбивают на два
непересекающихся подмножества:
а) критическую область – совокупность значений критерия, при
которых нулевую гипотезу отвергают,
б) область принятия гипотезы – совокупность значений критерия,
при которых гипотезу принимают.
Критическая область в зависимости от выбора kкр может быть
односторонней – правой или левой, или двусторонней.
Правосторонней называют критическую область, определяемую
неравенством K k кр , где k кр 0 .

11.

Левосторонней называют критическую область, определяемую
неравенством K k кр , где k кр 0 .
Односторонней называют правостороннюю или левостороннюю
критическую область.
Двусторонней называют критическую область, определяемую
неравенствами K k1 и K k 2 , где k 2 k1 . Если критические точки k1 и
k2 симметричны относительно нуля, то k1 k 2 k кр и K k кр , k кр 0 .
K Правосторонняя область
kкр
K
Левосторонняя область
K
Двусторонняя область
kкр
kкр,1 kкр,2
Итак, при попадании значения критерия в заштрихованную область,
нулевую гипотезу необходимо отвергнуть.
English     Русский Rules