Similar presentations:
Экспериментально - статистическое исследование связей (занятие 5)
1. Экспериментально-статистическое исследование связей
Экспериментальностатистическоеисследование связей
Занятие 5
2.
Главная задача всякого научного исследованиязаключается в изучении связей между явлениями,
параметрами и факторами.
Связи бывают функциональными и
вероятностными (статистическими).
При функциональной связи каждому значению
входной величины соответствует одно или несколько строго определенных значений выходной.
Статистические связи проявляются лишь при
многократном испытании. При этом данному
значению входной величины соответствует
множество значений выходной.
2
3.
1. Корреляционный анализКорреляционный анализ — метод оценки
статистических связей. Он отвечает на вопросы:
влияет ли данная входная величина на выходную
и какова степень (теснота) связи между
величинами?
Предположим, что в результате эксперимента, цель
которого — изучить влияние фактора x на пара-метр
y, получены данные в виде совокупностей значений
х и y, объемом n каждая, причем каждому значению
xі соответствует определенное значение yi
y
Каждую пару величин
можно представить точкой
на поле координат xОy.
Совокупность точек
образует диаграмму
3
рассеивания.
0
x
4.
По такой диаграмме можно судить о тесноте связимежду величинами, однако подобная оценка
субъективна
Числовой характеристикой тесноты связи служит
корреляция — математическое ожидание произведения отклонений x и y от их математических
ожиданий
K xy M x mx y m y
Оценка корреляции по опытным данным:
1 n
K xy xi x yi y
n i 1
Размерность полученной величины равна
произведению размерностей величин x и y, что
затрудняет анализ тесноты связи.
4
5.
Чаще используют безразмерныйкоэффициент корреляции
k xy
K xy
x y
K xy
Dx D y
или для результатов опыта
n
1
xi x yi y
k xy
n S x S y i 1
Коэффициент корреляции является оценкой
степени связи между величинами и изменяется в
диапазоне [–1;+1]
Рассмотрим следующие варианты рассеяния:
5
6.
1) Точки рассеяны в некоторой области, симметричной относительно прямых с уравнениямиx x и y y
Эти прямые делят плоскость xОy на четыре
квадранта. Произведение xi x yi y
в I и III квадрантах будет иметь знак (+), а во II и IV
— знак (–).
Поскольку количество
точек в каждом квадранте
приблизительно одинаково,
сумма произведений будет
близка к нулю, и k xy 0
y
II
I
III
IV
y
Это говорит о том, что связь
между величинами x и y
отсутствует
0
x
6
x
7.
2) Между величинами x и y существует функциональная линейная зависимость вида y b0 bxy y b x x
Тогда y b0 bx и
2
x
n
bS
b
2
Следовательно k xy
xi x
n S x S y i 1
SxS y
Поскольку Sy = |b| Sx, имеем k xy b b 1
Если b > 0 — kxy = 1
y
Если b < 0 — kxy = –1
Следовательно, если по
результатам опытов полуy
чено kxy = ±1, можем утверждать, что между величинами x и y существует
функциональная линейная
0
зависимость.
x
7
x
8.
3) Точки рассеяны в некоторой области, расположенной несимметрично относительно прямых суравнениями
x x и y y
Например, в I и III квадрантах точек значительно
больше, чем во II и IV.
Следовательно, в сумме будут преобладать положительные произведения и значение коэффициента
корреляции будет находиться в интервале
0 < kxy < 1
В обратном случае будем
иметь –1 < k < 0
xy
Оба эти случая свидетельствуют о наличии
статистической связи
между величинами x и y.
y
II
I
III
IV
y
0
x
8
x
9.
Возможны случаи, когда между величинамисуществует статистическая или даже функциональная связь, но в некотором интервале значений этих
величин их коэффициент корреляции будет близок
к нулю.
Например, между величинами x и y на существует
явная функциональная связь, но k xy 0 , поскольку
область, в которой распределены точки, симметрична относительно x x y
Таким образом,
коэффициент корреляции
y
дает оценку не только
наличия связи между
величинами, но и степени ее
линейности
0
x
9
x
10.
2. Регрессионный анализЦелью регрессионного анализа является
установление аналитической зависимости
между выходной и входными величинами по
данным экспериментальных исследований
Зависимость между величинами может быть
представлена таблично, графически и
аналитически.
Табличный способ позволяет определить
значение выходной величины для заданных
значений входных, но не дает представления о
характере зависимости.
Графический способ создает наглядность
представления зависимости, позволяет визуально
оценить ее характер.
10
11.
Аналитическая зависимость позволяетисследовать функцию методами математического
анализа, т.е. определить значения максимума,
минимума, точек перегиба и т.д.
Получение аналитической зависимости
желательно при разработке расчетных методик, в
особенности при создании расчетных программ на
ЭВМ. Эта зависимость наиболее универсальна, из
нее просто получить табличную и графическую.
Аналитические зависимости, полученные по
данным эксперимента путем регрессионного
анализа называются эмпирическими или
аппроксимирующими.
Если теоретические формулы могут быть использованы при произвольных значениях аргументов,
то эмпирические являются приближенными и
могут применяться лишь в определенных условиях
11
и в ограниченных пределах аргументов
12.
В регрессионном анализе в отличие от корреляционного только выходные величины являютсяслучайными. Входные должны быть неслучайными и некоррелированными между собой
Задача получения аналитической зависимости
включает в себя три этапа
•выбор вида уравнения регрессии
•определение коэффициентов уравнения
•проверка адекватности установленной
зависимости данным эксперимента
12
13.
Первый этап является неформализованнойпроцедурой.
По данным эксперимента первоначально строят
графическую зависимость. Ее сравнивают с
различными кривыми, уравнения которых известны, и останавливаются на наиболее вероятной
При выборе формулы нет
необходимости
ориентироваться на
y
сложные зависимости.
Ценность формулы
определяется не
сложностью, а той
погрешностью, которая
допускается при ее
применении.
13
0
x
14.
Например, для аппроксимации данных можетбыть использована как линейная (линия 1),
так и более сложная зависимость (линия 2).
Линия 2 более точно аппроксимирует данные
эксперимента, но ее практическое использование
может быть затруднено из-за громоздкости
формулы и сложности ее вычисления.
Поэтому предпочтение
следует отдавать
простым, в первую
очередь линейным
уравнениям, и только в
случае явно нелинейной
зависимости, выбирать
другие: квадратичные,
степенные и т.п
y
2
1
0
14
x
15.
Например, для аппроксимации данных можетбыть использована как линейная (линия 1),
так и более сложная зависимость (линия 2).
Линия 2 более точно аппроксимирует данные
эксперимента, но ее практическое использование
может быть затруднено из-за громоздкости
формулы и сложности ее вычисления.
Поэтому предпочтение
следует отдавать
простым, в первую
очередь линейным
уравнениям, и только в
случае явно нелинейной
зависимости, выбирать
другие: квадратичные,
степенные и т.п
y
0
15
x
16.
Если в результате построений окажется, чтонекоторые точки существенно отклоняются от
общей зависимости, то следует проверить
вычисления для них, а при необходимости
повторить эксперимент
Если до обработки экспериментальных данных
известна теория исследуемого процесса, в
основу эмпирической зависимости желательно
положить функциональную зависимость,
определяемую этой теорией.
Например, известно, что теоретическая напорная
характеристика турбомашины является прямой
линией, а потери напора в турбомашине
пропорциональны квадрату расхода.
Поэтому для описания экспериментальной
напорной характеристики наиболее целесообразна
ориентация на квадратичные зависимости
16
17.
После выбора вида зависимости определяюткоэффициенты, входящие в эту зависимость.
В общем виде задачу можно сформулировать
следующим образом
Исследуется зависимость параметра y от факторов
x1, x2, …, xk. Проведено n серий опытов при
различных сочетаниях уровней факторов; в каждой
серии для u-го сочетания уровней факторов получена выборка значений параметра y, определено
среднее выборочное yu и дисперсия Su2 .
Для поиска аппроксимационной зависимости
выбрана некоторая функция вида
y f x1 , x2 ,..., xk
которая содержит m неизвестных параметров
(коэффициентов, показателей степеней и др.):
b1, b2, …, bm
17
18.
Задача состоит в определении такого сочетанияэтих величин, при котором значения y, рассчитанные по зависимости, будут наиболее близки к
экспериментальным данным yu .
В настоящее время выполнение такой задачи не
представляет трудности, поскольку существуют
программы для ЭВМ, предназначенные для поиска
аппроксимационых зависимостей и определения их
коэффициентов.
Наиболее распространенным методом поиска
коэффициентов уравнений регрессии является
метод наименьших квадратов.
Метод заключается в поиске минимума функции
n
2
Ф b1 ,b2 ,..., bm yu yu
u 1
yu — значение y, полученное расчетом по зависимости для u-го сочетания уровней факторов. 18
19.
Функция Ф характеризует степень расхождениярасчетных значений и опытных данных.
Наилучшим будет такое сочетание коэффициентов,
при котором это расхождение будет минимальным.
Задача сводится к поиску минимума функции Ф и
может быть решена методом математического
анализа
Рассмотрим случай поиска линейной
однофакторной зависимости вида y b0 b1 x
для некоторой совокупности экспериментальных
данных
Функция Ф в данном случае есть функция двух
переменных
n
Ф b0 ,b1 yu b0 b1 xu min
u 1
2
19
20.
Функция будетn
Ф
иметь минимум,
если ее частные b 2 yu b0 b1 xu 0
u 1
0
производные по
n
всем переменным Ф
2 yu b0 b1 xu xu 0
будут равны
b1
нулю
u 1
Преобразовав выражения, получим систему двух
линейных уравнений
b0 n b1 xu
u 1
n
n
b0 xu b1 xu2
u 1
u 1
n
n
yu ;
u 1
n
yu xu .
u 1
Решив систему, найдем значения коэффициентов
20
уравнения регрессии
21.
В практике математической обработки опытныхданных широко используются нелинейные
формулы, достаточно просто преобразуемые к
линейному виду
К ним относятся параболические и степенные
зависимости
Распространенная в гидравлическом эксперименте
параболическая зависимость вида
y b0 b1 x
2
приводится к линейному виду подстановкой
z = x2
Коэффициенты полученного линейного уравнения
y b0 b1 z находятся по описанной методике.
21
22.
В практике математической обработки опытныхданных широко используются нелинейные
формулы, достаточно просто преобразуемые к
линейному виду
Степенные зависимости вида
b1
b2
bk
y Сx1 x2 ... xk
где C — коэффициент;
b1, b2, …, bk — показатели степени;
приводятся к полиномиальному виду путем
логарифмирования
Ln y Ln С b1 Ln x1 b2 Ln x2 ... bk Ln xk
Обозначив b0 = Ln C, и прологарифмировав значения
факторов и параметра, можем применить метод
наименьших квадратов для поиска значений b0, b1,
22
b2, …, bk.
23.
Проверка соответствия установленной зависимостиэкспериментальному материалу (проверка
адекватности) включает в себя этапы
1. Ищется остаточная дисперсия, или дисперсия
адекватности
n
1
2
2
yu yu
S ад
f ад u 1
где fад = n – m — количество степеней свободы,
равное разности количества опытов n и количества
коэффициентов в уравнении регрессии m.
Дисперсия адекватности будет тем меньше, чем
лучше совпадают расчетные значения параметра
с экспериментальными данными
23
24.
2. Определяется дисперсия воспроизводимости,показывающая точность определения параметра в
опыте
В случае, если для каждого сочетания уровней
факторов проводилось несколько параллельных
опытов, ищутся дисперсии Su2 для каждой группы
опытов, проверяется их однородность и затем
определяется средневзвешенная дисперсия Sсв2 ,
которая и принимается в качестве дисперсии
воспроизводимости Sв2.
Если параллельные опыты не проводятся, то в
качестве средневзвешенной дисперсии принимается
Yпред
2
S в
2
где ΔYпред — предельная
2
абсолютная погрешность определения выходной 24
величины, определяемая по классу прибора
25.
3. Проверяется однородность дисперсийадекватности и воспроизводимости
2
F Sад
n
2
S в F
f ад , f в
— количество степеней
fв
nп u 1
свободы дисперсии
воспроизводимости;
u 1
nп u — количество параллельных опытов для u-го
сочетания уровней факторов
Если расчетное значение критерия Фишера
окажется меньше табличного, то полученное
уравнение регрессии адекватно эксперименту с
уровнем значимости α
25